Deskriptive Statistik mit SPSS – Explorative Datenanalyse

Explorative Datenanalyse mit IBM SPSS Statistics

Der eigentliche Zweck der Datenexploration mit SPSS ist die Analyse der Daten an sich. Vor Klärung des eigentlichen Forschungsinteresses (Problemstellung in Empirische Sozialforschung, Marktforschung, Medizinische Statistik etc.) können mit SPSS die Daten in Bezug auf folgende Angelegenheiten näher beleuchtet werden:

  • Eingabefehler
  • Überprüfung der Verteilung
  • Geeignete Kennwerte zur Beschreibung (Deskription) der Daten

Die Prüfung auf Eingabefehler ist standardmäßig unter dem separaten SPSS-Menüpunkt  „Berichte“-„Fallzusammenfassungen“ möglich, was bei großen Datenmengen jedoch viel Zeit kostet. Dann kann es besser sein, den Umweg über die Häufigkeitsauszählung zu nehmen (siehe oben).

Der SPSS-Menüpunkt „Explorative Datenanalyse“ enthält fast alle Kennwerte, die auch unter „Häufigkeiten“ berechnet werden können, mit Ausnahme der Quartile, Perzentile und Modalwerte. Dafür kommen hier explorative Kennwerte ins Spiel:

  • Maximum-Likelihood-Schätzer (kurz „M-Schätzer“) – zur Verringerung des Einflusses extremer Ausreißer auf die Lagemaße
  • Ausreißer – Auflisten der Ausreißer für die betrachtete Variable
  • „Gestutzte Mittelwerte“ – die unteren 5 Prozent und die oberen 5 Prozent werden von der Analyse ausgeschlossen.

Zur Explorativen Datenanalyse müssen die zu untersuchende Variable(n) in SPSS als abhängige Variable festgelegt werden. SPSS bietet auch die Möglichkeit, Analysen getrennt nach Fallgruppen durchzuführen (dafür dann zusätzlich die Festlegung einer Fallgruppe als Faktor). Eine nützliche Realisierung bei der Datenexploration mit SPSS sind die grafischen Darstellungen: Histogramme samt Stängel-Blatt-Diagramme (letztere kombinieren die Merkmale eines Histogramms mit einer Strichliste), Boxplots und Q-Q-Plots. Das folgende Beispiel zeigt die Q-Q-Plots und Boxplots zu Rohdaten aus einer Beobachtungsstudie im Krankenhaus, bei der es darum ging herauszufinden, wie oft die medizinischen Angestellten sich täglich die Hände waschen, um die Übertragung von Infektionen zu vermeiden.

„Q-Q-Plots“ sind Diagramme zur visuellen Prüfung auf Abweichungen von der Normalverteilung. SPSS gibt zwei Arten solcher Plots aus: ein normales und ein trendbereinigtes Normalverteilungsdiagramm. Als Beispiel zeigen wir die Ergebnisse einer Beobachtungsstudie, bei der in einem Krankenhaus (Hospital) die Anzahl der Händewaschungen des medizinischen und pflegerischen Personals aufgenommen wurde (Umfang der Stichprobe: N = 126 Personen). Der normale Q-Q-Plot sieht dann so aus:

Normales Q-Q-Diagramm (Beispiel Beobachtungsstudie)

Man erkennt, dass die Anzahl der täglichen Waschungen zwischen 5 (niedrigster Wert) und 44 (höchster Wert) liegt. Bei exakter Normalverteilung würden die beobachteten Werte (Punkte) auf der Linie liegen (erwartete Normalverteilung). Das ist hier offensichtlich nicht der Fall, was quantitativ mit dem Lilliefors-Test (eine Variation des Kolmogorow-Smirnow-Tests) und dem Shapiro-Wilk-Test bestätigt werden kann. Beide Testergebnisse werden in SPSS tabellarisch ausgegeben. Die Tabelle zeigt, dass die Irrtumswahrscheinlichkeiten p für beide Tests unter dem vereinbarten Grenzwert zum Signifikanzniveau (p < 0,05) liegen, das heißt die beobachtete Verteilung weicht signifikant von der Normalverteilung ab.

Kolmogorow-Smirnow-Test und Shapiro-Wilk-Test auf Normalverteilung zum Beispiel

In der trendbereinigten Q-Q-Diagramm-Version werden die Abweichungen zwischen den beobachteten und den erwarteten Werten in Abhängigkeit der beobachteten Werte abgebildet. Auch hier erkennt der Betrachter schnell, dass die beobachteten Werte stark von der Normalverteilung abweichen. Wären sie normalverteilt, würden sie auf oder besonders nah an der horizontalen Line liegen, die den Nullpunkt markiert.

Trendbereinigtes Q-Q-Diagramm (Beispiel Beobachtungsstudie)

In beiden Q-Q-Diagramm-Varianten werden die beobachteten Werte auf der x-Achse und die erwarteten Werte auf der y-Achse dargestellt, wobei die Werte in z-Werte linear transformiert werden („Z-Transformation“). Z-Werte sind standardisierte Realisierung von x-Werten. Bei der Standardisierung einer Variable wird zugleich zentriert und normiert. Die resultierende standardisierte Variable hat einen Mittelwert von Null und eine Varianz von Eins.

Der nachfolgend gezeigte Boxplot zum selben Beispieldatensatz ist so zu interpretieren: Die Box ist der Bereich zwischen dem ersten und dritten Quartil, die Linie in der Box ist der Median. Gelegentlich werden dazu besonders kleine oder große Werte markiert; so gibt es im Beispiel eine Person (Nr. 15 der SPSS-Reihe), die sich auffallend oft die Hände wäscht.

Beispiel für einen Boxplot in der SPSS-Ausgabe

Die Explorative Datenanalyse in SPSS liefert also mit einfachen Mitteln einen hohen Erkenntnisgewinn.

zurück

 

Zum Kontaktformular

 

© business-ghostwriter.de

Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Durch Ihren Besuch stimmen Sie dem zu.