5. Datenkontrolle Flashcards Preview

Statistik I > 5. Datenkontrolle > Flashcards

Flashcards in 5. Datenkontrolle Deck (19)
Loading flashcards...
1

Wann liegt Non Random Missing vor?

Es liegt vor wenn das Fehlen des Wertes nicht von die Variablen des Datensatzes vorhergesehen werden kann

2

Problem bei NRM

Jede Form der Ersetzung ist sehr schwierig

3

Notwendigkeit der Datenkontrolle

- Primäre Aufgabe der Statistik: Datenanalyse
- man muss sich fragen: wie ist diese Datei entstanden?

4

Erhebungsmethoden

1. Befragungsmethode („Standardmethode“)
• schriftlich —> sehr ökonomisch
• Interview —> offen, teilstandardisiert und standardisiert
2. Beobachtung
3. Neue Datenquellen (EEG, Blutwerte, Online-Studien)

5

Wofür müssen die Daten vor der Analyse kontrolliert werden?

— Verständnis der VPn
— Fehleingaben
— Plausibilität

6

Umgang mit Ausreißern?

1. mit und ohne Ausreißern rechnen
2. Gibt es Unterschiede?
3. Nur signifikante Ergebnisse mit Ausreißern —> kritische Diskussion

WINSORISIEREN

7

Winsorisieren

alle werte unterhalb der 5% Grenze —> werden durch den wert der unteren Grenze ersetzt

alle Wert oberhal ber 95% Grenze —> werden durch den Wert der oberen Grenze ersetzt

8

Winsorisieren: Vorteil?

SP Größe bleibt erhalten

9

Winsorisieren: Nachteil

keine gute Schaetzung des wahren Werts --> der ersetzte Wert ist falsch

10

Systematischer Dropout

Nur bestimmte Personen fallen raus
--> die am staerksten belasteten
--> die "schlechtesten"
--> die ungeeigneten
--> die am wenigsten motivierten

VERZERRUNG

11

"Missing Data"

wenn Werte im Datensatz fehlen, obwohl die entsprechenden Merkmalsauspraegungen empirisch vorhanden sind

12

Umgang mit Missing Data

listwise Deletion --> Person wird komplett aus der Analyse geschlossen
Pairwise Deletion --> Person wird teilweise ausgeschlossen
Ersetzung durch den Mittelwert
Regressionsimputation --> Vorhersage

13

Missing Data - Diagnose

- Anzahl fehlende Werte pro Variable und pro Person auftragen lassen

--> mehr als 5%?

- Suche nach Unterschieden zwischen Personen mit und ohne fehlende Werte
- Unterschiede innerhalb des Merkmals?

14

MCAR

Missing Completely at Random

- fehlende Werte sind VOLLKOMMEN ZUFAELLIG verteilt
- VPn mit fehlende Werte = VPn ohne

15

MCAR: Folgen

keine Verzerrung

16

MAR

Missing at Random

- Personen mit fehlenden Werten unterscheiden sich von Personen ohne
- Das Auftreten eines fehlenden Werts kann durch anderen Variablen vorhergesagt werden
- nicht von der untersuchten Variablen selbst

17

MAR: Folgen

Verzerrung
--> Ersetzungsverafhren moeglich

18

NRM

Non-Random Missing

- Personen mit fehlenden Werten unterscheiden sich von Personen ohne
- Das Auftreten von fehlenden Werten steht in Zusammenhang mit der Auspraegung der Person in DIESER Variable selbst

19

NRM: Folgen

Verzerrung
--> keine Ersetzungsverfahren moeglich