FOST02 Deskriptive und explorative Datenanalyse Flashcards
(20 cards)
Deskriptive Statistik
Die deskriptive Statistik vereint alle Methoden, mit denen empirische Daten zusammenfassend dargestellt und beschrieben werden können. Dazu dienen Kennwerte, Grafiken und Tabellen.
Explorative Statistik
Erkennen und Beschreiben von eventuellen Mustern in den Daten
Inferenzstatistik
Daten werden geprüft, ob sie statistisch auf die Population verallgemeinert werden können
Was sind Anteile und Häufigkeiten und wie werden sie am besten dargestellt?
- Daten auf Normalskalenniveau (z.B. Geschlecht o. Familienstand) können als Anteile oder Häufigkeiten dargestellt werden
BEISPIEL: 20 von 50 Versuchspersonen sind Frauen = Anzahl entspricht einem Frauenanteil von 40% - Darstellung in Häufigkeiten und Anteilen ist ab Daten im Ordinalskalenniveau nicht mehr effizient
Was ist eine Häufigkeitsverteilung?
Z.B. im Histogramm werden die Anzahl der Personen auf der Y-Achse eingetragen, auf der x-Achse ist die Variable, die wir untersucht haben eingetragen: Musikstile. Daher heißt die x-Achse (auf der die Merkmale stehen) auch Merkmalsachse.
Die Anzahl der Personen, die in jeder (Musik-)Kategorie liegen wurden ausgezählt. Durch die Auszählung kann man nun sehen, wie die untersuchten Personen ihren Musikgeschmack auf die 3 Kategorien aufteilen. Das Histogramm stellt daher eine HÄUFIGKEITSVERTEILUNG da.
Modalwert (Modus)
Der Modalwert ist ein Lagemaß.
* Der Modalwert oder auch Modus einer Verteilung gibt die Merkmalsausprägung an, die am häufigsten vorkommt. In genannten Beispiel war das “Rock” - weil dieses Merkmal am meisten ausgeprägt war.
Median
Der Median ist ein Lagemaß.
* Der Median ergibt sich, wenn man alle Werte einer Verteilung der Größe nach aufschreibt und den Wert sucht, der genau in der Mitte steht. Liegt die Mitte zwischen zwei Werten, so wird von diesen beiden Werten der Mittelwert gebildet.
Bsp.: 2,2,3,4,4,4,4,4
- sind Median und Modalwert nicht identisch, weiß man, dass man es mit einer NICHT-SYMMETRISCHEN Verteilung zu tun hat.
- Median ist brauchbar ab für Daten ab Ordinalskalenniveau
Mittelwert (Formel) (Lagemaß)
Der Mittelwert ist ein Lagemaß.
*M= Summe aller Werte, die i Personen abgegeben haben (Alle Angaben werden summiert) geteilt durch Anzahl der Personen, N
Ausreißer können den Mittelwert verfälschen, daher sollte in manchen Fällen lieber der Median verwendet werden.
Bsp. Die meisten Leute haben eine 1 bei Klassik angegeben, 2 vereinzelte haben 4 und 5 angegeben. Der Median wäre bei 1, der Mittelwert wäre sehr viel höher, weil die Summe berechnet wird.
Wo sollte der Mittelwert vermieden werden?
Bei Ordinaten Daten
Zählen Sie die zulässigen Lagemaße bei verschiedenen Skalenniveaus auf
- nominal (Familienstand, Wohnort) - Modalwert
- ordinal (Ranking von Hochschule, Tabellenplatz im Sport) - Modalwert, Median
- metrisch (Länge, Gewicht, Alter) - Modalwert, Median, Mittelwert
Streuungsmaße
Eine Häufigkeitsverteilung ist immer durch ihre Lage und ihre Streuung charakterisiert. Zu jedem Lagemaß muss auch ein Streuungsmaß angegeben werden.
Beispiel Mittelwert von 10 in Rom und Berlin. Die einzelnen Werte weichen bei Berlin sehr stark ab
Aus was ergibt sich die Spannweite (Range)?
Aus der Differenz des höchsten und des niedrigsten vorliegenden Wertes
Varianz und Standardabweichung
Formeln -> Formelsammlung
Erst die Varianz berechnen, dann die Standardabweichung
Varianz als Schlüsselbegriff in der Statistik
- Variation von Daten
*
Das Gesetz der großen Zahlen
Je größer eine Stichprobe ist, desto stärker nähert sich die Verteilung der erhaltenen Daten der wahren Verteilung der Population an
Bedeutung:
- wir vertrauen Werten aus großen Stichproben mehr, als Werten aus kleinen Stichproben
- Stichproben ab einer Größe von 30 Personen liefern relativ zuverlässige Ergebnisse
Wie wird die Streuung in Tabellen angegeben?
Durch einen verlängerten Strich
Was fällt unter symmetrische und schiefe Verteilungen?
- zufällige Abweichungen: kommt zustande, wenn in einer Stichprobe untypische Werte oder Ausreißer auftreten, die die Verteilung in eine Richtung verzerren -> kann verhindert werden, wenn man hinreichend große Stichproben nutzt
- systematische Verzerrung: wenn die Streuung der Werte in eine Richtung eingeschränkt ist. Dies passiert, wenn die Werte, die gemessen werden sollen, sehr nahe an einem Pool dran sind,.
Beispiel: wie oft waren Sie verheiratet?
Meistens Antworten liegen bei 0 oder 1, negativ gibt es nicht - Deckeneffekt: die Verteilung stößt “an die Decke” des Wertebereichs
Was sind unimodale und bimodale Verteilungen?
- bimodale Verteilung: die Verteilung weist zwei häufigste Gipfel auf; eine Variable hat zwei Merkmalsausprägungen, die sehr häufig vorkommen
- > kann bei stark polarisierenden Fragestellungen vorkommen
- > Mittelwert ist nicht repräsentativ, weil es keine Mitte gibt
- unimodale Verteilung: die Verteilung weist nur einen Gipfel auf
- multimodale Verteilung: weist mehrere Gipfel auf
Was ist eine Normalverteilungen?
Eine Verteilung, die symmetrisch ist und eine typische Glockenform aufweist
Was ist die z-Standardisierung?
Umrechnen aller Ergebnisse aus verschiedenen Studien auf eine einheitliche Skala
-> Formel