Deskriptive Statistik Flashcards

1
Q

Kann man mit Normalskalierung Mittelwert ausrechnen?

A

Nein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Maßzahlen

A

– absolute und relative Häufigkeiten, kumulierte Häufigkeiten

– Mittelwert, Standardabweichung, Varianz

– Minimum, Maximum, Spannweite

– Quartile, Quantile, Interquartilsdistanz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Grafiken

A

– Balkendiagramm, Kreisdiagramm

– Histogramm, Boxplot, Schiefe und Symmetrie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Deskriptive Statistik

A

Maßzahlen

Grafiken

Skalenniveaus

Robutsheit von Maßzahlen

Interpretation von Maßzahlen und Grafiken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Ziele der deskriptiven Statistik

A

Übersichtliche Beschreibung der Daten mit Hilfe von – Tabellen & Maßzahlen
– Grafiken

  • Aufspüren von Eingabefehlern & Ausreißern
  • Deskriptive Statistik = Beschreibende Statistik
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Merkmalsträger

A

• Ein Merkmalsträger ist eine Person oder ein Objekt, dessen Eigenschaften wir beobachten oder messen.

– zB Studierender, Österreicher, österr. Pensionist, Auto

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Merkmal

A

eine Eigenschaft der Merkmalsträger.

– zB Geschlecht, Alter, Lieblingsjahreszeit

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Merkmalsausprägung

A

in möglicher Wert oder Stufe eines Merkmals.

– zB Geschlecht: männlich, weiblich
– zB Lieblingsjahreszeit: Frühling, Sommer, Herbst, Winter
– zB Alter: 18 Jahre, 19 Jahre, 20 Jahre, 21 Jahre, …

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Auszug aus der Datenmatrix

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Absolute Häufigkeiten

A

Von den 25 Personen sind 5 männlich und 20 weiblich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Relative Häufigkeiten (in Prozent)

A

Von den 25 Personen sind (5 / 25) = 0.2 = 20 % männlich und 1 – 0.2 = 0.8 = 80 % weiblich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Absolute Häufigkeiten und relative Häufigkeiten

A

beschreiben die Daten ohne Informationsverlust

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Häufigkeiten zählen: Tabellenform

A

Die Tabelle beschreibt die Daten ohne Informationsverlust!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Balkendiagramm

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Kreisdiagramm

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Rechnen mit Häufigkeiten

A

10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich um 10 – 8 = 2 Personen mehr für Frühling entschieden als für Winter.
– Ja, korrekt.

• 10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich 10 / 8 = 1.25 Mal so viele Personen für Frühling entschieden als für Winter.
– Ja, korrekt.

  • 10 Personen haben Frühling, 8 haben Winter gesagt. Also haben sich um 10 / 8 – 1 = 0.25 = 25 % mehr Personen für Frühling entschieden als für Winter. – Ja, korrekt.
  • 10 Personen haben Frühling, 8 haben Winter gesagt. Da 8 / 10 – 1 = – 0.2 = – 20 % ist, haben sich um 20 % weniger Personen für Winter als für Frühling entschieden. – Ja, korrekt.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q
A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Von den 25 Personen haben 10 Frühling und 8 Winter geantwortet. Wie viel Prozent der Personen haben sich für Frühling oder Winter ausgesprochen?

A

– Lösung: (10 + 8) / 25 = 18 / 25 = 0.72 = 72 %

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Von den 25 Personen haben 10 Frühling und 8 Winter angegeben. Wie viel Prozent der Leute haben Sommer oder Herbst geantwortet?

A

– Lösung A: 1 – (10 + 8) / 25 = 1 – 18 / 25 = 1 – 0.72 = = 0.28 = 28 %

– Lösung B: (25 – 10 – 8) / 25 = 7 / 25 = 0.28 = 28 %

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Modus

A

Jene Merkmalsausprägung, die am häufigsten genannt wurde, heißt Modus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Ordnung

A

Die Merkmalsausprägungen haben eine logische Reihenfolge, eine Ordnung

Daher sind das Balkendiagramm und die Häufigkeitstabelle in dieser Form irreführend

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Ist Mittelwert robust von Ausreißern

A

nein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Mittelwert bei ordinalskalierten Daten verwenden?

A

nein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Ist die Standartabweichung ein Lagemaß?
Nein
26
Grundgesamtheit vs. Stichprobe
Hier ist die Grundgesamtheit die Menge aller Studierenden der Ernährungswissenschaften (EW). • Da wir nicht alle Studierende befragen können (oder wollen), ziehen wir eine Stichprobe der Größe 25. • Je größer die Stichprobe, desto aussagekräftiger sind in der Regel die Tendenzen. – Ausnahme: Bei Verzerrungen (wie etwa Selektionbias
27
Qualitative Merkmale können
ordinalskaliert oder nominalskaliert sein
28
ordinalskaliert
Zwischen den Ausprägungen besteht eine Ordnung (Lieblingsjahreszeit, Gefahr von Genfood, Schulnoten)
29
nominalskaliert
Die Kategorien bzw. Ausprägungen haben keine Ordnung (Geschlecht, Lieblingsobst, Lieblingsfarbe)
30
dichotome Merkmale
binäre Variablen) haben genau zwei Ausprägungen (männlich/weiblich, Ja/Nein, Dafür/Dagegen).
31
Sinn und Unsinn des Modus
**• Ist der Modus bei der Größe sinnvoll?** – Nein, denn es gibt viel zu viele Merkmalsausprägungen. – Hier gibt es zB 4 Modi (163.5, 170.5, 172, 174.5). • Je weniger Merkmalsausprägungen, desto sinnvoller ist der Modus. • Denn der Modus soll idealerweise über mehrere unterschiedliche Stichproben hinweg stabil bleiben.
32
Kategorisierung von Daten
**Wir bilden (gleich große) Klassen in Form von Intervallen:** – (150, 155], (155,160], (160, 165], ..., (185, 190], (190, 195] – Eine Person mit 155 cm fällt noch ins Intervall (150, 155]. • Wir zählen, wie viele Personen in jede Klasse fallen. • Wir erhalten eine kategorisierte Version der Daten, in der wir zwar Genauigkeit verloren, dafür aber Überblick gewonnen haben. – Das Histogramm ist geboren! • Die optimale Anzahl an Klassen hängt von den Daten ab, je mehr Beobachtungen, desto mehr Klassen möglich.
33
Histogramm
34
Wie groß sind die Studierenden der Gruppe im Durchschnitt / im Mittel? (Wo ist das Zentrum?)
Lagemaßen
35
Wie stark schwanken die einzelnen Körpergrößen der Studierenden? (Was spielt sich um das Zentrum ab?)
Streuungsmaßen.
36
Starke Streuung vs. geringe Streuung
Je weniger die Daten streuen, desto ähnlicher sind sie sich. Je mehr die Daten streuen, desto unähnlicher sind sie sich.
37
Mittelwert
gibt an, wie groß der Wert einer Beobachtung im Durchschnitt ist
38
Standardabweichung
Das zum Mittelwert passende Streuungsmaß ist die Standardabweichung. ``` Sie gibt (salopp gesagt) die durchschnittliche Abweichung einer Beobachtung vom Mittelwert an. ```
39
Die Formel für den Mittelwert
40
Die Formel für die (Stichproben)Varianz
41
Die Formel für die (Stichproben)Standardabweichung
42
Wie groß ist ein männlicher Studierender im Durchschnitt? • Die Körpergrößen der 5 männlichen Studierenden: 189 cm, 168 cm, 190 cm, 188 cm, 176 cm
43
Und wie groß ist die entsprechende Standardabweichung? • Die Körpergrößen der 5 männlichen Studierenden: 189 cm, 168 cm, 190 cm, 188 cm, 176 cm
44
Diese Frage kann mit dem gewichteten Mittelwert beantwortet werden.
45
Wie groß ist eine Person im Durchschnitt?
Wir gewichten die Mittelwerte entsprechend ihrer relativen Häufigkeit. • Wir gewichten also das Durchschnittsgewicht der Männer mit 5/25 und jenes der Frauen mit 20/25
46
Konzepte in der Übersicht
* Mit dem Mittelwert und der Standardabweichung gepaart mit dem Histogramm haben wir einen schönen Überblick. * Dafür haben wir Genauigkeit verloren; wir haben also einen Informationsverlust in Kauf genommen.
47
Minimum
xmin ist die kleinste Ausprägung
48
Maximum
xmax die größte Ausprägung.
49
Spannweite Berechnen
Range Berechnung aus dem Minimum und Maximum R= Xmax- Xmin Wir können also mit dem Minimum, dem Maximum und der Spannweite jenen Bereich beschreiben, in dem alle Daten (also 100 %) der Stichprobe liegen.
50
51
Median
* Der Median (Zentralwert) teilt die Daten derart in zwei Hälften, dass 50 % der Daten kleiner gleich und 50 % der Daten größer gleich diesem Wert sind. * Um wie viel die Daten größer oder kleiner sind, spielt (im Gegensatz zum Mittelwert) keine Rolle.
52
Minimum, Maximum, Spannweite, Median
Vor der Bestimmung müssen die Daten sortiert werden: 168, 176, 188, 189, 190. • Das Minimum ist also 168 cm, das Maximum 190 cm. • Daraus ergibt sich die Spannweite von 190 – 168 = 22 cm. • Der Median ist 188 cm. 3 Werte sind kleiner gleich, 3 Werte größer gleich diesem Wert.
53
2. Quartil
54
1. Quartil
unteres Quartil
55
3. Quartil
oberes Quartil
56
Quartile
Gemeinsam mit dem Minimum und Maximum teilen die Quartile die Daten derart in 4 Teile, dass in jede Klasse (ungefähr) 25 % der Daten fallen
57
Interquartilsspannweite
25 % der Daten sind kleiner gleich und 75 % der Daten größer gleich dem 1. Quartil. • 75 % der Daten sind kleiner gleich und 25 % der Daten größer gleich dem 3. Quartil. • Aus dem 1. Quartil Q Aus dem 1. Quartil Q 1 und dem 3. Quartil Q 3 bestimmen 1 und dem 3. Quartil Q3 bestimmen wir die Interquartilsdistanz (Interquartilsspannweite):
58
50 % zentralsten Daten
Wir können also mit dem 1. und 3. Quartil sowie der Interquartilsdistanz jenen Bereich beschreiben, in dem die 50 % zentralsten Daten der Stichprobe liegen.
59
p–Quantil
Für 0 \< p \< 1 teilt das p–Quantil die Daten derart in zwei Teile, dass (ungefähr) 100 · p % der Daten kleiner gleich und (ungefähr) 100 · (1 – p) % der Daten größer gleich dem p–Quantil sind.
60
Berechnung von Quantilen
Eine einfache und allgemeine Prozedur für die Berechnung von Quantilen (also auch Median und Quartile) steht in der Formelsammlung.
61
p = 0.5
erhält man den Median
62
p = 0.25
das 1. Quartil
63
p = 0.75
3. Quartil.
64
p = 0.9
Für p = 0.9 erhält man zB das 90%-Quantil. 90 % der Daten sind kleiner gleich und 10 % der Daten sind größer gleich diesem Wert.
65
Berechnung der Quantile
Für die Berechnung der Quantile existieren unterschiedliche Berechnungsmethoden
66
Boxplot
67
Ausreißer
Sie ist mehr als das 1.5-fache des IQR vom 3. Quartil entfernt.
68
extremer Ausreißer
Der Abstand zum 3. Quartil ist größer als das 3-fache des IQR.
69
Ausreißer Eingabefehler
Wir sollten uns an dieser Stelle fragen, ob die Ausreißer bedenklich sind, ob sie also plausibel sind oder ob es sich um Eingabefehler handelt.
70
Maßzahlen, die anfällig sind gegenüber Ausreißern,
eignen sich besonders gut dazu Eingabefehler aufzuspüren
71
Maßzahlen, die robust sind gegenüber Ausreißern
lassen sich von Ausreißern deutlich weniger stark beeinflussen.
72
Robuste Maße sind
– Median – Unteres Quartil, oberes Quartil und Interquartilsdistanz
73
Anfällige Maße sind:
– Minimum, Maximum, Spannweite – Mittelwert, Standardabweichung und Varianz
74
Ausreißer, Plausibilität und Eingabefehler
Es ist durchaus plausibel, dass es Studierende gibt, die 28 oder 33 Jahre alt sind, also sind die Ausreißer nicht bedenklich. • Ein Beispiel für einen häufigen Eingabefehler: Einige Körpergrößen werden in m statt in cm eingegeben. – Das hat Auswirkungen auf den Body Maß Index (BMI), der sich unter anderem aus der Größe bestimmt.
75
quantitative Merkmale
Körpergröße und Alter sind quantitative Merkmale. • Quantitative Merkmale lassen sich messen, zählen oder wiegen, sie sind metrisch skaliert. • Quantitative Merkmale können diskret oder stetig sein
76
diskrete Quantitative Merkmale
: Es gibt wenig unterschiedliche bzw. abzählbar viele Ausprägungen (Anzahlen allgemein, Lebensjahre)
77
stetige Quantitative Merkmale
: Es gibt viele unterschiedliche bzw. überabzählbar viele Ausprägungen (Körpergröße, Nettoeinkommen)
78
• SPSS unterscheidet nicht zwischen diskret und stetig.
Bei der Erstellung von Grafiken kann es jedoch ratsam sein, sich diese Unterscheidung in Erinnerung zu rufen.
79
Differenzen sinnvoll interpretiert
Im Gegensatz zu ordinalskalierten Merkmalen können bei metrisch skalierten Merkmalen Differenzen sinnvoll interpretiert werden.
80
Die Note auf eine LV ist ordinalskaliert.
Es ist nicht klar, wie stark sich die Leistung von zwei Studierenden unterscheidet, die einen 4er bzw. 5er haben
81
Die Punkte, die im Laufe einer LV erreicht wurden, sind metrisch skaliert
– Der Punkteunterschied zweier Studierender lässt sich sinnvoll interpretieren
82
Schiefe.
Zur Bestimmung der Symmetrieeigenschaft einer Verteilung eignet sich die Schiefe
83
Normalverteilung
Als Referenz zur optischen Beurteilung, ob Daten symmetrisch um den Mittelwert verteilt sind, dient oftmals die Normalverteilung. • Die Normalverteilung ist symmetrisch.
84
Normalverteile Saten, symmetrisch, Schiefe nahe 0, Mittelwert und Median fast gleich
85
rechtsschiefe Daten, Schiefe \>0, Mittelwert \> Median
86
Normalverteile Daten, symmetrisch, Schiefe nahe 0, Mittelwert und Median fast gleich
87
symmetrisch, baer nicht normalverteilt
88
Boxplot Schiefe
Zur Interpretation der Schiefe den Boxplot (in Gedanken) um 90 Grad im Uhrzeigersinn drehen Die Verteilung ist rechtsschief. • Die beiden Ausreißer Wie alt sind Sie? Interpretation des Boxplots (Nr. 17 und 23), sind wiederum nicht bedenklich.