2. Univariate Deskriptivstatistik (fe/lm) Flashcards
(36 cards)
wofür braucht man Lagemasse?
was für welche gibt es? (7)
um zu beschreiben, wie die Verteilung im Durchschnitt ist. Sie beschreiben die Lage der Verteilung.
Modus
Median
arithmetisches Mittel
gewogenes arithmetisches Mittel
geometrisches Mittel
getrimmtes Mitteol (robustes Lagemass)
winsorisiertes Mittel (robustes Lagemass)
Box- und Whiskers-Diagramm:
was beschreibt die Box bzw. wo befindet sie sich/durch was ist sie begrenzt, welche Merkmale besitzt sie?
die Box ist unten begrenzt durch Q1 und oben durch Q3.
in der Box befinden sich also 50% der Werte.
der Strich in der Box repräsentiert den Median.
der Abstand zwischen Q1 und Q3 ist der Interquartilsabstand (Q3-Q1 = IQA)
Interquartilsbereich = IQB = [Q1; Q3]
Box- und Whiskers-Diagramm:
beschreibe die Whyskers und wie sich ebd. berechnen lassen.
die Whyskers beschreiben, wie weit der der Wert über den IQA hinausgehen –> breite Verteilung = lange Linien; schmale Verteilung = kurze Linien
der obere Whyskers lässt sich berechnen durch: Q3+1.5*IQA bzw. Wert direkt darunter (wenn der Wert Q3+1.5*IQA nicht in der Verteilung vorhanden ist)
der untere Whyskers lässt sich berechnen durch: Q1-1.5*IQA bzw. Wert direkt darüber (wenn der Wert Q1+1.5*IQA nicht in der Verteilung vorhanden ist)
Box- und Whiskers-Diagramm:
wie definieren sich Ausreisser und Extremwerte?
Ausreisser befinden sich im Bereich zwischen Q3 bzw. Q1 +/- 1.5*IQA und Q3 bzw. Q1 +/- 3*IQA
Box- und Whiskers-Diagramm:
je nachdem wo der Median in der Box liegt, lässt sich etwas über die Kurvenform sagen. erkläre.
wenn:
Md genau in der Mitte = symmetrisch
Md in der oberen hälfte = rechtssteil
Md in unterer Hälfe = linkssteil
kleiner Tipp: rotiere die Box im Uhrzeigersinn um 45° –> strich auf der rechten Seite = rechtssteil, Strich auf der linken Seite = linkssteil
Stammblatt:
was kann man beim Stammblatt ablesen?
mache ein Beispiel
Häufigkeit (Frequency) –> wie viele Blätter hat der Stamm (Modus bestimmbar–> dort wo die höchste Häufigkeit)
- *Stamm** –> gibt die Breite einer Klasse / Intervals an
- -> ob es sich um Zehner, einer, Zehntel usw handelt.
Blätter –> eine Zahl = ein Blatt = ein Messwert bzw. eine Person
z.B. sortierte Urliste {12,23.6,25,32,32.7,34,40.01,49}
Frequency Stem & Leaf
1 1 | 2 2 2 | 35 3 3 | 224 2 4 | 09
Stem width: 10 each leaf: 1 case
was ist der Modus (Md)?
für welche Skalenniveaus ist er bestimmbar (sinnvollerweise)?
Modus = Merkmalsausprägung, die am häufigsten vorkommt (wenn es sich um Kategorien handelt nimmt man die Kategorienmitte)
er ist bei allen Skalenniveaus bestimmbar, aber ACHTUNG: bei ordinalskalierten Daten macht es wenig sinn, wenn es Rangdaten sind (und jeder Rang nur einmal vorkommt) oder bei verhältnisskalierten Daten, bei denen man bspw. die Reaktionszeit so genau bestimmt, dass jeder Wert nur noch einmal vorkommt.
was ist der Median?
was ist die Formel für den Median bei:
a) ungeradem n
b) geradem n
der Median teilt die Werte in zwei gleich grosse Teile –> 50% der Werte liegen überhalb des Medians und 50% der Werte liegen unterhalb des Medians.
x = Messwert n+1/2 = stelle in der Liste

welche Eigenschaft besitzt der Median?
die Summe der AbweichungsBeträge aller Messwerte vom Median ist kleiner als die Summe der Abweichungsbeträge von irgend einem anderen Wert.
WICHTIG: Der Betrag –> |x| hebt die Vorzeichen auf
heisst so viel wie: wenn man den Betrag von den jeweiligen (Messwerte minus den Median) zusammenzählt, ist das Resultat das kleinstmögliche, als wenn man bspw. anstatt vom Median die Abweichung vom Mittelwert

Arithmetisches Mittel:
was ist es, was ist die Formel dazu?
M, Mx xquer = Mittelwert = Summe aller Werte, geteilt durch die Anzahl Werte

Arithmetisches Mittel (wenn ein Wert mehrere Male vorkommt) Formel
- aj bezeichnet hier die Merkmalsausprägung
- K: Anzahl der Merkmalsausprägung
- nj: absolute Häufigkeit von aj
- n: Anzahl Personen

was ist die erste Eigenschaft des arithmetischen Mittels? (bezüglich summe der Abweichungen)
- Summe der Abweichungen vom Mittelwert beträgt stets 0

was ist die zweite Eigenschaft vom arithmetischen Mittel?
(bezüglich Summe der quadrierten Abweichungen)
die Summe der quadrierten Abweichungen der Messwerte vom Mittelwert ist immer kleiner als die (quadrierte) Abweichung von einem anderen Wert

was ist die dritte Eigenschaft des arithmetischen Mittels?
(bezüglich Addition)
wenn man zu jedem Messwert Xm eine additive Konstante a addiert, verändert sich der Mittelwert um genau diese Konstante.
was ist die vierte Eigenschaft des arithmetischen Mittels?
wenn man jeden Messwert Xm mit einer Konstante b multipliziert, verändert sich der Mittelwert auch um genau dieses Multiplikat.
beachte: Punkt vor Strich

was folgt aus der dritten und vierten Eigenschaft des arithmetischen Mittels? (Addition einer Konstante und Multiplikaiton einer Konstante)
es folgt eine lineare Transformation bzw. man kann eine lineare Transformation vornehmen

Vergleiche Modus, Median und Mittelwert (6).
- Median repräsentiert die Lage einer Verteilung nach dem Kriterium der kleinsten Absolutabweichung
- Arithmetisches Mittel repräsentiert die Lage einer Verteilung nach dem Kriterium der kleinsten Quadrate
- Mittelwert = gut bei symmetrischen unimodalen Verteilungen
- Mittelwert reagiert sensitiv auf extreme Werte
- der Median ist besser für die Interpretation geeignet, wenn es extreme Werte hat
was ist das gewogene arithmetische Mittel (GAM) bzw. wofür braucht man es?
beschreibe die Formel
man braucht es, wenn man die Mittelwerte über mehrere Stichproben hinweg mitteln will.
–> man muss die Stichprobengrösse noch gewichten (kann nicht einfach die Mittelwerte vergleichen)

was ist das Geometrische Mittel (GM)? wann kann man es anwenden, was erreichen wir damit?
beim GM wird die Relation mitberücksichtig –> das GM behält die Relation über die Messwerte
nur für Verhältnis- und absolutskalierte Daten.
–> es wird aufmultipliziert

Bsp. GM des Lebensalter von 4 Personen im alter von 42, 43, 55, 61

Beispiel für das GAM:
n1 = 100 Studierende mit dem Mittelwert von 24 Punkten
n2 = 80 Studierende mit dem Mittelwert von 20 Punkten
wie sieht die Formel aus?

was für robuste Lagemasse kennst du? für was sind ebd. überhaupt?
bei robusten Lagemassen wurde das Problem der Aussreisser behoben. es gibt u.a.:
das getrimmte Mittel (xquer tief t)
das winsorisierte Mittel (xquer tief w)
erkläre das getrimmte Mittel
gib ein Beispiel
es wird eine bestimmte Anzahl an “kleinsten Werten” und eine bestimmte Anzahl an “grössten Werten” entfernt
Bsp. es sollen 20% der Werte entfernt werden (bei n=10)
1,7,18,20,25,33,39,45,113,1101
–> 0.2*10= 2 –> es werden also die untersten und obersten zwei Werte entfernt, es bleibt: 18,20,25,33,39,45
- -> Xt= (18+20+25+33+39+45) / 6 = 30
- -> zum Vergleich: Mx = 140.2
–> WENN DAS ERGEBNIS KEINE GANZE ZAHL IST, WIRD ES ABGERUNDET!
Was ist das Problem beim getrimmten Mittel?
Extremwerte werden entfernt, was ein sehr unökonomisches Vorgehen ist, da man Daten “verschwendet”.




