Statistik I Flashcards

1
Q

Welche Rolle spielt die Statistik in der Psychologie

A
  • Gehört zu den Grundlagen der Psychologie
  • Ermöglicht Erforschung beobachtbaren Verhaltens
  • Dient zur Feststellung ob beobachtete Daten einen Zusammenhang haben, ob Fehlschlüsse vorliegen
  • Bestimmung von Wahrscheinlichkeiten
  • Schließung von Teilmenge auf Gesamtmenge
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Unterschied Population und Stichprobe

A
  • Population ist die Gesamtheit aller statistischen Einheiten auf die sich die Fragestellung der Untersuchung richtet
  • Population ist aber meist zu groß, und dementsprechend gesamte Untersuchung zu Aufwendig
  • Daher zieht man Stichproben der Population, die möglichst genau sein sollen

-Stichprobenarten: einfache-, geschichtete-Stichproben und convenience sampling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Abgrenzung deskriptive- / Inferenzstatistik

A
  • deskriptive Statistik dient zur Beschreibung von einzelnen oder mehreren Datensätzen, auch Variablen genannt, die Ausprägungen / Beobachtungen bzw. Werte besitzen, die dann in Tabellen / Grafiken zusammengefasst werden können
  • Wichtige Statistiken sind z.B. Maße der zentralen Tendenz oder Streuung
  • deskriptiv: univariat (ein Merkmal) oder bivariat (mindestens zwei Merkmale)
  • Zusammengefasste Variablen können mit Hilfe der Inferenzstatistik von der Stichprobe auf die Population übertragen werden
  • So kann man Wahrscheinlichkeiten von Parametern bestimmen / schätzen und so aufgestellte Hypothesen testen
  • So kann von kleinen Gruppen (z.B. Labor) auf Population geschlossen werden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Warum ist die Bestimmung des Skalenniveaus von Bedeutung?

A
  • Teilt die Variable anhand ihres Informationsgehalts ein
  • Bildet die Basis für die Auswahl der statistischen Verfahren, mit denen die erhobenen Daten ausgewertet werden
  • je höher der Informationsgehalt, desto mehr Transformationen sind erlaubt, aber desto höher ist Aussagekraft
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Nominalskala

A

-R-I-O-N

  • niedrigster Informationsgehalt
  • unterschiedliche Werte repräsentieren Kategorien, die nicht sinnvoll in eine Reihe gebracht werden können (keine sinnvolle Rangfolge)
  • Zuordnung von Zahlen, Symbolen, Figuren, etc. zu den Werten
  • kein absoluter Nullpunkt
  • qualitativ

-A-O-D-Q
-Auszählen - ja
-Ordnen - nein
Differenzen bilden - nein
Quotienten bilden - nein

Psychologisch:
Geschlecht, Temperament, Konstitution

  • Beispiele:
  • Geschlecht
  • Studienfach
  • Wohnort
  • Augenfarbe
  • etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Ordinalskala

A

-R-I-O-N

  • dritthöchster Informationsgehalt
  • Bildung von Rangfolgen, die sinnvoll interpretiert werden können
  • keine Bildung von sinnvollen Abständen möglich
  • quantitativ

-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - nein
Quotienten bilden - nein

Psychologisch:
Noten, Arbeitszufriedenheit, Noten

  • Beispiele:
  • Umfragen Arbeitszufriedenheit:
  • Sehr zufrieden
  • Zufrieden
  • Mittelmäßig
  • Unzufrieden
  • Sehr Unzufrieden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Intervallskala

A

-R-I-O-N

  • zweit höchster Informationsgehalt
  • Bildung von Rangfolgen
  • Konstante Abstände
  • quantitativ

-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - ja
Quotienten bilden - nein

Psychologisch:
IQ, Punkte Pisa-Studie

  • Beispiele:
  • kein natürlicher Nullpunkt
  • IQ
  • Temperatur
  • “heute ist es wärmer als gestern”
  • zwischen 5°C und 20°C gleicher Abstand wie zwischen 30°C und 45°C
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Ratioskala

A

-R-I-O-N

  • höchster Informationsgehalt
  • Bildung von Rangfolgen
  • konstante Abstände
  • natürlicher Nullpunkt
  • quantitativ

-A-O-D-Q
-Auszählen - ja
-Ordnen - ja
Differenzen bilden - ja
Quotienten bilden - ja

Psychologisch:
Alter, Körpergröße, Gewicht

  • Beispiele:
  • wie Intervallskala, nur mit Nullpunkt
  • Alter
  • Geschwindigkeit
  • Preis
  • Größe
  • Zeit
  • Gewicht
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

qualitativ

A

qualitative Variablen besitzen unterschiedliche Ausprägungen, die verschiedene Eigenschaften der Variablen charakterisieren, sich jedoch nicht hinsichtlich qualitativer Aspekte wie z.B. der Intensität unterscheiden lassen

  • nicht in Zahlen ausdrückbar
  • Nominalskalierte Variablen sind immer qualitativ
  • z.B. Studienfach, Geschlecht
  • Frage: Was hat ihnen am besten gefallen?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

quantitativ

A

quantitative Variablen besitzen unterschiedliche Ausprägungen, die eine unterschiedliche Intensität eines Merkmals reflektieren

-in Zahlen ausdrückbar

  • mindestens Ordinalskalenniveau
  • Frage: Wie gut würden Sie das Produkt einschätzen (1-6)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

diskret

A

bei diskreten Variablen kann die Menge der Ausprägung durch natürlich endlich Abzählbare Zahlen repräsentiert werden
-z.B. Augenzahl beim Würfeln, Anzahl Personen in einer Gruppe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

stetig

A
  • die Menge der Ausprägungen ist nicht abzählbar
  • zwischen zwei Werten können unendlich viele andere Werte liegen (Intervalldenkweise)
  • z.B. Körpergröße, Länge, Temperatur, etc.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Maße der Zentralen Tendenz und Skalenniveaus

A

Arithmetisches Mittel (y-quer):

  • Mittelwert für Metrische Variablen
  • empfindlich gegenüber Ausreißern

Median (y med):

  • mittlerer Wert der geordneten Urliste
  • robust gegenüber Ausreißern
  • mindestens Ordinalskalenniveau
  • n gerade -> aufrunden

Modalwert / Modus (y mod):

  • am häufigsten vorkommender Wert
  • Hochpunkt der Verteilung
  • mindestens Nominalskalenniveau
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Lageregeln

A

-Schiefe von Verteilungen metrischer Variablen empfindlich gegenüber Ausreißern

y mod > y med > y quer = linksschief / rechtsteil
y mod < y med < y quer = rechtsschief / linkssteil
y mod ca. y med ca. y quer = ungefähr symmetrisch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Standardisierung IQ-Wert

A

100 + 15z

-> z = (IQ-100) / 15

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Standardisierung Z-Wert

A

100 + 10z

-> z = (Z-100) / 10

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Standardisierung T-Wert

A

50 + 10z

-> z = (T-50) / 10

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Standardisierung Stanine-Wert

A

5 + 2z

-> z = (Stanine-5) / 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Standardisierung PISA

A

500 + 10z

-> z = (PISA-500) / 100

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Standardisierung Abiturnotenskala

A

8 + 3z

-> z = (ABI-8) / 3

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Standardisierung Schulnote

A

3 + z

-> z = (NOTE-3) / 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Standardisierung

A
  • Ziel: Angabe der relativen Lage von Messwerten in einer Verteilung
  • wenn in Beziehung gesetzt, erkennt man unter- / überdurchschnittliche Ergebnisse zur Referenzgruppe

-z Standardisierungen geben die Abweichung eines Wertes vom Mittelwert in der Einheit Standardabweichung an

z i = y i / s y - y quer / s y

  • mindestens Intervallskalenniveau
  • Mittelwert: z y = 0
  • Varianz: z s² = 1
  • Standardabweichung z s = 1
  • erhöht Informationsgehalt
  • > durch Standardisierung verlieren Messwerte ihre ursprünglichen (unterschiedlichen) Messeinheiten und erhalten einheitliche Messeinheiten: Standardabweichung
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Nominalskaliert:

polytom

dichotom - natürlich / künstliche

A

polytom:
-mehr als 2 Ausprägungen (Familienstand: Ledig, Verheiratet, Verwitwet)

dichotom:
-genau 2 Ausprägungen (Geschlecht: Mann, Frau)

dichotom natürlich:
-von Natur aus 2 Ausprägungen (Geschlecht: Mann, Frau, Schwangerschaft: ja / nein)

dichotom künstlich:
-Bezug von Intervallskalierter Variable zu Grenzwert:
(Leute über 40 Jahre = 1 / Leute unter 40 Jahre = 0)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Wertebereich der t-Verteilung

A
    • Bis + unendlich, da symmetrische Funktion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Kovarianz
-beschreibt ein nicht normiertes Maß für Richtung und Stärke des Zusammenhangs zweier Variablen (x und y) bei 0 = kein linearer Zusammenhang
26
Varianz
- Streuung der Messwerte einer metrischen Variablen - (Summe quadrierter Abweichungen - (Anzahl x Mittelwert²)) x 1/Anzahl-1 - verliert Einheit
27
Variation
- Streuung der Messwerte einer metrischen Variablen - SS (Summe quadrierter Abstände) - Behält Einheit bei
28
Erklären Tau-b
- Zusammenhangsmaß für Ordinalskalierte Variablen - Rangbindungen in den einzelnen Variablen werden berücksichtigt - bei ungleicher Anzahl an Ausprägungen der Variablen kann Tau-b nicht -1/1 annehmen
29
Erklären Tau-c
- Zusammenhangsmaß für Ordinalskalierte Variablen - Differenz der Konkordanten und Diskonkordanten C/D in Beziehung gesetzt - bei mehr als 10 Paaren n>10 -> etwa normalverteilt
30
Standardschätzfehler
-positive Wurzel aus der Schätzfehlervarianz
31
Standardabweichung
- positive Wurzel aus der Varianz | - Entgegen der Varianz entspricht sie der Einheit, anhand derer die Variable gemessen wurde
32
Spezifität
- Anzahl der positiven Testausgänge, die auch korrekt sind | - (Kranke, die auch wirklich krank sind)
33
Sensitivität
- Anzahl der negativen Testausgänge, die auch korrekt sind | - (Gesunde, die auch wirklich gesund sind)
34
Was ist die lineare Regression?
- Beschreibt Zusammenhang zwischen Kriterium (AV) und Prädiktor (UV) - einfache lineare Regression: nur eine AV durch UV -> wird durch Regressionsgerade dargestellt - multiple lineare Regression: mehrere AV durch UV vorhergesagt -> Regressionsebene
35
Erklärte Varianz
- Kriteriumsvariable (AV) besteht aus 2 Teilen: - den durch UV vorhergesagten Teil (erklärte Variation) - den durch UV nicht erklärten Teil (nicht erklärte Variation) -um Güte der Prognose zu bestimmen wird die erklärte Variation ins Verhältnis zu Gesamtvariation gesetzt (Gesamtvariation = erklärte + nicht erklärte Variation) Relevante aufsummierte und quadrierte Abweichungen: - Abweichung eines beobachten Messwerts vom Mittelwert: Gesamtvariation - Abweichung eines vorhergesagten Wertes vom Mittelwert: erklärte Variation - Abweichung des beobachteten Werts zum Mittelwert: nicht erklärte Variation
36
Einfluss einer Beobachtung
- Einflussreiche Beobachtungen sind Beobachtungen, die in besonderem Ausmaß die Schätzer der linearen Regression beeinflussen und somit die Regressionsgerade verschieben - trifft vor allem bei Hebelpunkten zu - sind meist Ausreißer, aber nicht immer
37
Kohens K (Kappa)
- Übereinstimmungsmaß, das zeigt wie gut 2 Urteile übereinstimmen / abweichen - berücksichtigt Anteil zufällig übereinstimmender Urteile - wird verwendet um zu prüfen ob Klassifikationsschemata, Ratingskalen hinreichend objektiv sind - Voraussetzung ist symmetrische Häufigkeitstabelle - Zwei Beurteiler sollen unter Zuhilfenahme gegebener Kriterien zum gleichen Ergebnis kommen -> Kappa gibt an wie gut Urteile übereinstimmen Beispiel: 2 Gutachter diagnostizieren psychische Krankheiten Beispiel: Bei Assesment Center sollen Beobachter einschätzen ob Bewerber z.B. Blickkontakt gehalten hat ``` K= -1 Übereinstimmungen kleiner als unter Zufallsbildung erwartete Zahl K= 0 Beobachtungen = Anzahl zufälliger Urteile K= 1 Beobachtungen größer als Zufälle ```
38
Korrelation
- Pearson-Produkt-Moment-Korrelation - LINEARES Zusammenhangsmaß zwischen 2 Variablen - nur ab Intervallskala - je höher x, desto höher/niedriger y (-1;1) - je höher Maß ausfällt, desto häufiger treten Variablen zusammen auf - 0,1 schwach 0,3 mittel 0,5 stark - Nullkorrelation bedeutet nicht KEIN ZUSAMMENHANG, nur kein linearer! - sagt nichts über Zusammenhang aus! (A->B, B->A, C->A/B, A // B)
39
Platykurtische Verteilung
- weißt eine geringere Wölbung auf als eine Normalverteilung mit gleicher Varianz - negative Kurtosis (Wölbung)
40
Odds Ratio
- Verhältnis von Chancen / Odds von zwei Gruppen | - z.b Verhöltnis P(erkrankt | risiko) zu P(erkrankt | kein risiko) ist
41
Leptokurtische Verteilung
- weißt eine größere Wölbung auf als eine Normalverteilung mit gleicher Varianz - positive Kurtosis (Wölbung)
42
Konkordanz / Diskonkordanz
- bei zwei Wertepaaren | - Konkordanz liegt vor wenn xi > xj und yi > yj (und andersrum xj und yi < yj (und andersrum >)
43
Homoskedastizität
Fehlervarianzen einer Ausprägung für UV sind gleich
44
Hebelpunkte
Beobachtungen, die von vornherein potenziell einflussreiche Beobachtungen darstellen
45
Geschichtete Zufallsstichprobe
Population wird in Schichten eingeteilt und daraus werden Stichproben gezogen (Schüler in Bundesländern)
46
einfache Stichprobe
aus Population werden willkürlich Stichproben gezogen (alle gleiche Wahrscheinlichkeit)
47
Quotenstichprobe
Personen werden anhand speziellen Merkmals ausgesucht, sodass sie ein Abbild der Population ergeben (% Leute = Anteil Population)
48
convenience sampling
- Personen, die einfach zu erreichen sind werden ausgesucht - Zwillingsstudie einige wenige Zwillingspaare ->zu prüfen ob Merkmale einer repräsentativen Stichprobe erfüllt
49
Merkmale repräsentative Stichprobe
-Daten müssen angemessene Aussagen über zugrunde liegende Population erlauben, sodass Stichprobe ein verkleinertes Abbild der Population darstellt
50
Vollerhebung
- Alle Mitglieder der Population werden mit einbezogen - nur bei kleinen Populationen - z.B. Evaluation einer Vorlesung
51
Dummykodierung
- häufig verwendete Form der Kodierung von Nominalskalierten Variablen mit dichotomer Merkmalsausprägung - können so als Prädiktor in Regressionsanalyse aufgenommen werden - Dummyvariable erfasst die Differenz zwischen dem Mittelwert der ihr zugehörigen Gruppe zur Referenzgruppe - eine Gruppe Wert 1 eine Wert 0
52
Determinationskoeffizient R²
- bezeichnet den Anteil der durch die Regression erklärten Variation an der Gesamtvariation - PRE-Maß und stimmt im Fall der einfachen linearen Regressionen mit dem Quadrat der Korrelation überein - je höher R² desto höher ist erklärte Variation zur Gesamtvariation - je niedriger R² desto niedriger ist erklärte Variation
53
Cramers V
- Zusammenhangsmaß für Nominalskalierte Variablen - Chi² Statistik wird durch das theoretische Maximum dieser Statistik der zugrunde liegende Kontingenztabelle geteilt (mit r/c-1) - V = wurzel aus (X² / n * min (r/c-1)
54
Chi²
-misst den Unterschied zwischen der Kontingenz- und Indifferenztabelle anhand eines Wertes der zwischen 0 und unendlich liegt
55
Kontingenztabelle
- bivariate Häufigkeitstabelle - enthält absolute oder relative Häufigkeiten der Wertepaare zweier Variablen - in einer Zelle steht Häufigkeit für X und Y
56
Biseriale Korrelation
Zusammenhangsmaß für eine Intervallskalierte Variable und eine binäre Variable, die auf Dichotomisierung einer normalverteilten (metrischen) Variablen beruht
57
bedingte Häufigkeitsverteilung
relative Häufigkeit einer Variable X unter der Bedingung, dass andere Variable Y eine bestimmte Ausprägung hat
58
Indifferenztabelle
-enthält ausgehend von Randverteilungen einer Kontingenztabelle die aufgrund Unabhängigkeitsannahme zu erwartenden Häufigkeiten zweier Variablen X und Y
59
A-posteriori-Verteilung
-empirisch ermittelte Wahrscheinlichkeit als Ergebnis der Anwendung des Satz des Bayes - Wahrscheinlichkeit, dass Beobachtungen auf der Grundlage der Daten Gruppen zugewiesen werden - >Ergebnis von Satz des Bayes
60
A-priori-Verteilung
- Inzidenzrate genannt - wird aufgrund Vorwissen definiert -Wahrscheinlichkeit, dass eine Beobachtung einer Gruppe zugewiesen werden kann, bevor Daten erfasst werden
61
disjunkte Mengen
- Schnittmengen sind leer | - elementfremd / durchschnittsfremd
62
Eigenschaften der Standardnormalverteilung
Normalverteilung - eine der wichtigsten stetigen Normalverteilungen - Gauß-Verteilung - Erwartungswert müh, Varianz sigma - symmetrisch, unimodal, Maximum bei müh, Wendepunkt bei müh ± sigma - stetig ( + bis - unendlich) Standardnormalverteilung - besondere Variante der Normalverteilung - mit müh = 0, sigma = 1 - N(0,1) -zwischen müh = ±sigma = 68% der Werte müh = ±2sigma = 95% müh = ±3sigma = 99%
63
z-Standardisierung
- Standardisierter Messwert - gibt an wie viele Standardabweichungen und in welche Richtung ein Messwert in einer Stichprobe vom Mittelwert abweicht - durch Transformation werden Werte aus Verteilungen mit unterschiedlichen Mittelwerten und Streuungen in Bezug auf ihre relative Abweichung vom Mittelwert vergleichbar gemacht - überführt Verteilungen in Normalverteilungen - Werte von +/- 3 sind Wahrscheinlich - Mittelwert= 0 (fester Bezugspunkt) - Erwartungswert = 1 - Standardabweichung = 1
64
Spearmans rho
- Zusammenhangsmaß für ordinalskalierte Variablen - beruht auf Rangtransformationen - invariant, normiert und robust ggü. Ausreißern - je stärker Zusammenhang, desto größer der Betrag
65
Regressionsgleichung wünschenswerte Kriterien
- eindeutige Bestimmung der Geraden - Gerade soll optimal Vorhersage des Kriteriums erlauben - Variation des Kriteriums sollte in zwei Teile aufgeteilt werden
66
kleinste Quadrate Kriterium
- die Gerade aus allen Gerade gewählt, die die Summe der quadratischen vertikalen Abstände (Abweichungen) der Beobachtung von der Geraden minimiert - Fehlerkriterium - Summe der quadrierten Differenzen zwischen vorhergesagten und beobachteten Werten -> Regressionsgerade wird so bestimmt, dass die Summe der quadrierten vertikalen Abstände der Beobachtung von der Geraden minimiert wird
67
Voraussetzung einfache lineare Regression
- Linearität (AV und UV müssen durch Gerade beschrieben werden) - Homoskedastizität - Abwesenheit Einflussreicher Beobachtungen - Abwesenheit Ausreißer - Intervallskalenniveau der AV
68
Ergebnisraum / Ereignisraum
Ergebnismenge = Ergebnisraum (alle möglichen Ergebnisse: Würfel {1,2,3,4,5,6} Ereignisraum = Teilmengen bestimmter Ergebnisse Ereignisse = Zusammenfassungen von Ergebnissen einen Zufallsvorgangs
69
frequentistischer Wahrschreinlichkeitsbegriff vs klassischer Wahrscheinlichkeitsbegriff
frequentistisch: - basiert auf der relativen Häufigkeit - Experiment wird oft wiederholt und anhand dessen resultiert die Wahrscheinlichkeit - Gesetzt der großen Zahlen klassisch: - Verhältnis von günstigen Ergebnisse zur Gesamtmenge der Ergebnisse - Durchgänge müssen undabhängig und unendlich oft wiederholbar sein
70
stochastische (un-)abhängigkeit
Wirkt sich das Eintreten eines Ereignisses B nicht auf die Wahrscheinlichkeit eines Ereignisses A aus, so heißen A und B stochastisch unabhängig P(A|B) = P(A)
71
Satz des Bayes
-besagt, dass ein Verhältnis zwischen der bedingten Wahrscheinlichkeit zweier Ereignisse P(A|B) und der umgekehrten Form P(B|A) besteht P(A|B) = (P(B|A) x P(A)) : P(B) Beispiel: Drogentest mit gegebener Spezifität und Sensitivität: -Wie hoch ist die Wahrscheinlichkeit, dass Personen, die positiv getestet wurde auch tatsächlich konsumiert? -> A-posteriori Wahrscheinlichkeit ist Ergebnis (Wahrscheinlichkeit, dass Beobachtungen auf der Grundlage der Daten Gruppen zugewiesen werden)
72
Was ist eine Verteilung?
- beschreibt die absolute und/oder relative Häufigkeit von Merkmalen - Durch sie werden statistische Daten beschrieben - Bezeichnung für eine empirische Häufigkeitsverteilung - wird angegeben durch Verteilungsfunktion, Dichtefunktion oder Wahrscheinlichkeitsfunktion
73
Chi² Verteilung
- Wahrscheinlichkeitsverteilung für die Summe von quadrierten standardnormalverteilten unabhängigen Zufallsvariablen - ermöglicht zu beurteilen ob ein theoretischer Zusammenhang mit empirisch ermittelten Messpunkten übereinstimmt - Schätzung des Vertrauensintervalls der unbekannten Varianz - asymmetrisch (rechtsschief) - mit v Freiheitsgraden - nicht negativ, reele Zahlen, bis unendlich - mit wachsenden n(=v) strebt die Form gegen Normalverteilung (n>100) -z-Werte bilden, z-Werte quadrieren, anschließend aufsummieren Basis: Normalverteilung
74
t-Verteilung
- Wahrscheinlichkeitsverteilung für das Verhältnis einer standardnormalverteilten Zufallsvariablen zur Wurzel aus einer X² verteilten Zufallsvariable - 1 unter der Kurve, symmetrisch zu Mittelwert, müh = 0 - schmalgipfliger als Normalverteilung (in der Mitte etwas flacher, außen etwas breiter) - Anwendung: vergleich zum Mittelwert - ab ca. n=30 approximation an Normalverteilung - Wertebereich ±unendlich
75
F-Verteilung
- Wahrscheinlichkeitsverteilung für das Verhältnis von zwei X² verteilten Zufallsvariablen - Prüfverteilung - dient zur Prüfung ob 2 anhand von Stichprobendaten gewonnene Varianzen aus der selben Population stammen - >F-Test : Feststellung ob Unterschied zweier Stichprobenvarianzen auf statistischen Schwankungen beruhen oder es auf unterschiedliche Grundgesamtheit hinweist -stetig, asymmetrisch y1 (v1) -> Zählerfreiheitsgerade y2 (v2) -> Nennerfreiheitsgerade -> abhängig von Kombination dieser
76
Stichprobenverteilung
- kann analytisch bestimmt werden, wenn gilt, dass die Mitglieder einer Stichprobe unabhängig voneinander gezogen werden können - Gesamtpopulation, dessen Verteilung und Parameter in der Regel nicht bekannt und erkennbar sind: also Abschätzung von Stichproben - große Stichprobe = bessere Schätzung (Gesetz der großen Zahlen) - alle theoretisch möglichen Stichproben mit z.B. n=3 werden gezogen - Mittelwert wird erstellt und dann aufgelistet - Stichprobenverteilung hat gleichen Hochpunkt wie Originalverteilung - Streuung ist schmaler als Original - je geringer Streuung, desto genauer wird gesuchter Parameter geschätzt Arten: - Mittelwerte - Antweilswerte (binominalverteil / approximativ Normalverteilt) - Varianz
77
Was ist ein Schätzer?
- auf Basis von Stichprobenverteilungen werden gesuchte Parameter einer Population abgeschätzt - Punktschätzer (Punktgenau z.B. ein Feld beim Dart) - Intervallschätzer (Bandbreite)
78
Mittlere Korrelation berechnen
- Fisher Z-Transformation der Korrelationskoeffizienten - Mittelwerte der Z Werte - Rücktransformation des neuen Mittelwertes
79
Geschichtete Zufallsstichprobe
-erst in Schichten/Klassen z.b. Bundesländer einteilen und dann aus diesen zufallssstichproben ziehen
80
nenne 4 Statistikmaße
- Streuung - Wölbung - Modus - Median - zentrale Tendenz - Schiefe - Spannweite - Quartilskoeffizient - Varianz - Variation
81
andere Maße als Statistikmaße
Quantile | Perzentile
82
nenne 4 Streuungsmaße
- Varianz - Standardabweichung - Variation - Spannweite (Range) - Interquartilsabstand
83
Linearität und Kausalität
Linearität beschreibt, dass Variablenwerte in einer Linie liegen bzw. um eine herum Ein Maß für lineare Zusammenhänge ist der Korrelationskoeffizient Kausalität beschreibt die Beziehung zwischen Ursache und Wirkung, betrifft also die Abfolge aufeinander bezogener Ereignisse Aus einer Korrelation kann nicht gefolgert werden ob eine Kausalität besteht
84
Was bedeutet C, D, Tx und Ty?
``` C = Konkordante Paare D = Diskonkordante Paare Tx = Paare mit Rangbindung bei x Ty = Paare bei Rangbindung bei y ``` Tx und Ty sind weder konkordant noch diskonkordant
85
Nenne 2 Zusammenhangsmaße für nominalskalierte Variablen
Cramers V | Chi²
86
Unterschied Spezifität und Sensitivität
Spezifität -> negative Testausgänge, die tatsächlich korrekt sind (krank) Sensitivität -> positive Testausgänge, die tatsächlich korrekt sind (gesund)
87
Welches Maß bei bestanden / nicht bestanden
(Punkt-) biserale Korrelation Biseral = Zusammenhangsmaß für intervallskalierte Variable + binäre Variable (dichotomisierung Normalverteilung) Punktbiseral = Maß für dichotome und metrische Variable und stimmt mit Betrag der Korrelation einer dichotomen mit metrischen Variable überein
88
Unterschied Prädiktor / Kriterium
``` Prädiktor = Variable zur Vorhersage, UV Kriterium = Variable die vorhergesagt wird, AV ``` -> es muss die Funktion gefunden werden, die den Zusammenhang zwischen x und y optimal beschreibt
89
Warum können nicht lineare Transformationen von Variablen in der multiplen Regression nützlich sein?
Es besteht die Möglichkeit, dass ein nicht linearer Zusammenhang besteht und eine Regressionsgerade so mit kurvilinearen Koeffizienten die Regression besser beschreiben kann
90
Regression
Regression - Methode mit der Erwartungen über eine AV gebildet werden soll - Aufgrund Informationen, die man aus UV hat
91
Merkmale Regressionsgerade
- mind. Intervallskaliert - Regressionsanalyse -> wie sieht Geradengleichung aus, die nah an allen Werten liegt? - eindeutig bestimmt, wenn b0 und b1 bekannt - soll optimale Vorhersage der AV erlauben - Fehlermenge ist gering
92
Residuen
Differenz zwischen vorhergesagten und beobachteten Werten der AV (Kriterium)
93
standardisierte / unstandardisierte Regressionskoeffizienten
unstandardisiert: -beliebige Standardabweichung, da beteiligte Variablen nicht standardisiert sind standardisiert: - wenn z-standardisierte Variablen vorliegen - stand. Regressionskoeffizient mit b0* und b1* liegt zwischen -1 und 1
94
Determinationskoeffizient erklären
- Beurteilung der Güte der Regression durch Zerlegung der gesamten Variant (Variation) in erklärten / nicht erklärten Anteil - R² misst den % Anteil der erklärten Varianz an der Gesamtvarianz - R² entspricht dem quadrierten Korrelationskoeffizienten zwischen UV und AV - Wenn 1 / -1, dann perfekter linearer (negativer) Zusammenhang -> alle Punkte auf Regressionsgerade
95
Gleichung multiple Regression
y = b0 + b1 * x1 + b2 * x2 + ... + e ``` b0 = Achsenabschnitt b1,2,... = Steigung x = Prädiktor e = Residuum ```
96
Residualplots
- erlauben häufig einfache Überprüfung der Voraussetzung - Überprüfen ob Voraussetzungen der einfachen linearen Regression erfüllt sind - Modifikation des Streudiagramms
97
Was bedeutet n und phi bei der Binominalverteilung?
``` n = Anzahl Versuche / Stichprobengröße phi = Treffer- / Erfolgswahrscheinlichkeit ``` Beispiel: Münzwurf n = 10 k = 4 mal Kopf phi = 1/2 Kopf oder Zahl
98
Voraussetzung Binominalverteilung
- Ergebnis A trifft in jedem Teilexperiment immer mit der gleichen Wahrscheinlichkeit p ein - Ergebnisse der einzelnen Teilexperimente sind voneinander unabhängig - Entweder Erfolg oder Misserfolg
99
Erkläre die Binominalverteilung
- eine der wichtigsten diskreten Wahrscheinlichkeitsverteilungen - beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und unabhängigen Versuchen, die jeweils 2 mögliche Ergebnisse haben (Bernoulli-Experiment)
100
Erkläre warum die Binominalverteilung bei kleinen Stichproben nicht verwendet werden kann und nenne Alternativen
-Merkmalausprägungen können sich immer verändern -Alternative: hypergeometrische Verteilung Beispiel: Lottomodell
101
Erklären sie die Chi² Verteilung. Welche Parameter sind besonders?
- Ist eine spezielle Art der gamma-Verteilung mit den Parametern alpha = 1/2 und r = n/2, wobei n = Anzahl der Freiheitsgeraden ist - Besonders, da Parameter festgelegt sind - Spielt eine große Rolle bei der Untersuchung normalverteilter Daten und bei der Reduzierung von großen Datenmengen auf normalverteilte Größen
102
Welche Kriterien / Parameter bestimmen die F-Verteilung?
- setzt sich aus Quotienten zweier X² verteilter Zufallsvariablen zusammen - Parameter: 2 unabhängige Freiheitsgerade
103
Was ist die Stichprobenverteilung der Mittelwerte?
- die Stichprobenverteilung dient der Abschätzung der Grundgesamtheitsparameter durch die Stichprobe - Entsteht durch unendliches Wiederholen des Ziehens einer Stichprobe eines bestimmten Umfangs aus einer Grundgesamtheit -Stichprobenverteilung der Mittelwerte = Wahrscheinlichkeitsverteilung eines Stichprobenparameters
104
Was ist eine Punktschätzung von (Populations-)parametern?
- Schätzt man einen Parameter (z.b. Mittelwert) der Population mit Hilfe einer Stichprobe und es wird nur ein Wert angegeben (z.b. Mittelwert der Stichprobe) - je größer Stichprobe, desto präziser der Punktschätzer - ergibt den Schätzwert für einen Populationsparameter, der aus Stichprobendaten abgeleitet wird - Gütekriterien: Erwartungstreue, Konsistenz und Effizienz
105
Was ist das Prinzip der Maximum-likelihood-Schätzung?
- findet den Wert, für den die Auftretenswahrscheinlichkeit der Beobachtung X am größten ist - Parameter werden so geschätzt, dass die likelihood der Daten maximiert ist/wird - Likelihood = Wahrscheinlichkeit
106
Was ist das Prinzip der kleinsten Quadrate?
- ist eine Methode zur Schätzung unbekannter Parameter | - sorgt für Minimierung der Summe der quadrierten Abweichungen der beobachteten Messwerte vom gesuchten Schätzwert
107
Wie bestimmt man das Konfidenzintervall einer normalverteilten Variable?
- Intervallgrenzen sind abhängig von der Irrtumswahrscheinlichkeit x, der Streuung sowie dem Stichprobenumfang - untere Grenze < Parameter < obere Grenze - Konfidenzintervall muss gesuchten Parameter nicht enthalten - > 90 % KI = 10 % Chance, dass Parameter nicht im KI liegt
108
Konfidenzintervalle für Erwartungswerte interpretieren
- in einem realistischen KI kann keine Wahrscheinlichkeit zugeordnet werden - Parameter = Konstante -> stellt keine Zufallsvariable dar, wodurch keine Wahrscheinlichkeit zugeordnet werden kann -> Aussage, dass Parameter eine bestimmt Wahrscheinlichkeit in einem KI zuliegen ist also falsch!, da Parameter eine Konstante ist
109
Gegebenes Konfidenzintervall für Regressionskoeffizienten interpretieren
-Der "erwartete" Wert liegt mit 95% Sicherheit zwischen den Werten x1 und x2
110
Bedeutung der Fisher-z-Transformation und Anwendung auf Koeffizienten
- wird angewendet um zu einer symmetrischen und approximativ normalverteilten Stichprobenverteilung zu gelangen - ab n = 500 hinreichend normalverteilt, schief - Transformation der Korrelationskoeffizienten 1. Fisher Z Transformation 2. Mittelwerte der neuen Z Werte bilden 3. Rücktransformation des neuen Mittelwertes
111
Klausur: | Kann statt X² auch Kohens K auf Tabelle angewandt werden?
- Nein, da Kohens K ein Übereinstimmungsmaß von Urteilen ist | - es wird zudem eine symmetrische Häufigkeitstabelle benötigt
112
Klausur: | Wertebereich des Korrelationskoeffizienten nach Pearson
[-1;1]
113
Klausur: | Zusammenhang zwischen Geschlecht und Reaktionszeit. Welches Verfahren?
Nominal (natürlich, dichotom) und Intervallskala | also: Punktbiseriale Korrelation
114
Klausur: | Welchen Anteil der Varianz kann das Modell aufklären?
R² (Tabelle)
115
Klausur: | Variablen Geschlecht und Ausbildungsdauer sind nicht korreliert. Welchen Anteil haben beide bei der Varianzaufklärung?
- Bei unkorrelierten Prädiktoren entsprechen die standardisierten Regressionskoeffizienten den Korrelationen mit dem Kriterium - Standartisierten Koeffizienten für Kriterium in Tabelle suchen -> quadrieren
116
Klausur: | Ist die Streuung der Verteilung der Stichprobenmittelwerte größer oder kleiner als die Streuung der Population?
Je größer die Stichprobe, desto kleiner ist die Streuung der Mittelwerte Also: Streuung ist in der Stichprobe größer als in der Population
117
Klausur: | Beschreibung der Verteilung der Stichprobenmittelwerte
Mittelwert (müh) betrachten, wenn etwa 100, dann annähernd normalverteilt
118
Klausur: | Berechnung Freiheitsgrade
df = n-1