Stats 01 Flashcards

1
Q

1. Multiple Regression

Nenne das Skalenniveau der:

  • Zielgrösse
  • Einflussgrössen
A

Zielgrösse: metrisch

Einflussgrösse: metrisch oder kategorial

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

1. Multiple Regression

Matrixschreibweise für alle n Personen der Regressionsgleichung

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

1. Multiple Regression

Was ist eine Einheitsmatrix

A

Matrix in der nur in der Diagonale 1ner drinn stehen, sonst Nullen.

Sind symmetrisch, gleichviele Spalten wie Zeilen.

Wenn man eine andere Matrix mit der Einheitsmatrix multipliziert, kommt wieder das gleiche raus…

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

1. Multiple Regression

Nenne die 5 Annahmen der multiplen Regression

A
  1. E(ε)= 0 Fehler sind im Mittel Null
  2. Cov(ε) = σ2 * tau Varianzhomogenität
  3. X hat vollen Rang
  4. Fehler sind normalverteilt
  5. Einflussgrössen sind messfehlerfrei
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

1. Multiple Regression

Was bedeuted die Annahme

E(ε)= 0

Wie kann man das graphisch überprüfen?

Was tun bei Verletzung?

A

E(ε)= 0

→ Fehler sind im Mittel 0, haben keine systematische Abweichung und streuen zufällig um eine Gerade

graphische Ü: Residuen-Plot

Verletzung: bei unberücksichtigten Einflussgrössen oder nichtlinearen Zusammenhängen

Behebung: Hinzunahme von weiteren Einflussgrössen oder nichtlinearen Terme ins Modell aufnehmen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

1. Multiple Regression

Was bedeuted die Annahme

Cov(ε) = σ2 * Tau

Wie kann man das graphisch überprüfen?

Was tun bei Verletzung?

A

Cov(ε) = σ2 * Tau

→ Varianzhomogenität / Homoskedaszidität:

I. Varianz an jeder Stelle gleich

graphische Ü: Residuen-Plot / Scale Location Plot

Verletzung: Varianz hängt von X-Werten ab

Behebung: gewichtete KQ-Schätzung, Box-Cox Transformation, Quantilregression

II. Fehler korrelieren nicht

graphische Ü: Residuen-Plot

Verletzung: zeitl./ räuml. Gruppen von Beob. (Messweiderholungen, genestete Daten)

Behebung: gemischte (hierarchische, Mehrebenen-) Modelle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

1. Multiple Regression

Was bedeuted die Annahme

X hat vollen Rang

Wie kann man das graphisch überprüfen?

Was tun bei Verletzung?

A

X hat vollen Rang

→ keine perfekten Korrelationen (r=1)

Ü: Modell nicht schätzbar

Verletzung: eg. Geburtsjahr und Alter

Behebung: Einflussgrössen sinnvoll auswählen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

1. Multiple Regression

Was bedeuted die Annahme

ε ~ N (O, σ2 * Tau)

Wie kann man das graphisch überprüfen?

Was tun bei Verletzung?

A

ε ~ N (O, σ2 * Tau)

→ Fehler sind normalverteilt: Werte von y sind an jeder Stelle von x normalverteilt (wie die Werte von x oder y insgesamt verteilt sind ist egal)

graphische Ü: Residuen-Plot, Q-Q Plot

Verletzung: andere Verteilungsform, z.b. weil Skala einseitig begrenzt, unberücksichtigte Einflussgrössen, latente Klasse ► Schätzung des Modells ok, aber Tests un KI stimmen nicht mehr

Behebung: generalisierte lineyare Modelle, Box-Cox, o.a. Transformation von y

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

1. Multiple Regression

Was bedeuted die Annahme

Einflussgrössen sind messfehlerfrei

Wie kann man das graphisch überprüfen?

Was ist das Resultat?

A

Einflussgrössen sind messfehlerfrei

→ Fehler sind im Mittel 0, haben keine systematische Abweichung und streuen zufällig um eine Gerade

graphische Ü: siet man nicht direkt

Verletzung: Ergebnis von psychol. Test hat immer Messfehler, weil der wahre Wert des latenten Merkmals unbekannt ist

Resultat: durch Messfehler in Einflussgrösse wird die Varianz grösser und die Steigung wird unterschätzt. In multipler Regression auch Auswirkung auf andere Koeffizienten.

Behebung: psychol. Tests und FB validieren, Modelle für latente V. oder messfehlerfreie Modelle verwenden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

1. Multiple Regression

Was passiert wenn die Einflussgrössen nicht messfehlerfrei sind?

A

Durch Messfehler wird die Varianz höher und dadurch wird die Steigung unterschätzt.

In der multiplen regression kann sich dies auch auf die Schätzung der anderen Koeffizienten auswirken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Multiple Regression:

Wie kann man die Koeffizienten schätzen?

A
  1. Kleinste Quadrate
  2. Maximum Likelihood
    * → identisch bei Normalverteilungsannahme*
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Multiple Lineare Regression:

Nenne zwei Schätzprinzipien für Regressionskoeffizienten ß

A
  1. KQ: Kleinste Quadrate
  2. ML: Maximum Likelihood
    * Bei Normalverteilung sind die Schätzer der KQ und ML identisch!*
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Multiple Regression:

Wie nennt man die Dummy-Kodierung noch?

A

Treatment Kontraste

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Multiple Regression:

Wie nennt man die Effekt Kodierung noch?

A

Summen Kontraste

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Multiple Regression:

Wie nennt man die Treatment Kontraste noch?

A

Dummy- Kodierung (0,1)

–> Interpretation im Vergleich zur Referenzkategorie

–> und Interpretation des Achsenabschnitts wenn alle Einflussgrössen x = 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Multiple Regression:

Wie nennt man die Summen Kontraste noch?

A

Effekt Kodieru g (-1,1)

–> hat Balancekategorie (-1, -1, -1)

–> Interpretation im Vergleich zum Gesamtmittel

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Multiple Regression:

Auf was muss man bei der Interaktion achten, wenn ins Modell Interaktionsterme mit aufgenommen werden?

A

Kann Haupteffekte nicht mehr alleine interpretieren!

→ bei Kategorialen Variabeln: für die verschiedenen Kategorien beschreiben

→ bei metrischen einzelne Werte rausgreifen (eg. -1SD, M, + 1SD)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Multiple Regression:

Wie kann man die Modelle vergleichen?

A

I. Bestimmtsheitsmasse R2
Anteil der durch das Modell erklärten Streuung an der Gesamtstreuung, Problem: Wird höher, je mehr neue Variablen → adjusted R2

II. F-Test
Für den Vergleich genesteter Modelle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Multiple Regression:

Berechne den F-Wert

A

8.417

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

2 Quantilregression:

Was sind die Vorteile der Quantilregression?

A

► gute Möglichkeit um mit Ausreißern, Heteroskedastizität und
Nicht-Normalität umzugehen
► im Gegensatz zu anderen Verfahren (gewichtete
KQ-Schätzung, generalisierte lineare Modelle) Ziel nicht nur
bessere Schätzung eines Modells für den Erwartungswert
► sondern zusätzliche Information über unterschiedliche Verläufe
für die einzelnen Quantile nutzbar
► Interpretation sonst genauso wie bei normaler Regression
► keine Annahmen über die Art der Heteroskedastizität oder der
Fehlerverteilung nötig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

3. Likelihood:

Was ist die Likelihood?

A

Üblicherweise ist die Fragestellung, wie hoch ist die W’keit für ein bestimmtes Outcome, bei bekannten Parameterwerten.

Bei Likelihood umgedreht: Wie plausibel sind verschiedene Parameterwerte für ein bestimmtes Ergebnis. D.h. die Likelihood ist die Funktion von π gegeben x, wobei die Formel immer noch dieselbe ist.

► Werte können beliebig gross oder klein sein (nicht [0,1]

► für ML: Fkt 0 setzen & ableiten (uns interessiert nur wo max, nicht wie hoch y)

► nehme log um Mathe zu vereinfachen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

3. Likelihood:

Was ist die Formel für den Maximum-Likelihood-Schätzer?

A

Σni=1 xi
π = —————-
n * k

mit xi = Beobachten Werte der untersch. Personen

k = Anzahl an Beobachtungen (eg. je 10 Würfe, x= Treffer)

n = Anzahl Personen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

3. Likelihood:

Was sind die Eigenschaften des Maximum-Likelihood-Schätzer?

A

Haben einige sehr praktische Eigenschaften, u.a. sind sie

► asymptotisch erwartungstreu
(treffen im Mittel den wahren Wert wenn n ausreichend groß)

► konsistent
(Varianz der Schätzung wird mit steigendem n kleiner)

► asymptotisch normalverteilt
daraus lassen sich Tests und Konfidenzintervalle ableiten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

4. Logistische Regression & GLM: binäres Logit-Modell

Wieso verwende ich ein binäre Logit-Modell und nicht die multiple Regression?

A

Weil die Zielgrösse y binär ist, z.B. wird eine Person krank oder nicht.

Grundidee: modelliere die Wahrscheinlichkeit, dass Person i krank
wird, durch die Einflussgrössen

► bei linearer Funktion: Könnten sich Werte beliebig sein. Will Werte zwischen 0 und 1…. als W’keit, dass Person krank wird durch Einflussgrössen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

4. Logistische Regression & GLM: binäres Logit-Modell:

Was ist der lineare Prädiktor?

A

Bei der Responsfunktion ist der lineare Prädiktor eta das lineare multiple Regressionsmodell dass im Exponent des e’s steht:

eeta

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
26
Q

4. Logistische Regression & GLM: binäres Logit-Modell

Welche Form hat die Responsefunktion?

A

► s-förmig

► Wertebereich [0, 1]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
27
Q

4. Logistische Regression & GLM: binäres Logit-Modell

Was ist die Linkfunktion?

A

Die Umkehrfunktion der Responsefunktion, d.h. nach eta aufgelöst:

πi
eta = log ( ————— )
1 - πi

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
28
Q

4. Logistische Regression & GLM: binäres Logit-Modell

Wie schätzt man die Parameter im Logit-Modell?

A

durch Maximum-Likelihood-Schätzung

→ mithilfe der asymptotischen Normalverteilung auch Tests und
Konfidenzintervalle für einzelne ß

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
29
Q

4. Logistische Regression & GLM: binäres Logit-Modell

Wie vergleicht man Modelle miteinander?

A

zum Modellvergleich: Likelihood-Quotienten-Test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
30
Q

4. Logistische Regression & GLM: binäres Logit-Modell

Was passiert mit den log odds, den odds und der Wahrscheinlichkeit wenn xi um eine Einheit steigt?

(xi +1)

A

Die Umkehrfunktion der Responsefunktion, d.h. nach eta aufgelöst:

πi
ß0 + ß1 * (xi+1) = log ( ————— )
1 - πi

► log odds steigen / fallen um ß1

► odds sind eß1 mal so gross / klein

► Wahrscheinlichkeit fällt / steigt für y = 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
31
Q

4. Logistische Regression & GLM: Poisson-Regression und weitere GLMs

Wann würde ich zur Poisson Regression oder andren GLMs greifen?

A

Well, well baby:

Wenn ich die multiple Regression nicht anwenden kann, da meine Verteilung nicht normalverteilt ist.

→ ) y|x ist nicht normalverteilt! (4te Annahme im LM)

→ z.B. seltene Ereignisse (Anzahl Anfälle / y), bei sogenannten Zähldaten

→ Verteilung ist diskret und schief

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
32
Q

4. Logistische Regression & GLM: Poisson-Regression und weitere GLMs

Was ist das besondere an der Poisson Regression, bzw. am Parameter λ?

A

λ ist zugleich Erwartungswert und Varianz

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
33
Q

4. Logistische Regression & GLM: Mehrkategoriale Logit Modelle

Wie geht man mit mehr als zwei Kategorien um?

A

Na, ganz einfach:

Man braucht für jede Kategorie eine eigene Gleichung.

→ für jede der Gleichungen ein eigenes Set von Betas, bis auf Referenzkategorie (= letzte Kategorie)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
34
Q

4. Logistische Regression & GLM:

Was oassuert bei perfekt getrennten Klassen bei Logit Modellen

A

theoretisch: = undendlich

praktisch: je nach Programm
►Fehlermeldung/Warnung
► komisches Ergebnis (standardfehler riesig)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
35
Q

5. Machine Learning Verfahren:

Wie unterscheidet sich die nichtparametrische Statistik von der parametrischen Statistik?

A

nichtparametrische Statistik:

Im Gegensatz zur parametrischen Statistik erforderen deren Verfahren keine Verteilungsannahme bzgl. der Zufallsvariable xi

–> verteilungsfrei

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
36
Q

5. Machine Learning Verfahren: Neuronale Netzwerke

Was ist die Grundidee der neuronalen Netzwerke?

A

Grundidee: Verarbeitungs-Prozesse von Hirnzellen nachbilden

► gewichtete Verbindungen zwischen „Neuronen“ geben Signale an
nächste Ebene weiter
► anhand von Trainigs-Datensatz werden Gewichte so gelernt, dass
y möglichst gut vorhergesagt wird

► Input Units → Hidden Units → Output Units

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
37
Q

5. Machine Learning Verfahren: Neuronale Netzwerke

Was sind die Vor- & Nachteile der Neuronalen Netzwerke?

A

… sind Black Box Verfahren, nachher Fehlklassifikationsmatrix

Vorteile:

+ flexibler
+ realistischer
+ bessere Vorhersage

Nachteile:
- für Menschen schwer vorstellbar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
38
Q

5. Machine Learning Verfahren: Klassifikations- und Regressions-Bäume

Was ist die Grundidee von Klassifikations- und Regressionsbäumen

A

Grundidee:

Personen anhand der x Variablen in Gruppen einteilen,
die ähnliche Werte von y haben
anhand von Trainigs-Datensatz werden relevante x Variablen ausgewählt und an „Cutpoints“ aufgeteilt

→ Ergebnis ist einfach zu interpretieren als Entscheidungsbaum
(keine „Black Box“)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
39
Q

5. Machine Learning Verfahren: Bagging und Random Forests

Was ist die Grundidee von Bagging und Random Forests

A

sind sog. Ensemble Verfahren

Grundidee:
mehrere hundert Bäume zusammenschalten.
Jeder Baum wird auf einem zufällig gezogenen Teil des
Trainings-Datensatzes gelernt ) Bäume sehen unterschiedlich aus

Vorhersage: Mittelwert/Abstimmung der Vorhersagen der einzelnen
Bäume ) flexiblere, glattere Vorhersagen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
40
Q

5. Machine Learning Verfahren: Klassifikations- und Regressions-Bäume

Sind Klassifikations- und Regressionsbäume Black-Box Verfahren?

A

Nein.

41
Q

5. Machine Learning Verfahren: Bagging und Random Forests

Für was steht Bagging?

A

= Bootstrap aggragating

Idee: zufällige Ziehung von Personen → Bäume unterschiedlich
z.B. für ntree = 500 Bäume
► ziehe 500 Stichproben aus dem Trainings-Datensatz
► lerne auf jeder Stichprobe einen Baum
► aggregiere die Vorhersagen

42
Q

5. Machine Learning Verfahren: Bagging und Random Forests

Was ist die Idee von Random Forests?

A

Idee: zufällige Ziehung von Personen & Variablen

Bäume noch unterschiedlicher, Vorhersage noch besser
z.B. für mtry = 5 zufällig vorselektierte Variablen
► ziehe 500 Stichproben aus dem Trainings-Datensatz
► lerne auf jeder Stichprobe einen Baum
► aber bei jedem Split werden 5 Variablen zufällig vorselektiert, aus denen die nächste Split-Variable ausgewählt werden darf
► aggregiere die Vorhersagen

43
Q

5. Machine Learning Verfahren: Bagging und Random Forests

Sind Randon Forest und Bagging Black Box Verfahren?

A

Ja, aber liefern Variable Importance für jede Variable

44
Q

6. Modell-Vergleiche und Generalisierbarkeit:
Tests für genestete Modelle

Nenne zwei Tests für genestete Modelle

A
  1. F-Test
  2. Likelihood-Quotienten Test für GLM (genestet, parametrisch)
    → Likelihood volles Modell / Modell H0
    → passt das größere Modell signifikant besser?
45
Q

6. Modell-Vergleiche und Generalisierbarkeit:
Informationskriterien

Wie unterscheiden sich die Informationskriterien für den Modellvergleich von der Verwendung des LQ und des F-Tests?

Nenne 2 Informationskriterien und sage, welches die # Parameter stärker bestraft.

A

→ Informationskriterien auch verwendbar bei nicht genesteten Modellen

→ nur deskriptiv, kein Test

→ AIC, BIC

→ BIC bestraft stärker, bevorzugt sparsamere Modelle

→ wähle Model mit kleinstem IC

46
Q

6. Modell-Vergleiche und Generalisierbarkeit:
Informationskriterien

Warum werden die Anzahl Parameter bestraft?

A

Wegen Overfitting.

47
Q

6. Modell-Vergleiche und Generalisierbarkeit:
Kreuzvalidierung

Was ist das Ziel der Kreuzvalidierung?

A

Ziel:

realistische Abschätzung der Vorhersagegüte für neue Datensätze

48
Q

6. Modell-Vergleiche und Generalisierbarkeit:
Kreuzvalidierung

Wie funktioniert die Kreuzvalidierung (Grundidee)?

A

Grundidee:
► teile Trainigs-Datensatz zufällig in K Teile auf z.B. K=5
► verwende jeweils 4 Teile als Lern-Stichprobe und passe das
Modell an, der 5. Teil wird zurückgehalten als Test-Datensatz
► bestimme Vorhersagegüte auf jedem Test-Datensatz und
bilde den Mittelwert über die 5 Durchgänge
►wähle Modell z.B. mit der kleinsten mittleren
CV-Fehlklassifikationsrate

49
Q

Allg.:

Wie heisst das Sparsamkeitsprinzip?

A

Ockham’s Razor

50
Q

7. Lineare Diskriminanzanalyse

Welches Skalenniveau haben die Einflussgrössen und Zielgrössen?

A

y: kategorial
x: metrisch

51
Q

7. Lineare Diskriminanzanalyse

Was ist die Grundidee der Diskriminanzanalyse nach Fisher (1936)

A

► weder x1 alleine noch x2 alleine erlaubt eine Trennung der
Gruppen, aber eine Kombination von x1 und x2

► lege die Diskriminanzachse d so, dass für darauf projezierte
Beobachtungen gilt:
→ die Gruppenmittelwerte d1 und d2 liegen möglichst weit
auseinander (Ziel = Trennung der Gruppen)
→ Streuung innerhalb der Gruppen ist möglichst klein ist, d.h.
die einzelnen dij liegen nah an den dj

► die Trenngerade verläuft rechtwinklig zur Diskriminanzachse

► Vorhersage: links der Trenngerade y =1, rechts davon y=2

► kann Fehlerklassifikationsrate berechnen

52
Q

7. Lineare Diskriminanzanalyse

Wie kann die optimale Diskriminanzachse gefunden werden?

A

► durch Maximierung des Kriteriums λ

Streuung zw. Gruppen Δ Gruppen-M
λ = ——————————————- = —————————————
Streuung innerhalb Gruppen Δ einzelner Werte von M

53
Q

Bei welchen Verfahren macht es Sinn eine Fehlklassifikationsrate zu berechnen?

A

Bei den folgenden Verfahren um zu überprüfen wie gut unser Modell ist:

I. Machine Learning Verfahren

II. Kreuzvalidierung

III. Diskriminanzanalyse

54
Q

Für was ist der Likelihood Quotient da?

A

Für die Überprüfung von parametrischen, genesteten Modellen

Teile Likelihood des vollen Modells durch die Likelihood des restriktiven Modells

55
Q

Wo haben wir überall die Maximum Likelihood angetroffen?

A

► Multiple Regression: Parameterschtzung

► Logit Modell: Parameterschätzung

56
Q

Bei der Stepwise forward oder backward Regression, wie würdest Du die Modelle überprüfen?

A

Mit den Informationskriterien…

57
Q

7. Diskriminanzanalyse:

Abschliessendes:

I. Von was hängt die nötige Anzahl an Diskriminanzachsen ab?

II. Was ist, wenn die Gruppen nicht linear trennbar

III. müssen die Daten normalverteilt sein?

A

I. Von Anzahl der y-Gruppen und Anzahl der x-Variablen ab

II. manchmal sind die Gruppen nicht linear trennbar
→ quadratische Disriminanzanalyse

III. in vielen Büchern steht, die Daten müssten normalverteilt sein,
der heuristische Ansatz von Fisher führt aber auch ohne diese
Annahme zum selben Ergebnis, d.h. hier Normalverteilungs-
Annahme unkritisch (solange keine Tests durchgeführt werden)

58
Q

8. Signalentdeckunstheorie:

Wie heissen die coolen Kurven?

A

Receiver Operator Characteristic (ROC) - Kurve

59
Q

8. Signalentdeckunstheorie:

Wie kann man die verschiedenen Diskriminationsleistungen unterscheiden?

A

► je weiter die ROC-Kurve von der Diagonalen entfernt ist, desto
besser die Diskriminationsleistung

► als Kennzahl dafür wird oft die „Area Under Curve“ (AUC)
berechnet

60
Q

9. Überblick: Misch(verteilungs) / latent class Modelle:

Wann braucht man latent class Modelle?

A

I. Wenn die wahre Gruppenzugehörigkeit nicht existiert, sondern man nach Gruppen von Beobachtungen sucht!

→ also Gruppen die sich ähnlich sind bzgl. den Parameteren einer Verteilung oder eines Modells

(bisher: wahre Klasse y für Lerndaten bekannt)

oder

II. Mischverteilungs Modelle können zur Beschreibung von
multimodalen oder anderweitig „seltsamen“ Verteilungen
verwendet werden, ohne dass man sich für die Gruppen
interessiert, die dahinter stecken.

61
Q

9. Überblick: Misch(verteilungs) / latent class Modelle:

Wie können Mischungen von Mischverteilungen entstehen?

A

multimodale oder anderweitig „seltsame“ Verteilungen entstehen oft
durch die Mischung von mehreren Gruppen von Beobachtungen, die
unterschiedliche groß sein können und „normale“ Verteilungen z.B.
mit unterschiedlichen Mittelwerten und Varianzen haben

62
Q

9. Überblick: Misch(verteilungs) / latent class Modelle:

Wie formuliert man Mischverteilungne?

A

Mithilfe einer Dichtefunktion:

f(x, π, θ) = … (vgl. Formelsammlung)

x = Zufallsvariable (eg Grösse Person)
π = Parameter, oder Platzhalter für mehrere Dimensionen *_Person_*
θ = Parameter, oder Platzhalter für mehrere Dimensionen *_Gruppe_*

→ Fkt summiert Verteilungen. Wissen ja am Anfang nicht, wieviele Gruppen ich habe. Summieren die Verteilungsgruppen der einzelnen Funktionen.
Fk = Verteilungsfunktionen.

63
Q

9. Überblick: Misch(verteilungs) / latent class Modelle:

Wie ist das Vorgehen zum Herausfinden, wieviele Gruppen idealerweise unterschieden werden sollen?

A

► die wahre Anzahl K der Gruppen ist nicht bekannt
► man probiert daher unterschiedliche Modelle aus, z.B. für 1, 2,
3 oder 4 Gruppen
► jedes Modell wird mithilfe des EM-Algorithmus (für
Expectation Maximization) geschätzt
► mithilfe von Informationskriterien wie dem BIC wird das beste
Modell gewählt
►für jede gefundene Gruppe kann man die geschätzen θk
ausgeben lassen
► für jede Person kann man die geschätzen πk ausgeben lassen

64
Q

Was haben diese 3 Verfahren gemeinsam und wo liegen die Unterschiede:

a) → Mischverteilungsverfahren / latent class Modelle
b) → Clusteranalyse
c) a) → Hauptkomponentenanalyse

A

→ alle drei Verfahren werden eingesetzt wenn die Kategorien von y unbekannt sind und möchte ähnliche Gruppen finden

a) Mischverteilungsverfahren
→ haben eine Verteilungsannahme!

b) Clusteranalyse
→ ohne Verteilungsannahme, heuristisches Verfahren
→ schauen Beobachtungen an & Clustern

c) HK-Analyse
→ schauen Variablen an und gruppieren

65
Q

10. Clusteranalyse:

I. Was ist ein Dendrogramm?

A

Das graphische Resultat der Clusteranalyse
→ oben: wenige große, inhomogene Gruppen
→ unten: viele kleine, homogene Gruppen

66
Q

10. Clusteranalyse:

Wie funktioniert die Einteilung?

A

I) Man fusioniert die ähnlichsten
a)
einzelnen Beob.
• euklidische Distanz (pythag.)
• Manhatten / City Block Distanz
→ vorher standardisieren (sonst dominieren V. mit gr. Wertebereich)
b) Cluster
• single linkage (zw. nächsten Beob. zw. Cluster)
• complete linkage (zw. weitesten Beob. zw. Cluster)

  • *II) Legt Anzahl der Gruppen fest**
    tw. feste Anzahl vorgegeben, tw. grosse Lücke im Dendrogramm, ..
67
Q

11. Dimensionsreduktion und Messmodelle: HK Analyse

Was ist das primäre Ziel der HK-Analyse
(principal components analysis)?

A

Ziel: mehrere korrelierte Variablen x1; … ; xp zu wenigen
Hauptkomponenten zusammenfassen

→ die Variablen werden üblicherweise standardisiert, so dass sie alle
Varianz 1 haben und mit gleichem Gewicht in die Analyse eingehen

68
Q

11. Dimensionsreduktion und Messmodelle: HK Analyse

Welche Kriterien stehen zur Verfügung um die Anzahl k an Hauptkomponenten auszuwählen in der der HK-Analyse
(principal components analysis)?

A
  • Scree-Plot (Ellbogen-Kriterium)
  • Kaiser-Analyse (HK müssen Eigenwert > 1)
  • Anzahl an Streuung festlegen, die erklärt werden soll & lentsprechend viele HK festlegen
  • Parallel-Analyse
69
Q

11. Dimensionsreduktion und Messmodelle: HK Analyse

Wie kann eine Hauptkomponente beschrieben werden?

A

Durch:

  • Richtung (Eigenvektor)
  • Länge (Eigenwert)
70
Q
_11. Dimensionsreduktion und Messmodelle_: 
Multidimensionale Skalierung (MDS)

Was versteht man unter Multidimensionaler Skalierung?

A

→ Ähnlichkeit zwischen Objekten wird durch Nähe in niedrig-dimensionaler Karte ausgedrückt

→ Ausgangslage: Ähnlichkeitsmatrix, z.B. aus
• Ähnlichkeitsaussagen von Versuchspersonen
• berechneten Distanzen (z.B. euklidische, vgl. Clusteranalyse)

→ ähnlich wie der Scree-Plot für die PCA kann ein Plot der sog.
„Stress-Werte“ bei der Wahl einer geeigneten Anzahl von
Dimensionen helfen

71
Q

11. Dimensionsreduktion und Messmodelle:
Faktoranalyse

Was ist das Ziel der Faktoranalyse?

A

die Varianz der (üblicherweise standardisierten) Items soll erklärt
werden durch

► wenige gemeinsame Faktoren f1; … ; fk hinter den Items
(z.B. beim I-S-T: verbale, numerische und figurale Intelligenz,
Merkfähigkeit)

► spezifische Anteile der Items

72
Q

11. Dimensionsreduktion und Messmodelle:
Faktoranalyse

Nenne die Grundgleichung für ein Item in der Faktoranalyse

A
73
Q

11. Dimensionsreduktion und Messmodelle:
Faktoranalyse

In der Faktoranalyse, was ist die Kovarianzmatrix für die unabhängigen (orthogonalen) Faktoren?

Für was wird sie geschätzt?

A

Σ = LLT + V

mit LL: Ladungen, Kommunalität → die gemeinsame Varianz, die durch die Faktoren erklärt wird

V: Uniqueness (spezifische Varianz + Messfeheler)

Zur Schätzung der Ladungen und der Fehler, durch die Hauptachsenanalyse oder ML-Schätzung.

→ Anzahl k der Faktoren
→ Richtung der Faktoren

74
Q

11. Dimensionsreduktion und Messmodelle:
Faktoranalyse

Welche verschiedenen Rotationsanalysen gibt es in der Faktoranalyse?

A

► Varimax (orthogonale Rotation)

► Promax (oblique Rotation, d.h. lässt Korrelationen zwischen den Items zu)

► Prokrustes (möglichst nah an vorgegebener Einfachstruktur)

► Bifactor (möglichst nah an Struktur mit einem Generalfaktor
und weiteren Gruppenfaktoren mit Einfachstruktur)

75
Q
  1. Dimensionsreduktion und Messmodelle:

Was sind Strukturgleichungsmodelle (engl. Structural Equation Models, SEM)?

A

► lineares Regressionsmodell für Einfluss- und Zielgrössen
► aber Einfluss- und Zielgrössen sind latende Konstrukte, die
mithilfe von Items gemessen werden

+ berücksichtigt Messfehlermodell bei der Schätzung der
Regressions-Koeffizienten

76
Q

11. Dimensionsreduktion und Messmodelle:

Was besagt das additive Messfehlermodel?

A

xi = θii

► beobachtbar: Reaktion xi der Person auf ein Item
► nicht beobachtbar: wahrere Wert θi des latenten Merkmals

⇒ Summe/Mittelwert aus mehreren Items, die selbes latentes
Merkmal messen, ist gute Schätzung (aber nicht = wahrer Wert)

77
Q

11. Dimensionsreduktion und Messmodelle:

Nenne zwei verschiedene Ansätze zur Messung von latenten Merkmalen?

A

Klassische Testtheorie
- Faktoranalyse
(+ bekannt & geliebt, - Annahmen nicht testbar)

Probabilistische Testtheorie
- Item-Response- Theorie (IRT, Rasch-Modell)
(+ Annahmen testbar, erst wenig im Einsatz)

78
Q

12. Gemischte Modelle:

Wie heissen gemischte Modelle noch und für was werden sie eingesetzt?

A

= „hierarchische lineare“ Modelle (HLM),
„Mehrebenen“ („multilevel“) Modelle,
„mixed effects“ Modelle mit festen und zufälligen Effekten

≠ „Misch(verteilungs)“ Modelle, „latent class“ Modelle

→ bisher Annahme im Regressionsmodell:
Werte der Personen voneinander unabhängig
aber es gibt Situationen, wo das nicht der Fall ist!

79
Q

12. Gemischte Modelle:

In welchen Fällen sind die einzelnen Messungen nicht unabhängig voneinanander?

A

a) Messwiederholungen
z.B. Längsschnittstudien; Experimente mit within-subjects
Designs, bei denen VPn mehrere Bedingungen absolvieren
Messungen derselben Person stärker korreliert als Messungen
von unterschiedlichen Personen

b) „verschachtelte“, genestete Datenstruktur
z.B. Schüler in Klassen, Klassen in Schulen, Schulen in
Städten, Städte in Kantonen etc.
Messungen der Schüler innerhalb einer Klasse stärker korreliert
als Messung von Schülern aus unterschiedlichen Klassen

80
Q

12. Gemischte Modelle:

Was ist ein long-Format bei genesteten Daten und was ein wide Format?

A

a) long format
für jede Messung eine eigene Zeile.
→ für gemischte Modelle

b) wide format
für jede Person eine eigene Zeile (d.h. Messwiederholungen in einer einzigen Zeile).
→ für Strukturgleichungsmodelle

81
Q

12. Gemischte Modelle:

Wie vergleiche ich verschiedene gemischte Modelle miteinander? (Tests und Modellvergleiche)

A

→ geeignete Parameter-Tests & Modellvergleiche noch beforscht
→ genauen statistischen Eigenschaften z.T. noch unbekannt

Vorgehen in unserem R-Beispiel:
→ Parameterschätzung mit Restricted Maximum Likelihood
REML liefert bessere Schätzung der Varianzen der zufälligen Effekte als ML-Schätzung
→ Likelihood-Quotienten-Test (in R: anova)
darf wie immer nur bei genesteten Modell verwendet werden,
d.h. z.B. um einen zufälligen Effekt zu testen, wobei alle
anderen – insbesondere alle festen – Effekte gleich sein
müssen (umgekehrt genauso)
bei Verwendung des lme4-Paketes werden beim Aufruf von anova per default alle Modelle nochmals mit ML geschätzt, weil die restringierte Likelihood aus der REML-Schätzung nicht geeignet ist, um Modelle mit unterschiedlichen festen Effekten zu vergleichen
→ asymptotische Tests für die festen Effekte (in R: cftest)
für endliche SP würde man eigentlich t-Tests verwenden, aber die korrekte Anzahl der Freiheitsgrade ist für gemischte Modelle umstritten als Kompromiss: bei größeren Datensätzen Tests basierend auf der asymptotischen
Normalverteilung

82
Q

13. Fehlende Werte:

Welche Arten von fehlenden Werten gibt es?

A
  1. Missing Completely at Random (MCAR)
    * → welcher Wert fehlt ist Zufall*
  2. Missing at Random (MAR)
    * → welcher Wert fehlt ist nur abhängig von einer anderen Variable*
  3. Missing Not at Random (MNAR)
    * → Welcher Wert fehlt ist von der Variable selbst abhängig*
83
Q

13. Fehlende Werte:

Welche Möglichkeiten gibt es bei der statistischen Auswertung um mit fehlenden Werten umzughen?

A

1. Ausschlussverfahren
→ Listwise (=Casewise) Deletion
→ Pairwise Deletion

  • *2. Imputation**
  • → fehlende Werte durch Variablen-Mittelwert ersetzen
  • Varianzred.
  • Abschwächung von Zus.hängen
  • wenn nicht MCAR: system. Verzerrungen*

  • → Regresisons-Imputation
  • Varianzred.
  • Überschätzung der Korrelation
  • geeignet für MCAR & MAR*
84
Q

13. Fehlende Werte:

Was kann man tun um der Varianzreduktion bei der Regressions-Imputation entgegen zu wirken?

A

► stochastische Regressions Imputation
zufälligen Fehler simulieren und dazu-addieren

► multiple Imputation jeden fehlenden Wert nicht nur durch einen Wert ersetzen sondern durch mehrere Werte ) ⇒
→ mehrere parallele Datensätze
→ Datensätze mit üblichen Auswertungsverfahren analysieren
→ Ergebnisse zusammenfassen und Unsicherheit berücksichtigen

85
Q

14. Survivalanalyse (Ereignis/Überlebensdaueranalyse):

Was wird unter Zensierung verstanden und welche Arten von Zensierung gibt es?

A

Unter Zensierung wird der der Verlust von VP verstanden, aus unbekannten Gründen, so dass man nicht weiss wann das Ereigniss eingetreten ist:

  • Rechtszensierung
  • Linkszensierung
  • Intervallzensierung
86
Q

14. Survivalanalyse (Ereignis/Überlebensdaueranalyse):

Was wird unter Zensierung verstanden und welche Arten von Zensierung gibt es?

A

Unter Zensierung wird der der Verlust von VP verstanden, aus unbekannten Gründen, so dass man nicht weiss wann das Ereigniss eingetreten ist:

  • Rechtszensierung
  • Linkszensierung
  • Intervallzensierung
87
Q

14. Survivalanalyse (Ereignis/Überlebensdaueranalyse):

Beschreibe die Survivalfunktion

A

Die Wahrscheinlichkeit dass zu einem Zeitpunkt t das Ereigniss, dass zum Zeitpunkt T eintritt, noch nicht eingetreten ist.

S(t) = P (T>t)

88
Q

14. Survivalanalyse (Ereignis/Überlebensdaueranalyse):

Wie wird die Survivalfunktion geschätzt?

A

Mit dem Kaplan-Meier-Schätzer

89
Q

14. Survivalanalyse (Ereignis/Überlebensdaueranalyse):

Wie wird bei der Survivalfunktion mit zensierten Werten umgegangen?

A

Fliessen mit ein, veränder aber den Kurvenverlauf nicht.

90
Q

14. Survivalanalyse (Ereignis/Überlebensdaueranalyse):

Was versteht man unter der Hazardrate?

A

► die Hazardrate gibt die Rate an, in einem kurzen Intervall nach
Zeitpunkt t zu versterben, wenn man bis Zeitpunkt t überlebt hat

► die Form der Hazardrate ist gut interpretierbar, z.B.
→ zunehmend: natürliche Alterung, Verschleiß
→ abnehmend: hohes Abstossungsrisiko direkt nach einer
Transplantation, danach immer weniger
→ „Badewannenförmig“: nach der Geburt sinkt das Sterberisiko
zunächst, aber im Alter steigt es wieder

91
Q

14. Survivalanalyse (Ereignis/Überlebensdaueranalyse):

Was versteht man unter Cox-Regression

A

► Regression mit (ggf. zensierten) Überlebenszeiten als Zielgröße
und beliebigen Einflussgrößen (u.a. Treatment)

► man geht von der „Proportional Hazards“ Annahme aus, d.h.
für zwei Gruppen (z.B. Treatment- und Kontrollgruppe) gilt:
hB(t) = hA(t) c bzw. log hB(t) = log hA(t) + log c
und modelliert die Abweichung von der „Baseline Hazardrate“
h0(t) mit einem linearen Prädiktor:
log h(t) = log h0(t) + 1 x1 + + p xp

► es können auch zeitvariierende Kovariablen ins Modell
aufgenommen werden

92
Q

15. Metaanalyse:

Welche zwei Masse braucht man um in einer Metaanalysed Studien miteinander vergleichen zu können?

A

►Effektstärken Mass

► Standardfehler des Effektstärken Mass

93
Q

15. Metaanalyse:

Was ist ein Forest Plot für Metaanalysen?

A

► Für jede Studie Berechnung des:
95% Konfidenzintervalls: d +/-1.96 sd -> Forest Plot

► gewichtetes Mittel über alle Studien
dabei im Quadrat werden kleine SP bestraft

94
Q

15. Metaanalyse:

Welche verschiedene Modelle behind Metaanalysen gibt es?

A

► mit festen Effekten
(Idee: alle Studien messen denselben wahren Effekt,
Unterschiede nur aufgrund zufälliger Ziehung der Stichproben)

► mit zufälligen Effekten
(vgl. gemischte Modelle; Idee: Unterschiede durch zufällige
Ziehung + Variation der wahren Effekte unterschiedlicher
Studien um einen mittleren Effekt)

► Meta-Variablen ins Modell aufnehmen, um Unterschiede
zwischen den Studien zu erklären („Meta-Regression“)

95
Q
  1. Metaanalyse:

Was versteht man unter dem Publikations-bias und wie kann man dass überprüfen…

A

nur signifikante Studien werden veröffentlicht.

Überprüfung durch den Funnel Plot

96
Q
  1. Bayesianische Schätzung

Was ist die grundidee der Bayesianischen Schätzung?

A

a-posteriori-Verteilung = a-priori-Verteilung & Likelihood

Wobei mit Likelihood die bedingte Verteilung gegeben die Parameter gemeint ist.

D.h. durch unsere Zugrundelegung einer Annahme einer Verteilung können wir unser Modell shapen

97
Q
  1. Bayesianische Schätzung

Was ist die Rolle der a-priori Verteilung?

A

► ist die a-priori-Verteilung eine Gleichverteilung, ist
EAP-Schätzer = ML-Schätzer
► d.h. man kann argumentieren, ML-Schätzung sei ohnehin
dasselbe wie Bayesianische Schätzung, bei der man eine
Gleichverteilung als „uninformative“ priori verwendet
► und man kann diskutieren, ob man tatsächlich alle Werte des
Parameters für a priori gleich wahrscheinlich hält, bzw. ob dies
nicht auch eine sehr starke Annahme darstellt
► beruhigenderweise verschwindet zudem der Einfluss der
a-priori-Verteilung, wenn die Stichprobengröße gegen unendligh geht

98
Q
  1. Bayesianische Schätzung

Wann sind Baysianische Schätzung insbesondere nützlich?

A

► besonders dann relevant, wenn die Daten nicht ausreichen, um Modelle mit vielen Parametern zu schätzen

► in diesen Fällen kann eine informative priori die Schätzung
deutlich verbessern bzw. überhaupt erst möglich machen – das
Ergebnis hängt aber potentiell stark von der Wahl der priori ab
⇒ Sensitivitätsanalyse