Stats 01 Flashcards

Question 1

Q

1. Multiple Regression

Nenne das Skalenniveau der:

Zielgrösse
Einflussgrössen

Answer

A

Zielgrösse: metrisch

Einflussgrösse: metrisch oder kategorial

Question 2

Q

1. Multiple Regression

Matrixschreibweise für alle n Personen der Regressionsgleichung

Question 3

Q

1. Multiple Regression

Was ist eine Einheitsmatrix

Answer

A

Matrix in der nur in der Diagonale 1ner drinn stehen, sonst Nullen.

Sind symmetrisch, gleichviele Spalten wie Zeilen.

Wenn man eine andere Matrix mit der Einheitsmatrix multipliziert, kommt wieder das gleiche raus…

Question 4

Q

1. Multiple Regression

Nenne die 5 Annahmen der multiplen Regression

Answer

A

E(ε)= 0 Fehler sind im Mittel Null
Cov(ε) = σ2 * tau Varianzhomogenität
X hat vollen Rang
Fehler sind normalverteilt
Einflussgrössen sind messfehlerfrei

Question 5

Q

1. Multiple Regression

Was bedeuted die Annahme

E(ε)= 0

Wie kann man das graphisch überprüfen?

Was tun bei Verletzung?

Answer

A

E(ε)= 0

→ Fehler sind im Mittel 0, haben keine systematische Abweichung und streuen zufällig um eine Gerade

→ graphische Ü: Residuen-Plot

→ Verletzung: bei unberücksichtigten Einflussgrössen oder nichtlinearen Zusammenhängen

→ Behebung: Hinzunahme von weiteren Einflussgrössen oder nichtlinearen Terme ins Modell aufnehmen

Question 6

Q

1. Multiple Regression

Was bedeuted die Annahme

Cov(ε) = σ2 * Tau

Wie kann man das graphisch überprüfen?

Was tun bei Verletzung?

Answer

A

Cov(ε) = σ2 * Tau

→ Varianzhomogenität / Homoskedaszidität:

I. Varianz an jeder Stelle gleich

→ graphische Ü: Residuen-Plot / Scale Location Plot

→ Verletzung: Varianz hängt von X-Werten ab

→ Behebung: gewichtete KQ-Schätzung, Box-Cox Transformation, Quantilregression

II. Fehler korrelieren nicht

→ graphische Ü: Residuen-Plot

→ Verletzung: zeitl./ räuml. Gruppen von Beob. (Messweiderholungen, genestete Daten)

→ Behebung: gemischte (hierarchische, Mehrebenen-) Modelle

Question 7

Q

1. Multiple Regression

Was bedeuted die Annahme

X hat vollen Rang

Wie kann man das graphisch überprüfen?

Was tun bei Verletzung?

Answer

A

X hat vollen Rang

→ keine perfekten Korrelationen (r=1)

→ Ü: Modell nicht schätzbar

→ Verletzung: eg. Geburtsjahr und Alter

→ Behebung: Einflussgrössen sinnvoll auswählen

Question 8

Q

1. Multiple Regression

Was bedeuted die Annahme

ε ~ N (O, σ² * Tau)

Wie kann man das graphisch überprüfen?

Was tun bei Verletzung?

Answer

A

ε ~ N (O, σ² * Tau)

→ Fehler sind normalverteilt: Werte von y sind an jeder Stelle von x normalverteilt (wie die Werte von x oder y insgesamt verteilt sind ist egal)

→ graphische Ü: Residuen-Plot, Q-Q Plot

→ Verletzung: andere Verteilungsform, z.b. weil Skala einseitig begrenzt, unberücksichtigte Einflussgrössen, latente Klasse ► Schätzung des Modells ok, aber Tests un KI stimmen nicht mehr

→ Behebung: generalisierte lineyare Modelle, Box-Cox, o.a. Transformation von y

Question 9

Q

1. Multiple Regression

Was bedeuted die Annahme

Einflussgrössen sind messfehlerfrei

Wie kann man das graphisch überprüfen?

Was ist das Resultat?

Answer

A

Einflussgrössen sind messfehlerfrei

→ Fehler sind im Mittel 0, haben keine systematische Abweichung und streuen zufällig um eine Gerade

→ graphische Ü: siet man nicht direkt

→ Verletzung: Ergebnis von psychol. Test hat immer Messfehler, weil der wahre Wert des latenten Merkmals unbekannt ist

→ Resultat: durch Messfehler in Einflussgrösse wird die Varianz grösser und die Steigung wird unterschätzt. In multipler Regression auch Auswirkung auf andere Koeffizienten.

→ Behebung: psychol. Tests und FB validieren, Modelle für latente V. oder messfehlerfreie Modelle verwenden

Question 10

Q

1. Multiple Regression

Was passiert wenn die Einflussgrössen nicht messfehlerfrei sind?

Answer

A

Durch Messfehler wird die Varianz höher und dadurch wird die Steigung unterschätzt.

In der multiplen regression kann sich dies auch auf die Schätzung der anderen Koeffizienten auswirken

Question 11

Q

Multiple Regression:

Wie kann man die Koeffizienten schätzen?

Answer

A

Kleinste Quadrate
Maximum Likelihood
* → identisch bei Normalverteilungsannahme*

Question 12

Q

Multiple Lineare Regression:

Nenne zwei Schätzprinzipien für Regressionskoeffizienten ß

Answer

A

KQ: Kleinste Quadrate
ML: Maximum Likelihood
* Bei Normalverteilung sind die Schätzer der KQ und ML identisch!*

Question 13

Q

Multiple Regression:

Wie nennt man die Dummy-Kodierung noch?

Answer

A

Treatment Kontraste

Question 14

Q

Multiple Regression:

Wie nennt man die Effekt Kodierung noch?

Answer

A

Summen Kontraste

Question 15

Q

Multiple Regression:

Wie nennt man die Treatment Kontraste noch?

Answer

A

Dummy- Kodierung (0,1)

–> Interpretation im Vergleich zur Referenzkategorie

–> und Interpretation des Achsenabschnitts wenn alle Einflussgrössen x = 0

Question 16

Q

Multiple Regression:

Wie nennt man die Summen Kontraste noch?

Answer

A

Effekt Kodieru g (-1,1)

–> hat Balancekategorie (-1, -1, -1)

–> Interpretation im Vergleich zum Gesamtmittel

Question 17

Q

Multiple Regression:

Auf was muss man bei der Interaktion achten, wenn ins Modell Interaktionsterme mit aufgenommen werden?

Answer

A

Kann Haupteffekte nicht mehr alleine interpretieren!

→ bei Kategorialen Variabeln: für die verschiedenen Kategorien beschreiben

→ bei metrischen einzelne Werte rausgreifen (eg. -1SD, M, + 1SD)

Question 18

Q

Multiple Regression:

Wie kann man die Modelle vergleichen?

Answer

A

I. Bestimmtsheitsmasse R²
Anteil der durch das Modell erklärten Streuung an der Gesamtstreuung, Problem: Wird höher, je mehr neue Variablen → adjusted R²

II. F-Test
Für den Vergleich genesteter Modelle

Question 19

Q

Multiple Regression:

Berechne den F-Wert

Question 20

Q

2 Quantilregression:

Was sind die Vorteile der Quantilregression?

Answer

A

► gute Möglichkeit um mit Ausreißern, Heteroskedastizität und
Nicht-Normalität umzugehen
► im Gegensatz zu anderen Verfahren (gewichtete
KQ-Schätzung, generalisierte lineare Modelle) Ziel nicht nur
bessere Schätzung eines Modells für den Erwartungswert
► sondern zusätzliche Information über unterschiedliche Verläufe
für die einzelnen Quantile nutzbar
► Interpretation sonst genauso wie bei normaler Regression
► keine Annahmen über die Art der Heteroskedastizität oder der
Fehlerverteilung nötig

Question 21

Q

3. Likelihood:

Was ist die Likelihood?

Answer

A

Üblicherweise ist die Fragestellung, wie hoch ist die W’keit für ein bestimmtes Outcome, bei bekannten Parameterwerten.

Bei Likelihood umgedreht: Wie plausibel sind verschiedene Parameterwerte für ein bestimmtes Ergebnis. D.h. die Likelihood ist die Funktion von π gegeben x, wobei die Formel immer noch dieselbe ist.

► Werte können beliebig gross oder klein sein (nicht [0,1]

► für ML: Fkt 0 setzen & ableiten (uns interessiert nur wo max, nicht wie hoch y)

► nehme log um Mathe zu vereinfachen

Question 22

Q

3. Likelihood:

Was ist die Formel für den Maximum-Likelihood-Schätzer?

Answer

A

Σⁿ_i=1 x_i
π = —————-
n * k

mit x_i = Beobachten Werte der untersch. Personen

k = Anzahl an Beobachtungen (eg. je 10 Würfe, x= Treffer)

n = Anzahl Personen

Question 23

Q

3. Likelihood:

Was sind die Eigenschaften des Maximum-Likelihood-Schätzer?

Answer

A

Haben einige sehr praktische Eigenschaften, u.a. sind sie

► asymptotisch erwartungstreu
(treffen im Mittel den wahren Wert wenn n ausreichend groß)

► konsistent
(Varianz der Schätzung wird mit steigendem n kleiner)

► asymptotisch normalverteilt
daraus lassen sich Tests und Konfidenzintervalle ableiten

Question 24

Q

4. Logistische Regression & GLM: binäres Logit-Modell

Wieso verwende ich ein binäre Logit-Modell und nicht die multiple Regression?

Answer

A

Weil die Zielgrösse y binär ist, z.B. wird eine Person krank oder nicht.

Grundidee: modelliere die Wahrscheinlichkeit, dass Person i krank
wird, durch die Einflussgrössen

► bei linearer Funktion: Könnten sich Werte beliebig sein. Will Werte zwischen 0 und 1…. als W’keit, dass Person krank wird durch Einflussgrössen

Question 25

Q

4. Logistische Regression & GLM: binäres Logit-Modell:

Was ist der lineare Prädiktor?

Answer

A

Bei der Responsfunktion ist der lineare Prädiktor eta das lineare multiple Regressionsmodell dass im Exponent des e’s steht:

e^eta

Question 26

Q

4. Logistische Regression & GLM: binäres Logit-Modell

Welche Form hat die Responsefunktion?

Answer

A

► s-förmig

► Wertebereich [0, 1]

Question 27

Q

4. Logistische Regression & GLM: binäres Logit-Modell

Was ist die Linkfunktion?

Answer

A

Die Umkehrfunktion der Responsefunktion, d.h. nach eta aufgelöst:

π_i
eta = log ( ————— )
1 - π_i

Question 28

Q

4. Logistische Regression & GLM: binäres Logit-Modell

Wie schätzt man die Parameter im Logit-Modell?

Answer

A

durch Maximum-Likelihood-Schätzung

→ mithilfe der asymptotischen Normalverteilung auch Tests und
Konfidenzintervalle für einzelne ß

Question 29

Q

4. Logistische Regression & GLM: binäres Logit-Modell

Wie vergleicht man Modelle miteinander?

Answer

A

zum Modellvergleich: Likelihood-Quotienten-Test

Question 30

Q

4. Logistische Regression & GLM: binäres Logit-Modell

Was passiert mit den log odds, den odds und der Wahrscheinlichkeit wenn x_i um eine Einheit steigt?

(x_i +1)

Answer

A

Die Umkehrfunktion der Responsefunktion, d.h. nach eta aufgelöst:

π_i
ß₀ + ß_{1 *}(x_i+1) = log ( ————— )
1 - π_i

► log odds steigen / fallen um ß₁

► odds sind e^ß₁ mal so gross / klein

► Wahrscheinlichkeit fällt / steigt für y = 1

Question 31

Q

4. Logistische Regression & GLM: Poisson-Regression und weitere GLMs

Wann würde ich zur Poisson Regression oder andren GLMs greifen?

Answer

A

Well, well baby:

Wenn ich die multiple Regression nicht anwenden kann, da meine Verteilung nicht normalverteilt ist.

→ ) y|x ist nicht normalverteilt! (4te Annahme im LM)

→ z.B. seltene Ereignisse (Anzahl Anfälle / y), bei sogenannten Zähldaten

→ Verteilung ist diskret und schief

Question 32

Q

4. Logistische Regression & GLM: Poisson-Regression und weitere GLMs

Was ist das besondere an der Poisson Regression, bzw. am Parameter λ?

Answer

A

λ ist zugleich Erwartungswert und Varianz

Question 33

Q

4. Logistische Regression & GLM: Mehrkategoriale Logit Modelle

Wie geht man mit mehr als zwei Kategorien um?

Answer

A

Na, ganz einfach:

Man braucht für jede Kategorie eine eigene Gleichung.

→ für jede der Gleichungen ein eigenes Set von Betas, bis auf Referenzkategorie (= letzte Kategorie)

Question 34

Q

4. Logistische Regression & GLM:

Was oassuert bei perfekt getrennten Klassen bei Logit Modellen

Answer

A

theoretisch: = undendlich

praktisch: je nach Programm
►Fehlermeldung/Warnung
► komisches Ergebnis (standardfehler riesig)

Question 35

Q

5. Machine Learning Verfahren:

Wie unterscheidet sich die nichtparametrische Statistik von der parametrischen Statistik?

Answer

A

nichtparametrische Statistik:

Im Gegensatz zur parametrischen Statistik erforderen deren Verfahren keine Verteilungsannahme bzgl. der Zufallsvariable x_i

–> verteilungsfrei

Question 36

Q

5. Machine Learning Verfahren: Neuronale Netzwerke

Was ist die Grundidee der neuronalen Netzwerke?

Answer

A

Grundidee: Verarbeitungs-Prozesse von Hirnzellen nachbilden

► gewichtete Verbindungen zwischen „Neuronen“ geben Signale an
nächste Ebene weiter
► anhand von Trainigs-Datensatz werden Gewichte so gelernt, dass
y möglichst gut vorhergesagt wird

► Input Units → Hidden Units → Output Units

Question 37

Q

5. Machine Learning Verfahren: Neuronale Netzwerke

Was sind die Vor- & Nachteile der Neuronalen Netzwerke?

Answer

A

… sind Black Box Verfahren, nachher Fehlklassifikationsmatrix

Vorteile:

+ flexibler
+ realistischer
+ bessere Vorhersage

Nachteile:
- für Menschen schwer vorstellbar

Question 38

Q

5. Machine Learning Verfahren: Klassifikations- und Regressions-Bäume

Was ist die Grundidee von Klassifikations- und Regressionsbäumen

Answer

A

Grundidee:

Personen anhand der x Variablen in Gruppen einteilen,
die ähnliche Werte von y haben
anhand von Trainigs-Datensatz werden relevante x Variablen ausgewählt und an „Cutpoints“ aufgeteilt

→ Ergebnis ist einfach zu interpretieren als Entscheidungsbaum
(keine „Black Box“)

Question 39

Q

5. Machine Learning Verfahren: Bagging und Random Forests

Was ist die Grundidee von Bagging und Random Forests

Answer

A

sind sog. Ensemble Verfahren

Grundidee:
mehrere hundert Bäume zusammenschalten.
Jeder Baum wird auf einem zufällig gezogenen Teil des
Trainings-Datensatzes gelernt ) Bäume sehen unterschiedlich aus

Vorhersage: Mittelwert/Abstimmung der Vorhersagen der einzelnen
Bäume ) flexiblere, glattere Vorhersagen

Question 40

Q

5. Machine Learning Verfahren: Klassifikations- und Regressions-Bäume

Sind Klassifikations- und Regressionsbäume Black-Box Verfahren?

Question 41

Q

5. Machine Learning Verfahren: Bagging und Random Forests

Für was steht Bagging?

Answer

A

= Bootstrap aggragating

Idee: zufällige Ziehung von Personen → Bäume unterschiedlich
z.B. für ntree = 500 Bäume
► ziehe 500 Stichproben aus dem Trainings-Datensatz
► lerne auf jeder Stichprobe einen Baum
► aggregiere die Vorhersagen

Question 42

Q

5. Machine Learning Verfahren: Bagging und Random Forests

Was ist die Idee von Random Forests?

Answer

A

Idee: zufällige Ziehung von Personen & Variablen

→ Bäume noch unterschiedlicher, Vorhersage noch besser
z.B. für mtry = 5 zufällig vorselektierte Variablen
► ziehe 500 Stichproben aus dem Trainings-Datensatz
► lerne auf jeder Stichprobe einen Baum
► aber bei jedem Split werden 5 Variablen zufällig vorselektiert, aus denen die nächste Split-Variable ausgewählt werden darf
► aggregiere die Vorhersagen

Question 43

Q

5. Machine Learning Verfahren: Bagging und Random Forests

Sind Randon Forest und Bagging Black Box Verfahren?

Answer

A

Ja, aber liefern Variable Importance für jede Variable

Question 44

Q

6. Modell-Vergleiche und Generalisierbarkeit:
Tests für genestete Modelle

Nenne zwei Tests für genestete Modelle

Answer

A

F-Test
Likelihood-Quotienten Test für GLM (genestet, parametrisch)
→ Likelihood volles Modell / Modell H₀
→ passt das größere Modell signifikant besser?

Question 45

Q

6. Modell-Vergleiche und Generalisierbarkeit:
Informationskriterien

Wie unterscheiden sich die Informationskriterien für den Modellvergleich von der Verwendung des LQ und des F-Tests?

Nenne 2 Informationskriterien und sage, welches die # Parameter stärker bestraft.

Answer

A

→ Informationskriterien auch verwendbar bei nicht genesteten Modellen

→ nur deskriptiv, kein Test

→ AIC, BIC

→ BIC bestraft stärker, bevorzugt sparsamere Modelle

→ wähle Model mit kleinstem IC

Question 46

Q

6. Modell-Vergleiche und Generalisierbarkeit:
Informationskriterien

Warum werden die Anzahl Parameter bestraft?

Answer

A

Wegen Overfitting.

Question 47

Q

6. Modell-Vergleiche und Generalisierbarkeit:
Kreuzvalidierung

Was ist das Ziel der Kreuzvalidierung?

Answer

A

Ziel:

realistische Abschätzung der Vorhersagegüte für neue Datensätze

Question 48

Q

6. Modell-Vergleiche und Generalisierbarkeit:
Kreuzvalidierung

Wie funktioniert die Kreuzvalidierung (Grundidee)?

Answer

A

Grundidee:
► teile Trainigs-Datensatz zufällig in K Teile auf z.B. K=5
► verwende jeweils 4 Teile als Lern-Stichprobe und passe das
Modell an, der 5. Teil wird zurückgehalten als Test-Datensatz
► bestimme Vorhersagegüte auf jedem Test-Datensatz und
bilde den Mittelwert über die 5 Durchgänge
►wähle Modell z.B. mit der kleinsten mittleren
CV-Fehlklassifikationsrate

Question 49

Q

Allg.:

Wie heisst das Sparsamkeitsprinzip?

Answer

A

Ockham’s Razor

Question 50

Q

7. Lineare Diskriminanzanalyse

Welches Skalenniveau haben die Einflussgrössen und Zielgrössen?

Answer

A

y: kategorial
x: metrisch

Question 51

Q

7. Lineare Diskriminanzanalyse

Was ist die Grundidee der Diskriminanzanalyse nach Fisher (1936)

Answer

A

► weder x₁ alleine noch x₂ alleine erlaubt eine Trennung der
Gruppen, aber eine Kombination von x₁ und x₂

► lege die Diskriminanzachse d so, dass für darauf projezierte
Beobachtungen gilt:
→ die Gruppenmittelwerte d₁ und d₂ liegen möglichst weit
auseinander (Ziel = Trennung der Gruppen)
→ Streuung innerhalb der Gruppen ist möglichst klein ist, d.h.
die einzelnen d_ij liegen nah an den d_j

► die Trenngerade verläuft rechtwinklig zur Diskriminanzachse

► Vorhersage: links der Trenngerade y =1, rechts davon y=2

► kann Fehlerklassifikationsrate berechnen

Question 52

Q

7. Lineare Diskriminanzanalyse

Wie kann die optimale Diskriminanzachse gefunden werden?

Answer

A

► durch Maximierung des Kriteriums λ

Streuung zw. Gruppen Δ Gruppen-M
λ = ——————————————- = —————————————
Streuung innerhalb Gruppen Δ einzelner Werte von M

Question 53

Q

Bei welchen Verfahren macht es Sinn eine Fehlklassifikationsrate zu berechnen?

Answer

A

Bei den folgenden Verfahren um zu überprüfen wie gut unser Modell ist:

I. Machine Learning Verfahren

II. Kreuzvalidierung

III. Diskriminanzanalyse

Question 54

Q

Für was ist der Likelihood Quotient da?

Answer

A

Für die Überprüfung von parametrischen, genesteten Modellen

Teile Likelihood des vollen Modells durch die Likelihood des restriktiven Modells

Question 55

Q

Wo haben wir überall die Maximum Likelihood angetroffen?

Answer

A

► Multiple Regression: Parameterschtzung

► Logit Modell: Parameterschätzung

Question 56

Q

Bei der Stepwise forward oder backward Regression, wie würdest Du die Modelle überprüfen?

Answer

A

Mit den Informationskriterien…

Question 57

Q

7. Diskriminanzanalyse:

Abschliessendes:

I. Von was hängt die nötige Anzahl an Diskriminanzachsen ab?

II. Was ist, wenn die Gruppen nicht linear trennbar

III. müssen die Daten normalverteilt sein?

Answer

A

I. Von Anzahl der y-Gruppen und Anzahl der x-Variablen ab

II. manchmal sind die Gruppen nicht linear trennbar
→ quadratische Disriminanzanalyse

III. in vielen Büchern steht, die Daten müssten normalverteilt sein,
der heuristische Ansatz von Fisher führt aber auch ohne diese
Annahme zum selben Ergebnis, d.h. hier Normalverteilungs-
Annahme unkritisch (solange keine Tests durchgeführt werden)

Question 58

Q

8. Signalentdeckunstheorie:

Wie heissen die coolen Kurven?

Answer

A

Receiver Operator Characteristic (ROC) - Kurve

Question 59

Q

8. Signalentdeckunstheorie:

Wie kann man die verschiedenen Diskriminationsleistungen unterscheiden?

Answer

A

► je weiter die ROC-Kurve von der Diagonalen entfernt ist, desto
besser die Diskriminationsleistung

► als Kennzahl dafür wird oft die „Area Under Curve“ (AUC)
berechnet

Question 60

Q

9. Überblick: Misch(verteilungs) / latent class Modelle:

Wann braucht man latent class Modelle?

Answer

A

I. Wenn die wahre Gruppenzugehörigkeit nicht existiert, sondern man nach Gruppen von Beobachtungen sucht!

→ also Gruppen die sich ähnlich sind bzgl. den Parameteren einer Verteilung oder eines Modells

(bisher: wahre Klasse y für Lerndaten bekannt)

oder

II. Mischverteilungs Modelle können zur Beschreibung von
multimodalen oder anderweitig „seltsamen“ Verteilungen
verwendet werden, ohne dass man sich für die Gruppen
interessiert, die dahinter stecken.

Question 61

Q

9. Überblick: Misch(verteilungs) / latent class Modelle:

Wie können Mischungen von Mischverteilungen entstehen?

Answer

A

multimodale oder anderweitig „seltsame“ Verteilungen entstehen oft
durch die Mischung von mehreren Gruppen von Beobachtungen, die
unterschiedliche groß sein können und „normale“ Verteilungen z.B.
mit unterschiedlichen Mittelwerten und Varianzen haben

Question 62

Q

9. Überblick: Misch(verteilungs) / latent class Modelle:

Wie formuliert man Mischverteilungne?

Answer

A

Mithilfe einer Dichtefunktion:

f(x, π, θ) = … (vgl. Formelsammlung)

x = Zufallsvariable (eg Grösse Person)
π = Parameter, oder Platzhalter für mehrere Dimensionen *_Person_*
θ = Parameter, oder Platzhalter für mehrere Dimensionen *_Gruppe_*

→ Fkt summiert Verteilungen. Wissen ja am Anfang nicht, wieviele Gruppen ich habe. Summieren die Verteilungsgruppen der einzelnen Funktionen.
Fk = Verteilungsfunktionen.

Question 63

Q

9. Überblick: Misch(verteilungs) / latent class Modelle:

Wie ist das Vorgehen zum Herausfinden, wieviele Gruppen idealerweise unterschieden werden sollen?

Answer

A

► die wahre Anzahl K der Gruppen ist nicht bekannt
► man probiert daher unterschiedliche Modelle aus, z.B. für 1, 2,
3 oder 4 Gruppen
► jedes Modell wird mithilfe des EM-Algorithmus (für
Expectation Maximization) geschätzt
► mithilfe von Informationskriterien wie dem BIC wird das beste
Modell gewählt
►für jede gefundene Gruppe kann man die geschätzen θ_k
ausgeben lassen
► für jede Person kann man die geschätzen π_k ausgeben lassen

Question 64

Q

Was haben diese 3 Verfahren gemeinsam und wo liegen die Unterschiede:

a) → Mischverteilungsverfahren / latent class Modelle
b) → Clusteranalyse
c) a) → Hauptkomponentenanalyse

Answer

A

→ alle drei Verfahren werden eingesetzt wenn die Kategorien von y unbekannt sind und möchte ähnliche Gruppen finden

a) Mischverteilungsverfahren
→ haben eine Verteilungsannahme!

b) Clusteranalyse
→ ohne Verteilungsannahme, heuristisches Verfahren
→ schauen Beobachtungen an & Clustern

c) HK-Analyse
→ schauen Variablen an und gruppieren

Answer 62

A

Das graphische Resultat der Clusteranalyse
→ oben: wenige große, inhomogene Gruppen
→ unten: viele kleine, homogene Gruppen

Answer 63

A

I) Man fusioniert die ähnlichsten
a)einzelnen Beob.
• euklidische Distanz (pythag.)
• Manhatten / City Block Distanz
→ vorher standardisieren (sonst dominieren V. mit gr. Wertebereich)
b) Cluster
• single linkage (zw. nächsten Beob. zw. Cluster)
• complete linkage (zw. weitesten Beob. zw. Cluster)

*II) Legt Anzahl der Gruppen fest**
tw. feste Anzahl vorgegeben, tw. grosse Lücke im Dendrogramm, ..

Answer 64

A

Ziel: mehrere korrelierte Variablen x₁; … ; x_p zu wenigen
Hauptkomponenten zusammenfassen

→ die Variablen werden üblicherweise standardisiert, so dass sie alle
Varianz 1 haben und mit gleichem Gewicht in die Analyse eingehen

Answer 65

A

Scree-Plot (Ellbogen-Kriterium)
Kaiser-Analyse (HK müssen Eigenwert > 1)
Anzahl an Streuung festlegen, die erklärt werden soll & lentsprechend viele HK festlegen
Parallel-Analyse

Answer 66

A

Durch:

Richtung (Eigenvektor)
Länge (Eigenwert)

Answer 67

A

→ Ähnlichkeit zwischen Objekten wird durch Nähe in niedrig-dimensionaler Karte ausgedrückt

→ Ausgangslage: Ähnlichkeitsmatrix, z.B. aus
• Ähnlichkeitsaussagen von Versuchspersonen
• berechneten Distanzen (z.B. euklidische, vgl. Clusteranalyse)

→ ähnlich wie der Scree-Plot für die PCA kann ein Plot der sog.
„Stress-Werte“ bei der Wahl einer geeigneten Anzahl von
Dimensionen helfen

Answer 68

A

die Varianz der (üblicherweise standardisierten) Items soll erklärt
werden durch

► wenige gemeinsame Faktoren f₁; … ; f_k hinter den Items
(z.B. beim I-S-T: verbale, numerische und figurale Intelligenz,
Merkfähigkeit)

► spezifische Anteile der Items

Answer 69

A

Σ = LL^T + V

mit LL: Ladungen, Kommunalität → die gemeinsame Varianz, die durch die Faktoren erklärt wird

V: Uniqueness (spezifische Varianz + Messfeheler)

Zur Schätzung der Ladungen und der Fehler, durch die Hauptachsenanalyse oder ML-Schätzung.

→ Anzahl k der Faktoren
→ Richtung der Faktoren

Answer 70

A

► Varimax (orthogonale Rotation)

► Promax (oblique Rotation, d.h. lässt Korrelationen zwischen den Items zu)

► Prokrustes (möglichst nah an vorgegebener Einfachstruktur)

► Bifactor (möglichst nah an Struktur mit einem Generalfaktor
und weiteren Gruppenfaktoren mit Einfachstruktur)

Answer 71

A

► lineares Regressionsmodell für Einfluss- und Zielgrössen
► aber Einfluss- und Zielgrössen sind latende Konstrukte, die
mithilfe von Items gemessen werden

+ berücksichtigt Messfehlermodell bei der Schätzung der
Regressions-Koeffizienten

Answer 72

A

x_i = θ_i +ε_i

► beobachtbar: Reaktion x_ider Person auf ein Item
► nicht beobachtbar: wahrere Wert θ_i des latenten Merkmals

⇒ Summe/Mittelwert aus mehreren Items, die selbes latentes
Merkmal messen, ist gute Schätzung (aber nicht = wahrer Wert)

Answer 73

A

► Klassische Testtheorie
- Faktoranalyse
(+ bekannt & geliebt, - Annahmen nicht testbar)

► Probabilistische Testtheorie
- Item-Response- Theorie (IRT, Rasch-Modell)
(+ Annahmen testbar, erst wenig im Einsatz)

Answer 74

A

= „hierarchische lineare“ Modelle (HLM),
„Mehrebenen“ („multilevel“) Modelle,
„mixed effects“ Modelle mit festen und zufälligen Effekten

≠ „Misch(verteilungs)“ Modelle, „latent class“ Modelle

→ bisher Annahme im Regressionsmodell:
Werte der Personen voneinander unabhängig
aber es gibt Situationen, wo das nicht der Fall ist!

Answer 75

A

a) Messwiederholungen
z.B. Längsschnittstudien; Experimente mit within-subjects
Designs, bei denen VPn mehrere Bedingungen absolvieren
Messungen derselben Person stärker korreliert als Messungen
von unterschiedlichen Personen

b) „verschachtelte“, genestete Datenstruktur
z.B. Schüler in Klassen, Klassen in Schulen, Schulen in
Städten, Städte in Kantonen etc.
Messungen der Schüler innerhalb einer Klasse stärker korreliert
als Messung von Schülern aus unterschiedlichen Klassen

Answer 76

A

a) long format
für jede Messung eine eigene Zeile.
→ für gemischte Modelle

b) wide format
für jede Person eine eigene Zeile (d.h. Messwiederholungen in einer einzigen Zeile).
→ für Strukturgleichungsmodelle

Answer 77

A

→ geeignete Parameter-Tests & Modellvergleiche noch beforscht
→ genauen statistischen Eigenschaften z.T. noch unbekannt

Vorgehen in unserem R-Beispiel:
→ Parameterschätzung mit Restricted Maximum Likelihood
REML liefert bessere Schätzung der Varianzen der zufälligen Effekte als ML-Schätzung
→ Likelihood-Quotienten-Test (in R: anova)
darf wie immer nur bei genesteten Modell verwendet werden,
d.h. z.B. um einen zufälligen Effekt zu testen, wobei alle
anderen – insbesondere alle festen – Effekte gleich sein
müssen (umgekehrt genauso)
bei Verwendung des lme4-Paketes werden beim Aufruf von anova per default alle Modelle nochmals mit ML geschätzt, weil die restringierte Likelihood aus der REML-Schätzung nicht geeignet ist, um Modelle mit unterschiedlichen festen Effekten zu vergleichen
→ asymptotische Tests für die festen Effekte (in R: cftest)
für endliche SP würde man eigentlich t-Tests verwenden, aber die korrekte Anzahl der Freiheitsgrade ist für gemischte Modelle umstritten als Kompromiss: bei größeren Datensätzen Tests basierend auf der asymptotischen
Normalverteilung

Answer 78

A

Missing Completely at Random (MCAR)
* → welcher Wert fehlt ist Zufall*
Missing at Random (MAR)
* → welcher Wert fehlt ist nur abhängig von einer anderen Variable*
Missing Not at Random (MNAR)
* → Welcher Wert fehlt ist von der Variable selbst abhängig*

Answer 79

A

1. Ausschlussverfahren
→ Listwise (=Casewise) Deletion
→ Pairwise Deletion

*2. Imputation**
→ fehlende Werte durch Variablen-Mittelwert ersetzen
Varianzred.
Abschwächung von Zus.hängen
wenn nicht MCAR: system. Verzerrungen*

→ Regresisons-Imputation
Varianzred.
Überschätzung der Korrelation
geeignet für MCAR & MAR*

Answer 80

A

► stochastische Regressions Imputation
zufälligen Fehler simulieren und dazu-addieren

► multiple Imputation jeden fehlenden Wert nicht nur durch einen Wert ersetzen sondern durch mehrere Werte ) ⇒
→ mehrere parallele Datensätze
→ Datensätze mit üblichen Auswertungsverfahren analysieren
→ Ergebnisse zusammenfassen und Unsicherheit berücksichtigen

Answer 81

A

Unter Zensierung wird der der Verlust von VP verstanden, aus unbekannten Gründen, so dass man nicht weiss wann das Ereigniss eingetreten ist:

Rechtszensierung
Linkszensierung
Intervallzensierung

Answer 82

A

Unter Zensierung wird der der Verlust von VP verstanden, aus unbekannten Gründen, so dass man nicht weiss wann das Ereigniss eingetreten ist:

Rechtszensierung
Linkszensierung
Intervallzensierung

Answer 83

A

Die Wahrscheinlichkeit dass zu einem Zeitpunkt t das Ereigniss, dass zum Zeitpunkt T eintritt, noch nicht eingetreten ist.

S(t) = P (T>t)

Answer 84

A

Mit dem Kaplan-Meier-Schätzer

Answer 85

A

Fliessen mit ein, veränder aber den Kurvenverlauf nicht.

Answer 86

A

► die Hazardrate gibt die Rate an, in einem kurzen Intervall nach
Zeitpunkt t zu versterben, wenn man bis Zeitpunkt t überlebt hat

► die Form der Hazardrate ist gut interpretierbar, z.B.
→ zunehmend: natürliche Alterung, Verschleiß
→ abnehmend: hohes Abstossungsrisiko direkt nach einer
Transplantation, danach immer weniger
→ „Badewannenförmig“: nach der Geburt sinkt das Sterberisiko
zunächst, aber im Alter steigt es wieder

Answer 87

A

► Regression mit (ggf. zensierten) Überlebenszeiten als Zielgröße
und beliebigen Einflussgrößen (u.a. Treatment)

► man geht von der „Proportional Hazards“ Annahme aus, d.h.
für zwei Gruppen (z.B. Treatment- und Kontrollgruppe) gilt:
hB(t) = hA(t) c bzw. log hB(t) = log hA(t) + log c
und modelliert die Abweichung von der „Baseline Hazardrate“
h₀(t) mit einem linearen Prädiktor:
log h(t) = log h0(t) + 1 x1 + + p xp

► es können auch zeitvariierende Kovariablen ins Modell
aufgenommen werden

Answer 88

A

►Effektstärken Mass

► Standardfehler des Effektstärken Mass

Answer 89

A

► Für jede Studie Berechnung des:
95% Konfidenzintervalls: d +/-1.96 s_d-> Forest Plot

► gewichtetes Mittel über alle Studien
dabei im Quadrat werden kleine SP bestraft

Answer 90

A

► mit festen Effekten
(Idee: alle Studien messen denselben wahren Effekt,
Unterschiede nur aufgrund zufälliger Ziehung der Stichproben)

► mit zufälligen Effekten
(vgl. gemischte Modelle; Idee: Unterschiede durch zufällige
Ziehung + Variation der wahren Effekte unterschiedlicher
Studien um einen mittleren Effekt)

► Meta-Variablen ins Modell aufnehmen, um Unterschiede
zwischen den Studien zu erklären („Meta-Regression“)

Answer 91

A

nur signifikante Studien werden veröffentlicht.

Überprüfung durch den Funnel Plot

Answer 92

A

a-posteriori-Verteilung = a-priori-Verteilung & Likelihood

Wobei mit Likelihood die bedingte Verteilung gegeben die Parameter gemeint ist.

D.h. durch unsere Zugrundelegung einer Annahme einer Verteilung können wir unser Modell shapen

Answer 93

A

► ist die a-priori-Verteilung eine Gleichverteilung, ist
EAP-Schätzer = ML-Schätzer
► d.h. man kann argumentieren, ML-Schätzung sei ohnehin
dasselbe wie Bayesianische Schätzung, bei der man eine
Gleichverteilung als „uninformative“ priori verwendet
► und man kann diskutieren, ob man tatsächlich alle Werte des
Parameters für a priori gleich wahrscheinlich hält, bzw. ob dies
nicht auch eine sehr starke Annahme darstellt
► beruhigenderweise verschwindet zudem der Einfluss der
a-priori-Verteilung, wenn die Stichprobengröße gegen unendligh geht

Answer 94

A

► besonders dann relevant, wenn die Daten nicht ausreichen, um Modelle mit vielen Parametern zu schätzen

► in diesen Fällen kann eine informative priori die Schätzung
deutlich verbessern bzw. überhaupt erst möglich machen – das
Ergebnis hängt aber potentiell stark von der Wahl der priori ab
⇒ Sensitivitätsanalyse

Brainscape's Knowledge GenomeTM

Stats 01 Flashcards

Brainscape's Knowledge Genome^TM