Stats 01 Flashcards
1. Multiple Regression
Nenne das Skalenniveau der:
- Zielgrösse
- Einflussgrössen
Zielgrösse: metrisch
Einflussgrösse: metrisch oder kategorial
1. Multiple Regression
Matrixschreibweise für alle n Personen der Regressionsgleichung
1. Multiple Regression
Was ist eine Einheitsmatrix
Matrix in der nur in der Diagonale 1ner drinn stehen, sonst Nullen.
Sind symmetrisch, gleichviele Spalten wie Zeilen.
Wenn man eine andere Matrix mit der Einheitsmatrix multipliziert, kommt wieder das gleiche raus…
1. Multiple Regression
Nenne die 5 Annahmen der multiplen Regression
- E(ε)= 0 Fehler sind im Mittel Null
- Cov(ε) = σ2 * tau Varianzhomogenität
- X hat vollen Rang
- Fehler sind normalverteilt
- Einflussgrössen sind messfehlerfrei
1. Multiple Regression
Was bedeuted die Annahme
E(ε)= 0
Wie kann man das graphisch überprüfen?
Was tun bei Verletzung?
E(ε)= 0
→ Fehler sind im Mittel 0, haben keine systematische Abweichung und streuen zufällig um eine Gerade
→ graphische Ü: Residuen-Plot
→ Verletzung: bei unberücksichtigten Einflussgrössen oder nichtlinearen Zusammenhängen
→ Behebung: Hinzunahme von weiteren Einflussgrössen oder nichtlinearen Terme ins Modell aufnehmen
1. Multiple Regression
Was bedeuted die Annahme
Cov(ε) = σ2 * Tau
Wie kann man das graphisch überprüfen?
Was tun bei Verletzung?
Cov(ε) = σ2 * Tau
→ Varianzhomogenität / Homoskedaszidität:
I. Varianz an jeder Stelle gleich
→ graphische Ü: Residuen-Plot / Scale Location Plot
→ Verletzung: Varianz hängt von X-Werten ab
→ Behebung: gewichtete KQ-Schätzung, Box-Cox Transformation, Quantilregression
II. Fehler korrelieren nicht
→ graphische Ü: Residuen-Plot
→ Verletzung: zeitl./ räuml. Gruppen von Beob. (Messweiderholungen, genestete Daten)
→ Behebung: gemischte (hierarchische, Mehrebenen-) Modelle
1. Multiple Regression
Was bedeuted die Annahme
X hat vollen Rang
Wie kann man das graphisch überprüfen?
Was tun bei Verletzung?
X hat vollen Rang
→ keine perfekten Korrelationen (r=1)
→ Ü: Modell nicht schätzbar
→ Verletzung: eg. Geburtsjahr und Alter
→ Behebung: Einflussgrössen sinnvoll auswählen
1. Multiple Regression
Was bedeuted die Annahme
ε ~ N (O, σ2 * Tau)
Wie kann man das graphisch überprüfen?
Was tun bei Verletzung?
ε ~ N (O, σ2 * Tau)
→ Fehler sind normalverteilt: Werte von y sind an jeder Stelle von x normalverteilt (wie die Werte von x oder y insgesamt verteilt sind ist egal)
→ graphische Ü: Residuen-Plot, Q-Q Plot
→ Verletzung: andere Verteilungsform, z.b. weil Skala einseitig begrenzt, unberücksichtigte Einflussgrössen, latente Klasse ► Schätzung des Modells ok, aber Tests un KI stimmen nicht mehr
→ Behebung: generalisierte lineyare Modelle, Box-Cox, o.a. Transformation von y
1. Multiple Regression
Was bedeuted die Annahme
Einflussgrössen sind messfehlerfrei
Wie kann man das graphisch überprüfen?
Was ist das Resultat?
Einflussgrössen sind messfehlerfrei
→ Fehler sind im Mittel 0, haben keine systematische Abweichung und streuen zufällig um eine Gerade
→ graphische Ü: siet man nicht direkt
→ Verletzung: Ergebnis von psychol. Test hat immer Messfehler, weil der wahre Wert des latenten Merkmals unbekannt ist
→ Resultat: durch Messfehler in Einflussgrösse wird die Varianz grösser und die Steigung wird unterschätzt. In multipler Regression auch Auswirkung auf andere Koeffizienten.
→ Behebung: psychol. Tests und FB validieren, Modelle für latente V. oder messfehlerfreie Modelle verwenden
1. Multiple Regression
Was passiert wenn die Einflussgrössen nicht messfehlerfrei sind?
Durch Messfehler wird die Varianz höher und dadurch wird die Steigung unterschätzt.
In der multiplen regression kann sich dies auch auf die Schätzung der anderen Koeffizienten auswirken
Multiple Regression:
Wie kann man die Koeffizienten schätzen?
- Kleinste Quadrate
- Maximum Likelihood
* → identisch bei Normalverteilungsannahme*
Multiple Lineare Regression:
Nenne zwei Schätzprinzipien für Regressionskoeffizienten ß
- KQ: Kleinste Quadrate
- ML: Maximum Likelihood
* Bei Normalverteilung sind die Schätzer der KQ und ML identisch!*
Multiple Regression:
Wie nennt man die Dummy-Kodierung noch?
Treatment Kontraste
Multiple Regression:
Wie nennt man die Effekt Kodierung noch?
Summen Kontraste
Multiple Regression:
Wie nennt man die Treatment Kontraste noch?
Dummy- Kodierung (0,1)
–> Interpretation im Vergleich zur Referenzkategorie
–> und Interpretation des Achsenabschnitts wenn alle Einflussgrössen x = 0
Multiple Regression:
Wie nennt man die Summen Kontraste noch?
Effekt Kodieru g (-1,1)
–> hat Balancekategorie (-1, -1, -1)
–> Interpretation im Vergleich zum Gesamtmittel
Multiple Regression:
Auf was muss man bei der Interaktion achten, wenn ins Modell Interaktionsterme mit aufgenommen werden?
Kann Haupteffekte nicht mehr alleine interpretieren!
→ bei Kategorialen Variabeln: für die verschiedenen Kategorien beschreiben
→ bei metrischen einzelne Werte rausgreifen (eg. -1SD, M, + 1SD)
Multiple Regression:
Wie kann man die Modelle vergleichen?
I. Bestimmtsheitsmasse R2
Anteil der durch das Modell erklärten Streuung an der Gesamtstreuung, Problem: Wird höher, je mehr neue Variablen → adjusted R2
II. F-Test
Für den Vergleich genesteter Modelle
Multiple Regression:
Berechne den F-Wert
8.417
2 Quantilregression:
Was sind die Vorteile der Quantilregression?
► gute Möglichkeit um mit Ausreißern, Heteroskedastizität und
Nicht-Normalität umzugehen
► im Gegensatz zu anderen Verfahren (gewichtete
KQ-Schätzung, generalisierte lineare Modelle) Ziel nicht nur
bessere Schätzung eines Modells für den Erwartungswert
► sondern zusätzliche Information über unterschiedliche Verläufe
für die einzelnen Quantile nutzbar
► Interpretation sonst genauso wie bei normaler Regression
► keine Annahmen über die Art der Heteroskedastizität oder der
Fehlerverteilung nötig
3. Likelihood:
Was ist die Likelihood?
Üblicherweise ist die Fragestellung, wie hoch ist die W’keit für ein bestimmtes Outcome, bei bekannten Parameterwerten.
Bei Likelihood umgedreht: Wie plausibel sind verschiedene Parameterwerte für ein bestimmtes Ergebnis. D.h. die Likelihood ist die Funktion von π gegeben x, wobei die Formel immer noch dieselbe ist.
► Werte können beliebig gross oder klein sein (nicht [0,1]
► für ML: Fkt 0 setzen & ableiten (uns interessiert nur wo max, nicht wie hoch y)
► nehme log um Mathe zu vereinfachen
3. Likelihood:
Was ist die Formel für den Maximum-Likelihood-Schätzer?
Σni=1 xi
π = —————-
n * k
mit xi = Beobachten Werte der untersch. Personen
k = Anzahl an Beobachtungen (eg. je 10 Würfe, x= Treffer)
n = Anzahl Personen
3. Likelihood:
Was sind die Eigenschaften des Maximum-Likelihood-Schätzer?
Haben einige sehr praktische Eigenschaften, u.a. sind sie
► asymptotisch erwartungstreu
(treffen im Mittel den wahren Wert wenn n ausreichend groß)
► konsistent
(Varianz der Schätzung wird mit steigendem n kleiner)
► asymptotisch normalverteilt
daraus lassen sich Tests und Konfidenzintervalle ableiten
4. Logistische Regression & GLM: binäres Logit-Modell
Wieso verwende ich ein binäre Logit-Modell und nicht die multiple Regression?
Weil die Zielgrösse y binär ist, z.B. wird eine Person krank oder nicht.
Grundidee: modelliere die Wahrscheinlichkeit, dass Person i krank
wird, durch die Einflussgrössen
► bei linearer Funktion: Könnten sich Werte beliebig sein. Will Werte zwischen 0 und 1…. als W’keit, dass Person krank wird durch Einflussgrössen
4. Logistische Regression & GLM: binäres Logit-Modell:
Was ist der lineare Prädiktor?
Bei der Responsfunktion ist der lineare Prädiktor eta das lineare multiple Regressionsmodell dass im Exponent des e’s steht:
eeta
4. Logistische Regression & GLM: binäres Logit-Modell
Welche Form hat die Responsefunktion?
► s-förmig
► Wertebereich [0, 1]
4. Logistische Regression & GLM: binäres Logit-Modell
Was ist die Linkfunktion?
Die Umkehrfunktion der Responsefunktion, d.h. nach eta aufgelöst:
πi
eta = log ( ————— )
1 - πi
4. Logistische Regression & GLM: binäres Logit-Modell
Wie schätzt man die Parameter im Logit-Modell?
durch Maximum-Likelihood-Schätzung
→ mithilfe der asymptotischen Normalverteilung auch Tests und
Konfidenzintervalle für einzelne ß
4. Logistische Regression & GLM: binäres Logit-Modell
Wie vergleicht man Modelle miteinander?
zum Modellvergleich: Likelihood-Quotienten-Test
4. Logistische Regression & GLM: binäres Logit-Modell
Was passiert mit den log odds, den odds und der Wahrscheinlichkeit wenn xi um eine Einheit steigt?
(xi +1)
Die Umkehrfunktion der Responsefunktion, d.h. nach eta aufgelöst:
πi
ß0 + ß1 * (xi+1) = log ( ————— )
1 - πi
► log odds steigen / fallen um ß1
► odds sind eß1 mal so gross / klein
► Wahrscheinlichkeit fällt / steigt für y = 1
4. Logistische Regression & GLM: Poisson-Regression und weitere GLMs
Wann würde ich zur Poisson Regression oder andren GLMs greifen?
Well, well baby:
Wenn ich die multiple Regression nicht anwenden kann, da meine Verteilung nicht normalverteilt ist.
→ ) y|x ist nicht normalverteilt! (4te Annahme im LM)
→ z.B. seltene Ereignisse (Anzahl Anfälle / y), bei sogenannten Zähldaten
→ Verteilung ist diskret und schief
4. Logistische Regression & GLM: Poisson-Regression und weitere GLMs
Was ist das besondere an der Poisson Regression, bzw. am Parameter λ?
λ ist zugleich Erwartungswert und Varianz
4. Logistische Regression & GLM: Mehrkategoriale Logit Modelle
Wie geht man mit mehr als zwei Kategorien um?
Na, ganz einfach:
Man braucht für jede Kategorie eine eigene Gleichung.
→ für jede der Gleichungen ein eigenes Set von Betas, bis auf Referenzkategorie (= letzte Kategorie)
4. Logistische Regression & GLM:
Was oassuert bei perfekt getrennten Klassen bei Logit Modellen
theoretisch: = undendlich
praktisch: je nach Programm
►Fehlermeldung/Warnung
► komisches Ergebnis (standardfehler riesig)
5. Machine Learning Verfahren:
Wie unterscheidet sich die nichtparametrische Statistik von der parametrischen Statistik?
nichtparametrische Statistik:
Im Gegensatz zur parametrischen Statistik erforderen deren Verfahren keine Verteilungsannahme bzgl. der Zufallsvariable xi
–> verteilungsfrei
5. Machine Learning Verfahren: Neuronale Netzwerke
Was ist die Grundidee der neuronalen Netzwerke?
Grundidee: Verarbeitungs-Prozesse von Hirnzellen nachbilden
► gewichtete Verbindungen zwischen „Neuronen“ geben Signale an
nächste Ebene weiter
► anhand von Trainigs-Datensatz werden Gewichte so gelernt, dass
y möglichst gut vorhergesagt wird
► Input Units → Hidden Units → Output Units
5. Machine Learning Verfahren: Neuronale Netzwerke
Was sind die Vor- & Nachteile der Neuronalen Netzwerke?
… sind Black Box Verfahren, nachher Fehlklassifikationsmatrix
Vorteile:
+ flexibler
+ realistischer
+ bessere Vorhersage
Nachteile:
- für Menschen schwer vorstellbar
5. Machine Learning Verfahren: Klassifikations- und Regressions-Bäume
Was ist die Grundidee von Klassifikations- und Regressionsbäumen
Grundidee:
Personen anhand der x Variablen in Gruppen einteilen,
die ähnliche Werte von y haben
anhand von Trainigs-Datensatz werden relevante x Variablen ausgewählt und an „Cutpoints“ aufgeteilt
→ Ergebnis ist einfach zu interpretieren als Entscheidungsbaum
(keine „Black Box“)
5. Machine Learning Verfahren: Bagging und Random Forests
Was ist die Grundidee von Bagging und Random Forests
sind sog. Ensemble Verfahren
Grundidee:
mehrere hundert Bäume zusammenschalten.
Jeder Baum wird auf einem zufällig gezogenen Teil des
Trainings-Datensatzes gelernt ) Bäume sehen unterschiedlich aus
Vorhersage: Mittelwert/Abstimmung der Vorhersagen der einzelnen
Bäume ) flexiblere, glattere Vorhersagen