Multiple lineare Modelle Flashcards

1
Q

Multiple lineare Modelle (Definition)

A

Während du bei der einfachen linearen Regression nur einen Prädiktor betrachtest, verwendest du bei der multiplen linearen Regression mehrere Prädiktoren, um das Kriterium zu schätzen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Herausforderungen (2)

A

Anzahl der Prädiktoren durch die Wiederholungen begrenzt

Korrelation der Prädiktoren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Faustregel für Anzahl der Prädiktoren

A

p<n/10

Anzahl der Wiederholungen/10 sollte größer oder gleich der Anzahl der Prädiktoren sein

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Problem bei hochkorrelierenden Prädiktoren (3)

A

erklären den selben Varianzanteil der Response-Variable

Führt zu Verzerrung von Koeffizienz und Signifikanz

-> nur einer der Prädiktoren sollte in das Modell

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wertebereich hochkorrelierender Prädiktoren

A

r > 0.7 / < 0.7

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Lösungsansatz für hohe Korrelation

A

vorher testen, ob es sehr hohe Korrelationen unter den Prädiktoren gibt; ggf. wird ein Prädiktor, der die Varianz sehr gut erklärt durch die Anwesenheit eines anderen Prädiktoren beeinflusst

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Ziele der Modellvereinfachung (2) +
Ansatz zur Vereinfachung (2)

A

Ziele:
- einfaches Modell mit hohem Erklärungswert
- hohe Übertragbarkeit des Modells auf andere Fälle

Ansatz:
- Entfernung irrelevanter Prädiktoren aus dem Modell
- Vergleich der Modellgüte mit Gütemaßen, die die Anzahl der Prädiktoren bestrafen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Maß der Modellgüte: R^2

A

Wert für den Prozentualen Anteil der erklärten Varianz an der Gesamtvarianz (hohes Gütemaß)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Berechnung R^2 adjusted

A

1- ((SSE/n-p) / (SST/n-1))

n-p -> Wiederholungen - Prädiktoren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Warum Bestrafung der Prädiktoren?

A

Bestrafung der Prädiktoren führt dazu, dass nur die Prädiktoren einen Einfluss auf den Wert nehmen, die wirklich signifikant etwas verändern und nicht nur durch das hinzunehmen den Wert in die Höhe treiben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wann ist Blick auf R^2 adjusted sinnvoll?

A

sinnvoll wenn ich unterschiedliche Modelle im gleichen Kontext vergleiche, die eine unterschiedliche Kombination oder Anzahl der Prädiktoren haben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Problem von R^2 im multiplen Modell

A

jeder weitere Prädiktor erklärt irgendeinen Teil der Varianz in den Daten
Modelle werden deshalb auch durch „schlechte“ Prädiktoren „besser“

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Modellgütemaß AIC

A

basiert auf der log Likelihood

𝑨𝑰𝑪=−𝟐𝒍𝒐𝒈𝑳+𝟐𝒑+1

je größer AIC desto schlechter das Gütemaß; Wert wird größer mit Prädiktoren, die relativ wenig zu der erklärten Deviance beitragen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Deviance

A

Maß für erklärte Varianz (negatives Vorzeichen)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Verfahren für vereinfachtes Modell
(minimal adequate modell)

A

schrittweise Rückwärtsselektion

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Schritte für Rückwärtsselektion (5)

A

1) full model erstellen (alle Prädiktoren im Modell)
-> vorher nach stark korrelierenden Prädiktoren filtern
2) 2.) Prädiktoren mit dem schlechtesten fit (höchster p
Wert) herausnehmen und ein zweites Modell rechnen
3) 1. und 2. Modell mit
Gütemaß vergleichen (AIC)
4.) solange wiederholen, wie AIC dadurch geringer wird
5.) wenn AIC steigt, Variable wieder aufnehmen

17
Q

Ergebnis minimal adequate Modell

A

es bleiben nur die Prädikatoren übrig, die die Bestrafung des Modells durch hohe signifikanz aufheben

18
Q

Kritik an MAM (3)

A

1) p-Wert nicht immer geeignetes Kriterium
2) gegenseitige Beeinflussung von Prädiktoren sehr stark
3)Die Reihenfolge der Prädiktoren in der Modellgleichung spielt
eine Rolle –> wie entscheiden, welcher zuerst kommt

19
Q

Alternativen zu MAM (3)

A

1) Alle sinnvollen Modelle (Vorauswahl der Prädiktoren durch
Sachlogik, Vorinformationen) mit AIC vergleichen
2) Generell die Anzahl der Prädiktoren beschränken, immer nur
das full model angeben
3) Vorauswahl der Prädiktoren durch „ machine learning “ sehr
rechenintensive Algorithmen, die Relevanz von Prädiktoren
vergleichen können

20
Q

Unterschied Mulitple R-Squared u. Adjusted R-Squared

A

wenn wir gute Prädiktoren im Modell haben, dann ist der Unterschied von Multiple R und Adjusted R nur ein geringer

21
Q

Berechnung erklärter Varianzanteil eines Prädiktors

A

Berechnet durch sum of squares
-> dieser Wert kann aus der Anova-Tabelle der Regression herausglesen werden

Berechnung
sum of squares des Prädiktors / Summe aller sum of squares

(in Anova, Regression, Ancova)

22
Q

Unterschied summary - anova einer multiplen Regression

A

Die Signifikanzen der Prädiktorvariablen unterscheiden sich geringfügig von denen der Funktion summary , da hier ein F Test statt ein t Test gemacht wird.

23
Q

Modelldiagnostik/ Residualdiagnostik

A

Sind die Residuen des Modells (halbwegs) normalverteilt?
Es macht gerade bei komplexen, multiplen Modellen mehr Sinn,
sich die Residuen anzuschauen als die Verteilung der Response
Variable (das ist auch die eigentliche „Voraussetzung“)

24
Q

Residualdiagnostik plot

A

Gut: gleichmäßige Verteilung
der Punkte im Diagramm
Schlecht: Muster erkennbar
z.B. Trichter

Grund für Muster:
in Hintergrund der Residuen ist etwas, das nicht erklärt worden ist (z.B. wichtiger Prädiktor vergessen im Modell)

25
Q

Heteroskadistizität

A

Ob Streuung der Residuen über den Wertebreich der vorhergesagten Werte in einem Modell (Entlang der Geraden) zunimmt oder abnimmt

26
Q

Gerade im Plot der Regressionsdiagnostik
plot(Modellobjekt)

A

erster plot : vorhergesagte
Werte gegen die Residuen
Residuals vs. Fitted

wenn Regressionline fast gerade ist, dann ist gute Verteilung der Punkte übers ganze Diagramm gegeben

27
Q

Logistische Regression

A

spezialfall mit nominale response variable -> zwei Ausprägungen (0 oder 1) Gegensatzpaare als einen nominalen Faktor