1 Multiple Regression Flashcards

(45 cards)

1
Q

Wie unterscheidet sich Multiple Regression von Bivariater Regression?

A
  • Bivariate Regression hat eine UV und eine AV und es wird ermittelt, wie viel der UV zur AV beiträgt.
  • Multiple Regression hat mehr Prädikatoren (UV) UND diese korrelieren höchstwahrscheinlich auch unterinander
  • Weitere Prädiktoren werden nur in dem Anteil gerechnet, in d em sie die AV ZUSÄTZLICH ERKLÄREN (wenn sie überschneident sind mit anderen Prädikatoren, wird dieser nicht gerechnet)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist der Vorteil einer multiplen Regression im vergleich zu einer einfachen linearen Regression?

A

Wir können den genauen, alleinigen Beitrag einer Variable ermitteln und dabei Redundanzen berücksichtigen sowie Störvariablen kontrollieren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Warum kann man bei der multiplen Regression nicht einfach Kausalität annehmen?

A

Nur weil die eine Variable ans UV und die andere als AV definiert wird, bedeutet es nicht automatisch Kausalität. Dafür bedarf es noch anderen Bedingungen, z.B.:
- Ursache vor Wirkung
- Stabilität des Effekts bei Einschluss weiterer Prädiktoren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wie lautet die Regressionsgleichung für die bivariate Regression?

A

Beispiel:
x = Gehalt
y = Mitarbeitendenzufriedenheit
a = Bereich, wo die Gerade anfängt
b = Bereich der Steigung

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wie lautet die Regressionsgleichung für die multiple Regression?

A

Beispiel:
x = Gehalt
y = Mitarbeitendenzufriedenheit
a = Bereich, wo die Gerade anfängt
b = Bereich der Steigung

Jeder Prädiktor hat einen eigenen Steigungsbereich, also z.b. x1 + b1, x2 + b2, x3 + b3, …)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist Lineare Regression?

A

Lineare Regression ist ein Oberbegriff, der sowohl die bivariate (einfache) als auch die multiple (mit mehreren Prädiktoren) Regression umfasst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was sind die Voraussetzungen dafür, dass man eine Multiple Regression überhaupt rechnen darf?

A
  • Die AV muss metrisch sein (Skalenniveau NICHT ordinal oder nominal)
  • Residuen müssen Unabhängig sein (keine Autokorrelation) -> es darf keine logische Reihenfolge der erfassten Daten geben, z.B. keine Wochentage)
  • Normalverteilung der Residuen (Stichprobe muss gross genug sein)
  • Ausreisser und Einflussreiche Datenpunkte sollten erkennt werden -> und ausgeschlossen? (z.B. mit Residuals vs Leverage Diagramm)
  • Keine Multikolinearität
  • Keine Homoskedaszität
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was sind Residuen?

A

Residuen in der multiplen Regression sind die Differenzen zwischen den tatsächlich beobachteten Werten der abhängigen Variable und den vorhergesagten Wertendurch das Regressionsmodell.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Was ist Multikolinearität?

A

wenn zwei oder mehr unabhängige Variablen stark miteinander korrelieren. Das bedeutet, dass eine Variable fast vollständig durch eine andere (oder eine Kombination anderer) vorhergesagt werden kann.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist Homoskedastizität?

A

Homoskedastizität ist eine wichtige Annahme in der linearen Regression, die besagt, dass die Varianz der Residuen konstant über alle Werte der unabhängigen Variablen bleibt. (Fehlerverteilung ist gleich verteilt) -> Levine Test oder Grafisch gemäss Bild

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wie kann ich Multikollinearität in Jamovi prüfen?

A

Mit dem VIF-Wert (Colinearity Statistics)

Interpretation siehe Anhang

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wie kann ich Homoskedastizität in Jamovi prüfen?

A

Über die Residuenplots. Interpretation siehe Anhang.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wie erkenne ich Autokorrelation der Residuen?

A

🔹 Durbin-Watson-Test → Schnellste Methode für einfache Regressionsmodelle. (2 ist gut, alles andere ist schlecht)

DW ≈ 2 → Keine Autokorrelation (✅ Gut).
DW < 1,5 → Positive Autokorrelation (🔴 Problem: Residuen hängen zusammen, oft in Zeitreihen).
DW > 2,5 → Negative Autokorrelation (🟠 Problem: Extreme Schwankungen zwischen Residuen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Wie erkenne ich Normalverteilung der Residuen?

A

Shapiro-Wilk-Test:

p > 0.05 = Normalverteilung
p < 0.05 signifikant nicht Normalverteilt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wie erkenne ich Ausreisser bei der multiplen Regression?

A
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist das Ziel der multiplen Regression?

A

Lineare Vorhersage einer intervallskalierten abhängigen Variable (Av, Kriterium) anhandm ehrerer unabhängiger Variablen (UVs, Prädiktoren) vorherzusagen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was muss gegeben sein, damit die Kausalität (und nicht nur Prognose) erfüllt ist?

A
  • Die Ursache muss zu einem früheren Zeitpunkt passiert sein.
  • Der Effekt muss auch dann bleiben, wenn weitere Prädiktoren ins Modell dazu kommen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Welche zwei gleichungen gibt es jeweils?

A
  • Eine auf Stichprobenebene
  • Eine auf Populationsebene
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Wie ist die Gleichung der Multiplen Regression für zwei unabhängige Variablen?

20
Q

Wie ist die Gleichung der Multiplen Regression für mehrere unabhängige Variablen?

21
Q

Was ist das kleinste-quadrate-kriterium?

A

Das Kleinste-Quadrate-Kriterium der multiplen Regression minimiert die Summe der quadrierten Abweichungen zwischen den vorhergesagten und den tatsächlichen Werten auf der y-Achse, um die bestmögliche Anpassung der Regressionsgeraden an die Daten zu gewährleisten.

22
Q

Welches ist der beste Schätzwert, wenn man nichts anderes weiss?

A

Der Mittelwert

23
Q

Wann (bei welcher Zahl) sind die Prädiktoren geeignet für die Vorsage und wann nicht?

A

0 = gänzlich ungeeignet zur Vorhersage
1 = geänzlichc geeignet zur Vorhersage

24
Q

Wann ist der Effekt einer Regression gross, mittel und schwach?

25
Wann liegt eine bedingte Regressionsanalyse vor?
Wenn wir die Ausprägungen aller anderen unabhängigen Variablen konstant halten.
26
Was sind Regressionsgewichte?
Regressionsgewichte (auch Regressionskoeffizienten oder β-Koeffizienten) sind die Zahlen, die in einer Regressionsgleichung die Stärke und Richtung des Einflusses einer unabhängigen Variable auf die abhängige Variable angeben.
27
Was sind unstandardisierte Regressionsgewicchte (b oder B)?
Geben an, wie stark sich die abhängige Variable (AV) verändert, wenn sich die unabhängige Variable (UV) um eine Einheit verändert – in den **originalen Maßeinheiten**. Beispiel: Wenn das unstandardisierte Gewicht für „Anzahl Trainingsstunden“ bei 2.5 liegt, heißt das: Pro zusätzlicher Trainingsstunde steigt die Leistung um 2.5 Punkte. Interpretation: Praktisch relevant, aber schwer vergleichbar, wenn UVs in unterschiedlichen Einheiten sind (z. B. CHF vs. Jahre). Vorteile: - sind die häufigsten - sind nützlich zur Prognose des Kriteriums (enthalten die Metrik) - sie erklären Veränderungen in Einheiten - ermöglichen Gruppenvergleicche
28
Was sind standardisierte Regressionsgewichte (β oder beta)?
Drücken aus, wie stark sich die AV verändert, wenn sich die UV um eine Standardabweichung verändert – alle Variablen wurden vorher **standardisiert (z-transformiert).** Beispiel: Ein beta von 0.60 bedeutet: Wenn sich die UV um 1 Standardabweichung erhöht, steigt die AV um 0.60 Standardabweichungen. Interpretation: Ermöglicht Vergleichbarkeit der Effekte mehrerer UVs (weil gleiche Skala), auch wenn diese unterschiedliche Maßeinheiten haben. Merkmale: - in Publikationsen anzutreffen
29
Was sind die Annahmen der Regressionsdiagnostik? (Welche Annahmen müssen erfüllt sein? Was muss ich in der gerechneten Diagnostik prüfen?)
- Korrekte Spezifikation des Modells (Underfitting oder Overfitting) - Messfehlerfreiheit der unabhängigen Variablen - Homoskedastizität - Normalverteilung der Residuen - Unabhängigkeit der Residuen (keine Autokorrelation)
30
Welche weiteren Probleme (ausser nichterfüllung der Annahmen) können auftreten?
- Ausreisser und einflussreiche Datenpunkte - Multikollinearität (wenn zwei oder mehrere Prädiktoren besonders viel Varianz miteinander teilen) (Verletzen keine klassischen Annahmen, verletzen aber robustheit und verlässlichkeit)
31
Nenne ein Beispiel für Underfitting
Das Modell ist zu einfach, um die zugrunde liegenden Zusammenhänge in den Daten zu erfassen. Typisch bei: * zu wenigen Prädiktoren * lineares Modell für nichtlinearen Zusammenhang * sehr hohe Bias (Verzerrung) Folge: * schlechte Vorhersageleistung sowohl in Trainings- als auch Testdaten * große Fehler, geringe Modellgüte (z. B. tiefes R²) Beispiel: Du versuchst, den Verlauf von Körpergewicht über das Lebensalter mit einer simplen Geraden zu beschreiben – das greift zu kurz.Es wird z.B. eine Lineare Regression zwischen zwei Variablen angenommen, es handelt sich aber um eine Kurve. (es gibt aber aucch weitere Gründe)
32
Was ist Overfitting
z.B. wenn Prädiktoren ins Modell eingefügt werden, die zur Erklärung irrelevant sind.
33
Welche Probleme kann es beid er Messfehlerfreiheit der unabhängigen Variablen geben?
- Wenn UV nicht realiabel ist - Wenn UV nicht valide ist (oder beides
34
Was ist Heteroskedastizität?
35
Wie testen wir auf Homoskedastizität?
- Breusch-Pagan-Test - White's Test p > .05
36
Wie teste ich auf Normalverteilung?
- Kolmogorov-Smirnov-Test - Shapiro-Wilk-Test
37
Wann treffen wir Abhängigkeit der Residuen oft an?
- bei Klumpenstrichproben (test: intra-klassen-koeffizienten (ICC) > .05 - bei Zeitreihenfolgen (Test: Durbin-Watson-Statistik)ç
38
Was ist die datengesteuerte Auswahl von Prädiktorvariablen?
Die datengesteuerte Auswahl von Prädiktorvariablen ist ein Verfahren, bei dem automatisch oder systematisch bestimmt wird, welche unabhängigen Variablen in einem Regressionsmodell verwendet werden sollen. Ziel ist es, ein Modell zu finden, das möglichst präzise Vorhersagen trifft, aber nicht unnötig komplex ist.
39
Wann ist die datengesteuerte Auswahl von Prädikatorvariablen sinnvoll?
- Wenn es sehr viele gibt - Wenn nicht klar ist, welche Variablen sinnvoll sind (z.b keine klare theoretische Grundlage) - Wenn man Overfitting vermeiden will
40
Was ist Kreuzvalidierung in der Prädikatorenauswahl?
Die Kreuzvalidierung ist eine Technik zur Bewertung der Modellgüte, insbesondere in der datengesteuerten Auswahl von Prädiktorvariablen. Sie hilft zu überprüfen, ob das gewählte Modell nicht nur auf den vorhandenen Daten gut funktioniert, sondern auch auf neuen, unbekannten Daten zuverlässige Vorhersagen liefert.
41
Warum kann man bei der multiplen Regression den Einfluss von Störvariablen kontrollieren.
In der multiplen Regression kann man den Einfluss von Störvariablen kontrollieren, weil mehrere unabhängige Variablen gleichzeitig in das Modell aufgenommen werden. Dadurch wird der Einfluss einer Variablen auf die abhängige Variable bereinigt, indem die Effekte anderer Variablen statistisch konstant gehalten werden. So kann man den isolierten Effekt einer Variablen auf die Zielgröße bestimmen, ohne dass Störvariablen das Ergebnis verzerren.
42
Was ist der Interzept?
Das Interzept (β0), auch Achsenabschnitt, ist der Wert der abhängigen Variable (Y), wenn alle unabhängigen Variablen (X1, X2, ... Xn) gleich null sind.
43
Wann ist das Interzept wichtig?
✔ Wenn X = 0 eine realistische Bedeutung hat (z. B. Einkommen bei 0 Berufserfahrung). ✔ Wenn man eine Referenzbasis für die Interpretation braucht.
44
Wann ist das Interzept nicht sinnvoll interpretierbar?
❌ Wenn X=0 nicht realistisch vorkommt (z. B. Alter = 0 Jahre). ❌ Wenn die Prädiktoren keinen natürlichen Nullpunkt haben. 👉 In solchen Fällen kann man die Variablen zentrieren, damit das Interzept eine verständlichere Bedeutung bekommt.
45
Welche Formen von Datengesteuerten Auswahlverfahren gibt es?
- Vorwärtsselektion - Rückwärtselimination - Schrittweise Regression - Lasso Regression - Ridge Regression - Elastic Net Regression - AIC/BIC