Das Modell Kapitel 3 Flashcards
Kapitel 3 in BMaster (17 cards)
Welche 5 allgemeinen Ziele haben Regressionsanalysen
- Gute Anpassung des Modells an die Daten, d.h. die “Reste” des Modells sollen klein sein. (Methode der kleinsten Quadrate)
- “gute” Schätzungen der Parameter des Modells. Damit kann man die Veränderung der Zielgrösse quantifizieren, wenn man Eingangsgrössen variiert.
- Vorhersage der abhängigen Variablen bei neuen Daten als Eingangsgrössen.
- Unsicherheit und Signifikanz der drei obigen Ziele. Das führt zu statistischen Tests und Konfidenzintervallen.
- Entwicklung eines guten Modells. In einem interaktiven Prozess werden Teile des Modells verändert um zu einem besseren Modell zu gelangen
Wie wird im allgemeinen Fall der Freiheitsgrad berechnet?
n - p (Anzahl Beobachtungen minus Anzahl Parameter)
Für was wird die multiple Regression verwendet?
Im Allgemeinen ist die multiple Regression die Methode der Wahl, um Effekte von mehr als einem Prädiktor gleichzeitig einzubeziehen.
Wie lautet die Formel für die pxp Kovarianzmatrix von βDach?
Cov(βDach)= σ^2(X^T * X) ^-1
Wie lautet die Varianz beim Einstichprobenfall ohne Prädiktoren?
Var( Y Dach) = σ^2 / n
(Wegen X^T 3 X) ^-1 = 1/n )
( E(μ Dach) = E(Y Dach) = μ
Parameterschätzungen bei Normalverteilung:
- Mittelwert der Schätzer
- Kovarianzmatrix der Schätzer
Mittelwert der Schätzer: θDach=θ
Kovarianzmatrix der Schätzer: Cov(θDach)=σ2(XhochT*X)^−1 Hierbei ist θDach der Vektor der geschätzten Parameter, θ ist der wahre Wert der Parameter, σ^2 ist die wahre Varianz der Fehler, und X ist die Designmatrix der Regressoren.
Parameterschätzungen bei Normalverteilung:
- Geschätzte Residualvarianz:
Geschätzte Residualvarianz: σDach^2=1/ (n−p) ∑ (hoch n, tief i=1) (yi−yDachi)^2
Hierbei ist nn die Stichprobengröße, p ist die Anzahl der Regressoren, yi sind die beobachteten Werte, und yDachi sind die vorhergesagten Werte der abhängigen Variable.
Eingeschränktes Modell
Eine Untermenge von Parametern wird Null gesetzt (d.h.
sie spielen keine Rolle bezüglich der Zielgrösse)
Volles Modell
Alle Parameter werden geschätzt.
ANOVA
Ist eine Varianzanalyse, Analysis of variance.
TSS = ESS + RSS
||Y − ¯ Y ||^2 =|| ˆ Y − ¯ Y ||^2 +||Y − ˆ Y ||^2
Was bedeutet TSS, ESS, RSS?
TSS= summe der quadrierten Abweichungen der beobachteten Werte vom GEsammtmittel
ESS = erklärte Quadratsumme, die die durch das Modell erklärte Variation repräsentiert.
RSS= nicht erklärte Quadratsumme, die die vom Modell nicht erfasste Variation repräsentiert.
∣∣ ⋅ ∣∣ ^2
bezeichnet die quadratische Norm.
Anzahl Freiheitsgrade für ESS
Die Anzahl der df wird durch die Differenz der Freiheitsgrade zwischen dem vollen Modell und dem reduzierten Modell bestimmt. Im reduzierten Modell bleiben oft nur der Intercept-Term übrig, daher hat es n−1 df. Das volle Modell hat n−p df, wobei p die Anzahl der Regressoren ist. Daher ist die Anzahl der df für ESS = (n−1)−(n−p)=p−1
Anzahl Freiheitsgrade für RSS
Die Anzahl der df für RSS ist n−p, da sie die Anzahl der Beobachtungen minus die Anzahl der geschätzten Parameter im Modell ist.
Anzahl Freiheitsgrade für TSS
Die Anzahl der df für die Gesamtquadratsumme (dfTotal) ist die Summe der Freiheitsgrade für ESS und RSS, da sie die gesamte Variation in den Daten repräsentiert.
dfTotal = dfExplained + dfResidual.
Mass für die Anpassungsgüte
goodness of fit =
R^2 = ESS/TSS
Stellt die Proportion der Totalen Quadratsumme dar, die durch die Regression erklärt wurde
Residuen
r tief i = Y tief i - Y Dach tief i
stellen Approximationen für die nicht beobachteten Fehler Epsilon tief i
dar. Sie können gebraucht werden, um Modellannahmen zu testen.