FLB 1 Flashcards
(44 cards)
Allgemeine Fakten: Regressionsanalyse
- Am häufigsten eingesetztes multivariates statistisches Auswertungsverfahren
- Modellieren von Existenz und Stärke von Zshängen zw verschiedenen Variablen & Art der Zshänge
- Einteilung der Variablen in abhängige (Kriteriums-, Ziel-) bzw. unabhängige (Prädiktor-, Einfluss-) Variablen (KV oder PV)
- Form der hypothetischen Beziehung zw KV und PV: Linear, nichtlinear
- Je nach Anzahl der PV: Einfache oder multiple Analyse
Aufgabe: Einfache lineare Regressionsanalyse (ELR)
- Beschreibung der Art des linearen Zshangs zw EINER Kriteriums- & EINER Prädiktorvariable
Definition: Methode der kleinsten Quadrate (MkQ)
- Universelles Schätzprinzip zur Ermittlung von Punktschätzungen für Parameter (nicht)linearer und einfacher / multipler Regressionsgleichungen
Ziel: Einfache lineare Regressionsgleichung (ELR)
- Ermittlung einer Regressionsgleichung:
Y (KV) = b0 (Nulldurchgang) + b1 (Steigung) · X (PV)
=> Gesucht: Gerade, die sich „am besten“ an ggb Punktwolke anpasst
Ausführung: Einfache lineare Regressionsgleichung (ELR)
- Gerade bzgl. Anpassungsgüte beurteilen: Abstand (Residuum) der gemessenen Werte ermitteln
- yi der Kriteriumsvariablen von dazugehöriger Schätzung ^yi auf Gerade betrachten: ei = yi - ^yi (i = 1,…, n)
yi: Wert Kriteriumsvariable Y des i-ten Probanden
^yi: Schätzwert für Kriteriumsvariable Y des i-ten Probanden
ei: Residuum des i-ten Probanden
Vorgehen: Methode der kleinsten Quadrate (MkQ)
- Abstandswerte von positiven u negativen Werten addieren sich zu Null => Quadrierte Abstandswerte nehmen
- Suche der Regressionsgeraden, bei der Summe der quadrierten Abweichungen der Messwerte von Schätzwerten auf Geraden minimal sind
=> Suche nach Parametern ^b0 und ^b1 (bei ELR) - Formel:
QSrest = []ei^2 = ^2 = ^2 —b0, b1—> Minimum
QSrest = Fehler-Quadratsumme
yi: Wert für Kriteriumsvariable Y des i-ten Probanden
^yi: Schätzwert für Kriteriumsvariable Y des i-ten Probanden
xi: Wert Prädiktorvariable X des i-ten Probanden
ei: Residuum des i-ten Probanden
[]: Summenzeichen; oben n; unten i = 1
b0, b1: Regressionskoeffizienten
n: Anzahl der Probanden
- Formel Parameterschätzungen ^b0, ^b1:
^b0 = _y - ^b1 * _x
^b1 = n * []xi * yi - []xi * [] yi / n * []xi^2 - ([]xi)^2
Voraussetzungen: Einfach lineare Regression (ELR)
- Festlegung von Prädiktor & Kriterium
- Gültigkeit des linearen Modells
- Statistische Unabhängigkeit der Modellfehler
- Normalverteilung der Modellfehler nach N(0, klein theta^2)
Vorteile, Nachteil: Quadrierung der Abstandswerte von Mess- und Schätzwerten
Vorteile:
- Negative u positive Abweichungen von Mess- und Schätzwerten werden gleichermaßen herangezogen
- Große Abweichungen werden stärker berücksichtigt
Nachteil:
- Gewisse Anfälligkeit ggü Ausreißern
- Voraussetzung ELR: Gültigkeit des linearen Modells
yi = b0 + b1 · xi + ei (i = 1, …, n)
yi: Wert der Kriteriumsvariablen Y des i-ten Probanden
xi: Wert der Prädiktorvariablen X des i-ten Probanden
ei: Residuum des i-ten Probanden
b0, b1: Regressionskoeffizienten
n: Anzahl der Probanden
- Annahme: Zw Variablen X & Y besteht linearer Zshang
- Die für einzelne Probanden bestehenden Abweichungen von linearer Beziehung werden durch Residuen ei als Wert des Modellfehlers E dargestellt
- Voraussetzung ELR: Statistische Unabhängigkeit der Modellfehler
- Modellfehler für jeden Probanden ist unabhängig von Modellfehlern der anderen Probanden
- Ggb, wenn Zufallsauswahl aus der Population
- Nicht ggb: Mehrere Werte derselben Person; Autokorrelation: Abhängigkeit aufeinanderfolgender Beobachtungen derselben Person
- Voraussetzung ELR: Normalverteilung der Modellfehler nach N(0, klein theta^2)
- Modellfehler unterliegen einer Normalverteilung mit dem Erwartungswert 0
- Varianzen der Modellfehler sollen unabhängig vom konkreten Wert xi des Prädiktors sein (Homoskedastizität)
=> Zur Überprüfung der Voraussetzung der Homoskedastizität wird häufig die grafische Ggüstellung der Residuen und Schätzungen für KV oder statistische Verfahren benutzt
Definition: Residuum
- Beschreibt Abweichungen des jeweiligen Messwertes des Kriteriums vom Schätzwert der Regressionsfunktion
Bewertung der Voraussetzungen: ELR
- Voraussetzungen I, II und III müssen definitiv erfüllt sein
- Gegen Voraussetzung IV kann geringfügig verstoßen werden, ohne dass Schätzung der relativ robusten Regressionsanalyse großartig verzerrt wird
- Wenn alle vier Voraussetzungen ggb, bietet MkQ unverzerrte Schätzung mit kleinstmöglicher Varianz
Varianzzerlegung: ELR
- Beurteilung der Güte einer Regression: Bestimmung des Anteils der Gesamtvarianz der KV, der durch Regression, also PV erklärt wird
- Gesamtvarianz = erklärte Varianz + nichterklärte Varianz
- Messwerte yi der KV Y setzen sich aus Schätzwerten ^yi auf Regressionsgeraden und Residuen ei zs
=> Quadratsummenzerlegung der KV Y in den durch Regression erklärten Anteil QS(^y) und den nicht durch Regression erklärten Anteil QS(e)
Was ist das Bestimmtheitsmaß?
- Determinationskoeffizient r^2 (auch: b)
- Wichtiges globales Gütekriterium der Regressionsanalyse
- Berechnung: Erklärte Varianz / Gesamtvarianz
- Anteil der Varianz der KV, der mit Hilfe der Regression, also durch PV aufgeklärt werden kann
- Bei ELR: Quadrat des Produkt-Moment-Koeffizienten r; kann Werte zwischen 0 und 1 annehmen
=> Totale lineare Abhängigkeit r^2 = 1; zwei vollständig unkorrelierte Variablen r^2 = 0
Zentrale Größen zur Beurteilung der globalen Güte der Regression
- Bestimmtheitsmaß r^2
- Standardfehler der Schätzung
Was macht Standardfehler der Schätzung?
Gibt an, welcher mittlere Fehler bei Verwendung der ermittelten Regressionsfunktion zur Schätzung der KV gemacht wird
Was ist der Signifikanztest und wie wird er interpretiert? (ELR)
- Zur statistischen Absicherung der Signifikanz des Bestimmtheitsmaßes (H0: r^2 = 0) wird F-Test durchgeführt
=> Führt bei ELR zum gleichen Ergebnis wie Signifikanztest des Korrelationskoeffizienten r - Nichtsignifikante Prüfgröße: Führt zu Ergebnis, dass PV keine statistisch nachweisbare Beziehung zur KV hat
=> PV zur Erklärung der Varianz der KV wahrscheinlich nicht geeignet (weitere Ergebnisse der Regressionsanalyse dann bestenfalls deskriptive Bedeutung)
Wie lauten die Schritte zur statistischen Prüfung der Regressionskoeffizienten?
- Standardfehler des Koeffizienten berechnen
=> Aus Daten der vorliegenden Stichprobe schätzen - Mittels Standardfehler des Regressionskoeffizienten lässt sich T-Test mit Wert = t angeben
=> Äquivalent zum t-Test ist Angabe von Konfidenzintervallen für Regressionskoeffizienten
Wie ergibt sich eine Vorhersage des Wertes ^y0 der KV aus einem bekannten Wert der PV x0 im Intervall [xmin, xmax]?
- Ergibt sich durch Einsetzen in ermittelte Regressionsgleichung
=> Intervall [xmin, xmax] bezeichnet Wertebereich der PV, aus dem Werte für Berechnung der Regressionsgeraden zur Verfügung standen - Wenn Ziel konkrete Vorhersage von Werten der KV, dann zusätzlich zu Punktschätzung die Angabe eines Konfidenzintervalls für Schätzwert erforderlich
Aufgabe: Multiple lineare Regression (MLR) => Modell und Schätzprinzip
- Beschreibung der Art des linearen Zshangs zw EINER Kriteriums- Y & k Prädiktorvariablen X1, X2, X3, … Xk
=> yi = b0 + b1 · x1i + b2 · x2i +…+ bk · xki + ei (i = 1, …,n)
yi: Wert der KV Y des i-ten Probanden
x1i, x2i, …, xki: Werte der Prädiktorvariablen X1, X2, …, Xk des i-ten Probanden
ei: Residuum des i-ten Probanden
b0, b1,…, bk: Regressionskoeffizienten
n: Anzahl der Probanden - Gesucht: Multiple Regressionsgleichung
Y = b0 + b1 · X1 + b2 · X2 + … + bk · Xk
Allgemeines Schätzprinzip zur Bestimmung der Regressionskoeffizienten
- Methode der kleinsten Quadrate
Voraussetzungen: MLR
- Entsprechen Voraussetzungen des Verfahrens bei ELR
- Für praktische Anwendungen wichtig: Mögliche uneingeschränkte Verwendung von dichotomen Variablen als PV
- Einbeziehung von kategorialen Variablen mit mehr als zwei Ausprägungen über entsprechende Kodierungen mit Dummy-Variablen => Voraussetzung: Werte der KV für alle Kombis der Ausprägungen der dichotomen Variablen sollten normalverteilt und varianzhomogen sein
Berechnung des Bestimmtheitsmaßes: MLR
- Analog zur einfachen linearen Regression
- Multiples Bestimmtheitsmaß als Quadrat des multiplen Korrelationskoeffizienten R
=> Bezeichnung oft: R^2 (oder B)