logistische Regression Flashcards
Worum geht es in der logistischen Regression?
binäres Kriterium: In der logistischen Regression sagen wir ein Kriterium vorher, welches nur zwei Werte, nämlich 1 oder Null annehmen kann.
Probleme einer normalen linearen Regression auf ein binäres Kriterium
- unzulässiger Wertebereich
- Normalverteiltheit der Residuen nicht möglich
- Homogenität der bedingten Varianzen
Probleme einer normalen linearen Regression auf ein binäres Kriterium: 1. unzulässiger Wertebereich
wendet man auf ein binäres Kriterium eine normale Regression an, treten Werte in einen unzulässigen Wertebereich auf (also einem Wertebereich für das Kriterium der außerhalb von 0 oder 1 liegt) –> wir müssen also eine Funktion finden, die die Daten möglichst gut beschreibt
Probleme einer normalen linearen Regression auf ein binäres Kriterium: 2. Normalverteiltheit der Residuen nicht möglich
Um Nullhypothesen-Signifikanztests über Parameter durchführen zu können, haben wir nämlich eine Normalverteiltheit der Residuen Die Normalverteiltheit von Residuen setzt eine kontinuierliche Variable voraus. Da keine kontinuierliche Variable bei einem binären Kritierum vorliegt, sondern die Variable nur zwei Werte annehmen kann, können auch die bedingten Residuen nur zwei Werte annehmen.
Probleme einer normalen linearen Regression auf ein binäres Kriterium: 3. Homogenität der bedingten Varianzen
die Zweite Voraussetzung für Nullhypothesen-Signifikanztests über Parameter ist die Homogenität der bedingten Varianzen. Da die Varianz einer binären Variable wie folgt berechnet wird: 〖S²〗_X=P*(1-p)
Dies bedeutet, dass die Varianz eine Funktion von P ist. Sie erreicht ihr Maximum 0.25 bei P = 0.5 und wird ansonsten kleiner
Wie löst die logistische Regression die beschriebenen Probleme?
Indem die „Zielfunktion“ der logistischen Funktion durch eine sog. Link-Funktion linearisiert wird und das Ergebnis wiederum durch eine Linearkombination von Prädiktoren modelliert werden kann. Insofern kann das Verallgemeinerte Lineare Modell mit drei Komponenten beschrieben werden als: E(Y)=g(µ)=a+b_1 X_1+⋯+b_q X_q
Zusammensetzung der logistischen Funktion
- systematische Komponente (ganz rechts)
- zufällige Komponente (ganz links)
- Link-Funktion g(µ)
Zusammensetzung der logistischen Funktion: 1. systematische Komponente (ganz rechts)
als Linearkombination von Prädiktoren, ganz ähnlich wie bei der multiplen linearen Regression
Zusammensetzung der logistischen Funktion: 2. zufällige Komponente
(ganz links): die das Kriterium und dessen Verteilung spezifiziert. Auch dies ist analog zum linken Teil der linearen Regression, wo eben eine Normalverteilung des Kriteriums angenommen wird.
(i) binären Kriteriums: Binominalverteilung wird angenommen
(ii) intervallskaliertes Kriterium: Normalverteilung wird angenommen (wie bei linearer Regression)
(iii) Häufigkeiten als Kriterium: Posson-Verteilung wird angenommen
Zusammensetzung der logistischen Funktion: Link-Funktion g(µ)
- spezifiziert die Beziehung zwischen der zufälligen und der systematischen Komponente. Dadurch wird erreicht, dass die zufällige Komponente nicht mehr normalverteilt sein muss.
Die logistische Funktion: Eigenschaften
- Verteilungsfunktion: ist die Verteilungsfunktion der logistischen Verteilung ist.
- Werte von 0 und 1: kann nur Werte von 0 und 1 annimmt, also Werte im zulässigen Wertebereich.
- Eine stetige Zufallsvariable sei logistisch verteilt mit den Parametern a und b (wobei b > 0 sei),
für die Formel:
a = Lageparmeter
b= Skalierungsparamter
e = Euler´sche Zahl (ungefähr 2.71828)
Wofür brauchen wir in der logistischen Regression Odds und Logits?
Um nun mit einer Linearkombination eine logistische Funktion modellieren zu können, müssen die Werte der Kriteriums so transformiert werden, dass aus der logistischen Funktion eine Gerade wird. Dazu wenden wir zwei Transformationen an, die dafür sorgen, dass der Wertebereich von −∞ bis +∞ geht.
Odds: Definition
(Wettchance): Verhältnis einer Wahrscheinlichkeit P zu ihrer Gegenwahrscheinlichkeit 1 – P:
O = P/(1-P)
Umgekehrt, kann aus Odds auch die Wahrscheinlichkeit berechnet werden:
P=O/(1+O)
Odds tragen also Informationen über Wahrscheinlichkeiten in sich, haben aber einen weiteren Vorteil: Sie haben 0 als untere Grenze, nach oben geht der Wertebereich aber bis +∞.
Logits: Definition
natürlicher Logarithmus der Odds:
Logit=In(0)=In(P/(1-P))
Dadurch wird bewirkt, dass der Wertebreich auch seine untere Grenze verliert und nun also von −∞ bis +∞ geht
Beziehung zwischen logistischer Funktion und Logits
- Die logit-Transformation ist die Umkehrfunktion der logistischen Funktion
- Das bedeutet auch: werden wir auf die Werte einer logistische Funktion die Logit-Transformation an, so resultiert eine Gerade – und diese Gerade können wir mit einer Linearkombination von Prädiktoren modellierten
Regressionsgleichung der logistischen Regression
Die Gleichung für die logistische Regression gibt es in drei verschiedenen Varianten, je mit Vor- und Nachteilen, manchmal auch fachspezifische Vorlieben. Die Regressionsgleichung können bezogen werden auf:
1. logits
2. Odds
3. Wahrscheinlichkeiten
Bestimmung der Parameter a und b
I. Spezialfall der Normalverteilung und der Identity-Link-Funktion: Methode der kleinsten Quadrate
II. ansonsten: iterative Maximum-Likelihood Schätzungen: Etwas vereinfacht gesagt ist das Vorgehen wie folgt:
(i) erst einmal wichtig: wir haben ein konkretes Ergebnis im Sinne einer Stichprobe vorliegen
(ii) nun werden diejenigen Parameter gesucht, die am wahrscheinlichsten im Angesicht der Daten sind: Maximum-Likelihood
(iii) oft dafür keine analytische Lösung, sondern Algorithmen starten mit bestimmten Werten für Parameter, bestimmen die Likelihood, und dann werden die Parameter auf bestimmte Weisen verändert und getestet, ob sich die Likelihood dadurch erhöht
(iv)Wenn keine Erhöhung mehr möglich ist, hat das Modell konvergiert: ein Durchgang wird als Iteration bezeichnet
Interpretation der Ergebnisse von R
Die letzte Zeile bei der Ausgabe Summary() gibt an, wieviele Iterations benötigt wurden, um das Modell zu schäzten, eine höhe Zahl (manchmal > 25) deutet darauf hin, dass das Modell nicht gut mit den Daten zusammenpasst.
Interprepation der Koeffizienten bezogen auf Logits
a ist der Wert in Logit, der vorhergesagt wird, wenn alle Prädiktoren den Wert 0 annehmen.
b gibt an, um welchen Wert sich der Logit erhöht, wenn der Prädiktor um den Wert 1 erhöht, wird
-> Problem: ganz schön gewöhnungsbedürftige Interpretation
Interpretation der Koeffizienten bezogen auf Odds
- Gleichung: O=e^(a+bX)=e^a*e^bX
- X = 0: dann gibt e^a (statt a!!) die Odds eines Erfolges (also dass das Kriterium den Wert 1 annimmt) an, wenn alle Prädiktoren auf Null gesetzt sind. mit der Funktion exp() bestimmen:
- in R: mit der Funktion exp() bestimmen:
Exp(coef(glm.ergebnis)):
a) Den entstehenden Wert des Inercepts kann man nun als Chance interpretieren, die auf dem Kriterium mit 1 koodierte Ausprägung zu haben, wenn X = 0 ist.
b) Wenn X um einen Schritt erhöht wird und X = 1 ist, dann muss also ea mit eb multipliziert werden. Das Ergebnis ist dann wieder ein Odds, als die Chance ein Erfolg auf dem Kriterium (Wert 1) zu bekommen, wenn X =1 ist.
c) Nach Umformungen erhalten wir für das exponierte b, also e^b den Quotienten zwei Odds. Dies wiederum wird als Odds Ratio bezeichnet und man könnte auch sagen:
e^b=O_(nach Erhöhung um 1)/ O_(vor Erhöhung um 1)
e^b gibt also die Veränderung der Odds an, wenn der Wert von X um 1 erhöht wird.
Interpretation der Koeffizienten bezogen auf Wahrscheinlichkeiten
Bezogen auf Wahrscheinlichkeiten können wir unsere Regressionsgleichung wie folgt umformulieren:
P=e^(a+bX)/(1+e^(a+bX) )=(e^ae^bX)/(1+(e^ae^bX ) )
Wenn X = 0 bleibt also:
P=e^a/(1+e^a )
Die Wahrscheinlichkeit eines Erfolges, wenn alle Prädiktoren den Wert 0 annehmen. (Mit der Formel können wir auch die respektiven Wahrscheinlichkeiten für anderen Werte von X berechnen, indem wir diese Werte für X in die Formel einsetzten.
Modelltest: Deviance-Statistik: Berechnung von Deviance-Statistik
Erinnerung: Modelltest es geht darum zu testen, ob unser Modell gut auf die empirischen Daten passt, wir wollen also die Güte unseres Modells herausfinden.
I: Berechnung der Deviance-Statistik: Die Maximum-likelihood Methode zur Schätzung der Parameter wirft als „Nebenprodukt“ die (maximierten) Log-Likelihood ℓ ab, also der logarithmierte Maximalwert der Likelihood (der typischerweise erreicht wird, wenn der Schätzer-Algorithmus kovergiert). Als ℓ sehr eindach die sog. Deviance-Statistik errechnet werden:
Deviance = – 2 * ℓ
Eigenschaften von Deviance-Statistik
- Analogie: analog zur Quadratsumme der Residuen interpretiert werden, auch sie hat damit zutun, wie viel Information in den Daten unerklärt bleibt, wenn die „besten“ Koeffizienten gefunden wurden.
- je höher der Wert ist, desto schlechter kann das Modell die Daten erklären
- Differenzen der Deviance-Statiatik für ver. aufeinander aufbauende Modelle können dann an einer χ²-Verteilung mit m Freiheitsgraden getestet werden, wobei m die Differenz in der Anzahl der Parameter ist, die beide Modelle haben
Modellvergleiche: Linklihood-Ratio-Test (LRT)
I. Basis: siehe (iv) Defferenzen der Deviance- Statistik für …
II. Idee: Analog zum F-test zum Vergleich verschiedener linearer Modelle.
III. Ausgabe in R: In der Ausgabe von summary(glm.ergebnis) gibt es zwei Zeile mit Werten füpr Deviance-Statistiken:
(i) Null deviance: Deviance-Statistik für das sog. Nullmodell, welches nur den Parameter a und keine weiteren Prädiktoren beinhaltet
(ii) Residual deviance: Deviance-Statistik für das Modell mit dem anderen Prädiktoren zusätzlich
(iii). Der Wert für die Resudal deviance sollte kleiner sein, als der für die Null deviance. Anders ausgedrückt, je größer die Differenz beider Deviance-Statistiken ist, umso besser kann das Modell mit Prädiktoren die Daten erklären.