U13 Regression med kategoriske afhængige variable Flashcards
(19 cards)
Problemet med kategoriske afhængige variable
Lineær regression antager en kontinuert afhængig variabel (fra −∞ til +∞), hvilket ikke passer til binære variable (fx 0/1).
Dette fører til umulige forudsigelser (fx sandsynligheder <0 eller >1) og brud på modelantagelser.
Den Lineære Sandsynlighedsmodel (LSM)
En lineær regression anvendt på binære udfald, hvor β fortolkes som ændringen i sandsynligheden for Y=1.
Fordele: Simpel fortolkning, velkendt metode.
Ulemper: Kan give meningsløse sandsynligheder (fx 120%) og er statistisk upræcis.
Sandsynlighedsmodeller har ofte gulv- og loftseffekter.
Dette gør samtidig, at LSM kan forudsige sandsynligheder der ligger under eller over 1, hvilket er umuligt.
Problemerne med LSM løser vi med logistisk regression.
Alternative modeller
Logistisk regression: Bruger en Bernoulli-fordeling (kun 0/1) og en logistisk funktion til at modelere sandsynligheden.
Mere præcis, men sværere at fortolke (koefficienter er log-odds).
Ordnet logistisk regression: Til ordinale kategoriske variable (med rækkefølge).
Trade-offs mellem modeller
LSM er let at anvende og fortolke, men statistisk upræcis.
Logistisk regression er teoretisk korrekt, men kompleks og kræver større datamængder.
I praksis bruges ofte LSM alligevel, da resultaterne sjældent afviger markant.
Kategorisk afhængig variabel
En variabel med diskrete kategorier (fx binær: 0/1, ordinal: lav/mellem/høj).
Dikotom variabel
Binær variabel med kun to udfald (fx “ja/nej”, “stemte/ikke stemte”).
Bernoulli-fordeling
Sandsynlighedsfordeling for binære udfald (kun 0 eller 1).
Logistisk regression
Model for binære udfald, der bruger en logistisk funktion til at begrænse sandsynligheder mellem 0 og 1.
Ordnet logistisk regression
Til ordinale afhængige variable (fx “meget utilfreds”, “neutral”, “meget tilfreds”).
Systematisk komponent
Den del af modellen, der beskriver effekten af uafhængige variable
Stokastisk komponent
Den tilfældige variation i data (fx normalfordelte eller Bernoulli-fordelte fejlled).
Gulv- og loftseffekter:
Problemer, når forudsagte værdier når teoretiske grænser (fx sandsynlighed >1).
Konfidensintervaller (KI)
Usikkerhed omkring estimater; i LSM kan de inkludere umulige værdier.
Robuste standardfejl
Justering for heteroskedasticitet
I Metode II bruges kun lineær regression
af praktiske årsager, men vær opmærksom på dens begrænsninger ved binære udfald.
Log-odds
Log-odds
Logaritmen til oddsene
Odds: P(Y = 1)/(1-P(Y = 1))
Større odds 🡪 større sandsynlighed
Log(Odds): Logaritmen til oddsene er en lineær funktion af X, når Y ”tilhører” 0 til 1.
Log-odds giver derfor en lineær tolkning af den nonlineære logistiske sandsynlighedsmodel.
Positiv log-odds: Odds > 1 (positiv sammenhæng)
Negativ log-odds: Odds < 1 (negativ sammenhæng)
Oddsratio
Oddsratioer (kommando: tilføj ”or”)
Tolkning af koefficient: Sandsynligheden for Y = 1 i forhold til Y = 0 bliver større med koefficienten, når X stiger med 1
Hvis oddsratio = 2, så er det dobbelt så sandsynligt at observere Y = 1 som at observere Y = 0.
Hvis oddsratio = 0.5, så er det halvt så sandsynligt at observere Y = 1 som at observere Y = 0.
Oddsratio > 1: Positiv effekt af X på Y
0 < Oddsratio < 1: Negativ effekt
Fortolkning via margins
Average Marginal Effects (AME):
Indfanger en ikke-konstant sammenhæng med et enkelt tal
Angiver den gennemsnitlige stigning i sandsynlighed for Y = 1, når X stiger med 1
Minder derfor meget om LSM tolkningsmæssigt
Marginal Effects at Means (MEM):
Udregner marginaleffekt af X på sandsynligheden for Y = 1 for gennemsnittet på X (eller på kontrolvariable).
Forudsagte sandsynligheder
Angiver sandsynlighed for Y = 1 for forskellige (interessante) niveauer af X (f.eks. IQR)
Antagelser (Logistisk regression)
Samme som ved alm. reg.
MEN: Linearitet: Mellem X og log-odds
- Tjek vha. marginsplot
OG: Ingen antagelse om homoskedasticitet i logit.
Visualisering: Primært via marginsplot