U13 Regression med kategoriske afhængige variable Flashcards

(19 cards)

1
Q

Problemet med kategoriske afhængige variable

A

Lineær regression antager en kontinuert afhængig variabel (fra −∞ til +∞), hvilket ikke passer til binære variable (fx 0/1).

Dette fører til umulige forudsigelser (fx sandsynligheder <0 eller >1) og brud på modelantagelser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Den Lineære Sandsynlighedsmodel (LSM)

A

En lineær regression anvendt på binære udfald, hvor β fortolkes som ændringen i sandsynligheden for Y=1.

Fordele: Simpel fortolkning, velkendt metode.

Ulemper: Kan give meningsløse sandsynligheder (fx 120%) og er statistisk upræcis.

Sandsynlighedsmodeller har ofte gulv- og loftseffekter.
Dette gør samtidig, at LSM kan forudsige sandsynligheder der ligger under eller over 1, hvilket er umuligt.

Problemerne med LSM løser vi med logistisk regression.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Alternative modeller

A

Logistisk regression: Bruger en Bernoulli-fordeling (kun 0/1) og en logistisk funktion til at modelere sandsynligheden.

Mere præcis, men sværere at fortolke (koefficienter er log-odds).

Ordnet logistisk regression: Til ordinale kategoriske variable (med rækkefølge).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Trade-offs mellem modeller

A

LSM er let at anvende og fortolke, men statistisk upræcis.

Logistisk regression er teoretisk korrekt, men kompleks og kræver større datamængder.

I praksis bruges ofte LSM alligevel, da resultaterne sjældent afviger markant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Kategorisk afhængig variabel

A

En variabel med diskrete kategorier (fx binær: 0/1, ordinal: lav/mellem/høj).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Dikotom variabel

A

Binær variabel med kun to udfald (fx “ja/nej”, “stemte/ikke stemte”).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Bernoulli-fordeling

A

Sandsynlighedsfordeling for binære udfald (kun 0 eller 1).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Logistisk regression

A

Model for binære udfald, der bruger en logistisk funktion til at begrænse sandsynligheder mellem 0 og 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Ordnet logistisk regression

A

Til ordinale afhængige variable (fx “meget utilfreds”, “neutral”, “meget tilfreds”).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Systematisk komponent

A

Den del af modellen, der beskriver effekten af uafhængige variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Stokastisk komponent

A

Den tilfældige variation i data (fx normalfordelte eller Bernoulli-fordelte fejlled).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Gulv- og loftseffekter:

A

Problemer, når forudsagte værdier når teoretiske grænser (fx sandsynlighed >1).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Konfidensintervaller (KI)

A

Usikkerhed omkring estimater; i LSM kan de inkludere umulige værdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Robuste standardfejl

A

Justering for heteroskedasticitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

I Metode II bruges kun lineær regression

A

af praktiske årsager, men vær opmærksom på dens begrænsninger ved binære udfald.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Log-odds

A

Log-odds
Logaritmen til oddsene
Odds: P(Y = 1)/(1-P(Y = 1))
Større odds 🡪 større sandsynlighed
Log(Odds): Logaritmen til oddsene er en lineær funktion af X, når Y ”tilhører” 0 til 1.
Log-odds giver derfor en lineær tolkning af den nonlineære logistiske sandsynlighedsmodel.
Positiv log-odds: Odds > 1 (positiv sammenhæng)
Negativ log-odds: Odds < 1 (negativ sammenhæng)

17
Q

Oddsratio

A

Oddsratioer (kommando: tilføj ”or”)
Tolkning af koefficient: Sandsynligheden for Y = 1 i forhold til Y = 0 bliver større med koefficienten, når X stiger med 1
Hvis oddsratio = 2, så er det dobbelt så sandsynligt at observere Y = 1 som at observere Y = 0.
Hvis oddsratio = 0.5, så er det halvt så sandsynligt at observere Y = 1 som at observere Y = 0.
Oddsratio > 1: Positiv effekt af X på Y
0 < Oddsratio < 1: Negativ effekt

18
Q

Fortolkning via margins

A

Average Marginal Effects (AME):
Indfanger en ikke-konstant sammenhæng med et enkelt tal
Angiver den gennemsnitlige stigning i sandsynlighed for Y = 1, når X stiger med 1
Minder derfor meget om LSM tolkningsmæssigt
Marginal Effects at Means (MEM):
Udregner marginaleffekt af X på sandsynligheden for Y = 1 for gennemsnittet på X (eller på kontrolvariable).
Forudsagte sandsynligheder
Angiver sandsynlighed for Y = 1 for forskellige (interessante) niveauer af X (f.eks. IQR)

19
Q

Antagelser (Logistisk regression)

A

Samme som ved alm. reg.
MEN: Linearitet: Mellem X og log-odds
- Tjek vha. marginsplot
OG: Ingen antagelse om homoskedasticitet i logit.
Visualisering: Primært via marginsplot