L12 Dikotome afhængige Flashcards

(29 cards)

1
Q

Hvordan fortolkes hældningskoefficienten i logistisk regression?

A

Ændring i logitsandsynlighed for for Y=1 (treatment), når x ændres 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvordan fortolkes hældningskoefficienten i den lineære sandsynlighedsmodel?

A

Ændringen i sandsynlighed for Y=1 (treatment), når x ændres 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er forskellen på ‘forskel i gennemsnit’ og dikotom afhængig?

A

Dikotom afhænig vs. forskel i gennemsnit: uafhængig dikotom

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvorfor er transformation ikke en løsning for den lineære sandsynlighedsmodel ift. gulv- og lofteffekter?

A

Den er dikotom, så det giver samme problem trods transformation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad er den lineære sandsynlighedsmodel (LSM)?

A

Dikotom afhængig, hvor beta1 bliver ændring i sandsynlighed for y=1, når x+1.

E(Y)=Pr(Y=1)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvorfor kan en LSM generere forudsagte sandsynligheder der ligger over 1 eller under 0?

A

Fordi den ikke tager højde for gulv- og loftseffekter. Den er sgu bare lineær

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvad er en logistisk regressionsmodel?

A

En logistisk regressionsmodel er logisk transformation af y, som tager højde for gulv- og loft effekter. Modellen er lineær i logitsandsynligheden.

Pr(Y=1 l X1…Xk) er mellem 0 og 1, og derfor giver det empirisk bedre mening.

Dog bliver effekten referenceafhængig (hvor er du på x). Kontrolvariablene er ikke lineært afhængige af x (svært at tolke multivariat).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvordan ser sammenhængen ud, når Y er en logistisk funktion af X?

A

S-form. Tager højde for gulv- og lofteffekter

Eksponentielt stigende –> lineær på midten –> eksponentiel aftagende

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan kan man fortolke parametrene i den logistiske regressionsmodel?

A

Det er bøvlet. Når x+1, så stiger logitsandsynligheden for Y=1 med beta1.

  • sig noget om retningen af sammenhængen
  • signifikansen

Pseudo R^2: eks. 0,6. Vi kan forklare ca. 60% af vores afhængige variable med vores uafhængige. Vi bliver 60% bedre til at ’gætte’ vores afhængige.

Chi-squared test: H0: variablene i modellen forklarer intet.

Log-likelihood estimator: jo tættere på nul, jo bedre end estimater (pandang til RMSE).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvordan beregnes, visualiseres og fortolkes effekten af X i en logistisk regressionsmodel?

A

Effekten af x på y i en logistisk model kan beregnes på flere måder:

  • Log-odds: logitsandsynligheden til Y=1, når x stiger med 1
  • Odds-ratios
  • AME: gennemsnitlige marginale effekt af x på y.

Fortolkes:
Generelt bare noget bøf at tolke på log-odds, derfor tolker vi ofte på AME ved margins, dydx(var*). Eller kigge på de forudsagte sandsynligheder ved forskellige niveauer af x (eks. interkvartiler) ved margins, at

Visuelt:
Marginscontplot - viser en graf over forudsagte sandsynligheder for Y=1 på tværs af x

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvilke antagelser gælder for LSM?

A

Der gælder samme antagelser som for regression:

  • Linearitet (pas på gulv- og lofteffekter)
  • Outliers (særligt ekstrem x)
  • Uafhængige observationer
  • Fravær af heteroskedasticitet

Ved kontrolvariable
- Fravær af perfekt multikollinearitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad kan problemet være ved at bruge LSM ift. dikotome afhængige?

A

LSM tager ikke højde for gulv- og loftseffekter (hvilket ikke substantielt giver mening, når y kun tager værdier, der enten er 0 eller 1) - vi kan ikke antage linearitet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvorfor er data altid heteroskedastisk ved dikotome afhængig?

A

Der gælder altid heteroskedasticitet, da variansen omkring regressionslinjen aldrig kan være homogen: derfor altid robuste SE

  • Variansen vil altid være størst omkring 0,5 og aftager mod hhv. 1 og 0, da der kun ligger observationer ved 0 og 1 (dummy)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er log-odds?

A

Logit-sandsynligheden for y=1 med beta1, når x stiger med 1.

Går fra -uendelig til uendelig
0 er lig 50%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvorfor linearitetsantagelsen lidt funky ved LSM?

A

Linearitet er lidt en dårlig antagelse pga. gulv og lofteffekter. Den kan forudsige sandsynligheder >1 og <0. Det giver empirisk ingen mening.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvilken sammenhæng er der mellem logit-sandsynligheden og x?

A

Lineær sammenhæng

17
Q

Hvad kan du sige af fornuftige ting om logit-sandsynligheder?

A

Karakteristika (evt. tegn)

  • Går fra minus uendelig til uendelig (ikke begrænset af at gå fra 0-1)
  • -1=25% ssh. For y=1
  • 0=50% ssh. for y=1 (centreret omkring 0)
  • 1=75% ssh. For y=1

Log-odds er ca. lineær mellem -1 og 1 Altså ca. lineært forhold mellem faktisk og logitsandsynligheder mellem -1 og 1. På midterstykket af kurven er der et relativt lineært forhold

18
Q

Hvad er pseudo R2?

A

hvor meget mindre bliver log(likelihood) af at inkludere den uafhængige variabel i modellen

Altså hvor meget bedre bliver jeg til at estimere y-hat (sandsynligheden for y=1), når jeg kender den uafhængige

19
Q

Hvornår er sammenhængen mellem x og y stærkest i logistisk regression?

A

For Pr(Y=1)=50%, da vil der være den stærkeste sammenhæng mellem x og y. Tænk på hældningen. Til at starte med er den tiltagende eksponentielt. Netop på midtpunktet er den stærkest og skifter herefter til konkav.

20
Q

Hvad afgør standardfejlen for beta1-hat?

A

Stejlheden på log(likelihood) / den uafhængige variation i x

beta1-hat er normalfordelt omkring det sande parameter beta1 på tværs af stikprøver (hvis n>50)

21
Q

Hvordan estimeres beta1 i logistisk regression og hvordan er det forskelligt fra OLS regression?

A

Ved logistisk benytter man Maximum likelihood funktionen, mens man ved OLS regression bruger mindste kvadraters metode (minSSR).

Likelihood-funktionen angiver hvor sandsynlig en koefficient er givet datasættet.

Log-likelihood: jo tættere på 0, des bedre en estimator, da Ln(0)=1. Sandsynligheden for beta1 er den sande koefficient er altså her =1.

22
Q

Hvad er AME?

A

Gennemsnitlige marginale effekter.

Sandsynligheden for y=1 stiger i gennemsnit med beta1*100%, når x+1 (når alle andre variable holdes konstante)

23
Q

Hvad er antagelserne for logistisk regression og kravene til datamængden?

A

Der gælder samme antagelser som for regression:

  • Linearitet i logitsandsynlighederne (s-formen!)
  • Outliers (særligt ekstrem x)
  • Uafhængige observationer
  • Fravær af heteroskedasticitet

Ved kontrolvariable
- Fravær af perfekt multikollinearitet

Krav til datamængde

100: for lidt
200: formentligt nok (dog mindre end 20 variable)
500: altid tilstrækkeligt

24
Q

Hvad viser et marginsplot (dikotome afhængige)?

A

Viser en graf over forudsagte sandsynligheder for Y=1 på tværs af x

25
Hvordan undersøger man linearitetsantagelsen for intervalskalerede variable i den logistiske regression?
Der skal være linearitet mellem x (+kontrolvariable) og logitsandsynligheder til y. Vi kan ikke tjekke det her med ACPR-plot (mif). Løsningen er at behandle kontinuerte variable, som kategoriske. Opdel den kontinuerte variable i eks. 10 kategorier. Hvis kontinuerte kategorier <15, så behold de oprindelige kategorier. Inden for hver kategori estimerer man logitsandsynligheden. Derefter plotter man disse sandsynligheder. De skulle gerne være nogenlunde lineær! - Egen xvarkat=cut(xvar), group(10) - Logit y xvarkat zvar zvar - Margins, at(xvarkat=(0 (1) 9) predict(xb) - Marginsplot Margins giver os her logitsandsynlighederne - modsat de andre marginskommandoer!
26
Kunne man bare bruge LSM istedet for logit eller hva?
Hvis vi tolker på AME vil hældningskoefficienten for LSM være ret tæt på AME. Hvis vi har en kategoriske x og ingen kontinuerte kontrolvariable, så er det det samme at bruge LSM Hvis vi bare vil lave generelle antagelser om sammenhængen er LSM så fint, men hvis vi er interesseret i de eksakte sandsynligheder, så er log-odds og logit helt super
27
Hvordan får du margins til at forudsige logitsandsynligheder?
margins, at(xvar= ()) predict xb
28
Hvad gør du med interaktioner og afhængige dikotom?
Det kan være interessant med en interaktion og logitmodel. Men det er sim-pelthen for fucking bøvlet. Don’t do it. Prøv at slippe afsted med LPM og inter-aktion. --> ellers suppler interaktionskoefficienter med marginsplot.
29
Hvilken model skal du bruge, hvis dummy-dummy?
LSM! Der er ingen forskel mellem LSM og logit, og derfor vil du være en knold, hvis du bruger logit.