U9 Multipel lineær regression Dummy regression Flashcards

(18 cards)

1
Q

Dummyvariable

A

Definition: Binære variable (0/1), der repræsenterer kategorier i en kvalitativ variabel (f.eks. køn: 0 = mand, 1 = kvinde).

Brug: Tillader regression med ikke-numeriske variable.

Eksempel: Hvis “uddannelsesniveau” har 3 kategorier (grundskole, gymnasium, universitet), oprettes 2 dummyvariable (reference: grundskole).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Referencekategori

A

Den kategori, der udelades i dummykodning (sættes til 0 i alle dummyvariable).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Partielle effekter

A

Hældningskoefficienter for dummyvariable, der måler forskellen i Y mellem en given kategori og referencekategorien.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Faktorvariable i R

A

En funktion i R, der konverterer numeriske koder til kategoriske variable

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Partiel sammenhæng

A

Effekten af én uafhængig variabel (X1) på Y når andre variable (X2,X3) holdes konstante.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Statistisk kontrol

A

At fjerne variation i X1, der skyldes andre variable (X2), for at isolere den “rene” effekt af X1 på Y.
Eksempel: Kontrol for “alder” når man estimerer effekten af “uddannelse” på “indkomst”.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Post-treatment bias

A

Bias der opstår, hvis man kontrollerer for en variabel, der er påvirket af X1 (f.eks. at kontrollere for “jobanbefaling”, som afhænger af “studiejob”).
Konklusion: du må aldrig inkludere en kontrolvariabel, der påvirkes af din
uafhængige variabe(X)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Udeladt variabel bias

A

Bias der opstår, når en vigtig variabel (Z), der påvirker både X og Y, udelades fra modellen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

ACPR-plot (Augmented Component Plus Residual Plot)

A

Grafisk test for linearitet mellem X1 og Y efter kontrol for andre variable.

Brug: Afslører ikke-lineære sammenhænge, der ikke er fanget af modellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Multikollinearitet

A

Høj korrelation mellem uafhængige (X) variable, der gør det svært at skelne deres individuelle effekter.
Problem: Gør β-estimater ustabile.

Løsning: Brug VIF (Variance Inflation Factor) eller fjern én af de korrelerede variable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Overestimeret effekt

A

Hvornår: Hvis den udeladte variabel Z har positiv effekt på både X og Y

Eksempel: Udeladelse af “IQ” (positiv effekt på både “uddannelse” og “indkomst”) gør, at “uddannelses”-effekten bliver for høj.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Underestimeret effekt

A

Hvornår: Hvis Z har positiv effekt på X men negativ på Y (eller omvendt)
Eksempel: Udeladelse af “tid brugt på studiet” (negativ effekt på “studiejob”, positiv på “karriere”) undervurderer “studiejob”-effekten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Fortolkning af koefficienter

A

Samme som i simpel lineær regression, men nu hvor kontrolvariable holdes konstante
F.eks. B1: Hældningskoefficienten for regressionslinjen, når kontrolvariable holdes konstante.
B0: Forventet værdi E(Y), når alle regressorer er lig 0. Er dog sjældent meningsfuldt.
Det giver ikke mening at tolke på kontrolvariables koefficienter (hvor X er holdt konstant), fordi dette introducerer post-treamentbias ift. X (idet X kommer efter kontrolvariablene i tid).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Estimation via OLS

A

Samme princip som i simpel reg.: Minimér kvadrerede afvigelser
Men her: I stedet for ret linje, er det mindste kvadrede afvigelser fra hyperplan med dimensioner 2+Z (dvs. antal kontrolvariable).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

R2/justeret R2

A

Justeret R2 introducerer en ”straf” for at inkludere flere kontrolvariable. Tager altså højde for, at forklaringsgraden alt andet lige forstærkes, når modellen inkluderer kontrolvariable.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Kontrolvariable: Gode og dårlige

A

Gode kontrolvariable er need-to-have for at reducere selektionsbias: Baggrundsvariable der påvirker både X og Y.
Dette reducerer/eliminerer uligheder i potentielle outcomes for forskellige niveauer af X.
Eller: Inklusion af kontrolvariable reducerer korrelation mellem X og fejlled.
Nice-to-have kontrolvariable: Variable, der påvirker Y men ikke X.

17
Q

OLS antagelser (Multi)

A

1) Linearitet
- Hvis ikke opfyldt: Logtransformation, polynomisk reg. osv.
2) i.i.d.
- Sikres ved dataindsamling
3) Fravær af perfekt multikollinearitet
- Hvis ikke opfyldt: Udelad variable.
4) X ukorreleret med fejlled.
- Hvis ikke opfyldt: Kontrolvariable
5) Varianshomogenitet
- Hvis ikke opfyldt: Robuste standardfejl

18
Q

Visualisering (multi)

A

Bivariate grafer (e.g. tw scatter) er her ikke muligt.
Løsning: Augmented Component Plus Residual plot (ACPR plot).
Viser den partielle sammenhæng mellem X og sammenhæng mellem X og Y, efter der er kontrolleret for Z-variable.
Bruges også til at teste linearitet mellem X og Y i MLR.