U9 Multipel lineær regression Dummy regression Flashcards
(18 cards)
Dummyvariable
Definition: Binære variable (0/1), der repræsenterer kategorier i en kvalitativ variabel (f.eks. køn: 0 = mand, 1 = kvinde).
Brug: Tillader regression med ikke-numeriske variable.
Eksempel: Hvis “uddannelsesniveau” har 3 kategorier (grundskole, gymnasium, universitet), oprettes 2 dummyvariable (reference: grundskole).
Referencekategori
Den kategori, der udelades i dummykodning (sættes til 0 i alle dummyvariable).
Partielle effekter
Hældningskoefficienter for dummyvariable, der måler forskellen i Y mellem en given kategori og referencekategorien.
Faktorvariable i R
En funktion i R, der konverterer numeriske koder til kategoriske variable
Partiel sammenhæng
Effekten af én uafhængig variabel (X1) på Y når andre variable (X2,X3) holdes konstante.
Statistisk kontrol
At fjerne variation i X1, der skyldes andre variable (X2), for at isolere den “rene” effekt af X1 på Y.
Eksempel: Kontrol for “alder” når man estimerer effekten af “uddannelse” på “indkomst”.
Post-treatment bias
Bias der opstår, hvis man kontrollerer for en variabel, der er påvirket af X1 (f.eks. at kontrollere for “jobanbefaling”, som afhænger af “studiejob”).
Konklusion: du må aldrig inkludere en kontrolvariabel, der påvirkes af din
uafhængige variabe(X)
Udeladt variabel bias
Bias der opstår, når en vigtig variabel (Z), der påvirker både X og Y, udelades fra modellen.
ACPR-plot (Augmented Component Plus Residual Plot)
Grafisk test for linearitet mellem X1 og Y efter kontrol for andre variable.
Brug: Afslører ikke-lineære sammenhænge, der ikke er fanget af modellen
Multikollinearitet
Høj korrelation mellem uafhængige (X) variable, der gør det svært at skelne deres individuelle effekter.
Problem: Gør β-estimater ustabile.
Løsning: Brug VIF (Variance Inflation Factor) eller fjern én af de korrelerede variable.
Overestimeret effekt
Hvornår: Hvis den udeladte variabel Z har positiv effekt på både X og Y
Eksempel: Udeladelse af “IQ” (positiv effekt på både “uddannelse” og “indkomst”) gør, at “uddannelses”-effekten bliver for høj.
Underestimeret effekt
Hvornår: Hvis Z har positiv effekt på X men negativ på Y (eller omvendt)
Eksempel: Udeladelse af “tid brugt på studiet” (negativ effekt på “studiejob”, positiv på “karriere”) undervurderer “studiejob”-effekten.
Fortolkning af koefficienter
Samme som i simpel lineær regression, men nu hvor kontrolvariable holdes konstante
F.eks. B1: Hældningskoefficienten for regressionslinjen, når kontrolvariable holdes konstante.
B0: Forventet værdi E(Y), når alle regressorer er lig 0. Er dog sjældent meningsfuldt.
Det giver ikke mening at tolke på kontrolvariables koefficienter (hvor X er holdt konstant), fordi dette introducerer post-treamentbias ift. X (idet X kommer efter kontrolvariablene i tid).
Estimation via OLS
Samme princip som i simpel reg.: Minimér kvadrerede afvigelser
Men her: I stedet for ret linje, er det mindste kvadrede afvigelser fra hyperplan med dimensioner 2+Z (dvs. antal kontrolvariable).
R2/justeret R2
Justeret R2 introducerer en ”straf” for at inkludere flere kontrolvariable. Tager altså højde for, at forklaringsgraden alt andet lige forstærkes, når modellen inkluderer kontrolvariable.
Kontrolvariable: Gode og dårlige
Gode kontrolvariable er need-to-have for at reducere selektionsbias: Baggrundsvariable der påvirker både X og Y.
Dette reducerer/eliminerer uligheder i potentielle outcomes for forskellige niveauer af X.
Eller: Inklusion af kontrolvariable reducerer korrelation mellem X og fejlled.
Nice-to-have kontrolvariable: Variable, der påvirker Y men ikke X.
OLS antagelser (Multi)
1) Linearitet
- Hvis ikke opfyldt: Logtransformation, polynomisk reg. osv.
2) i.i.d.
- Sikres ved dataindsamling
3) Fravær af perfekt multikollinearitet
- Hvis ikke opfyldt: Udelad variable.
4) X ukorreleret med fejlled.
- Hvis ikke opfyldt: Kontrolvariable
5) Varianshomogenitet
- Hvis ikke opfyldt: Robuste standardfejl
Visualisering (multi)
Bivariate grafer (e.g. tw scatter) er her ikke muligt.
Løsning: Augmented Component Plus Residual plot (ACPR plot).
Viser den partielle sammenhæng mellem X og sammenhæng mellem X og Y, efter der er kontrolleret for Z-variable.
Bruges også til at teste linearitet mellem X og Y i MLR.