U8 Simpel lineær regression Flashcards
(20 cards)
Grundlæggende om Lineær Regression
Formål: At estimere sammenhængen mellem en afhængig variabel (Y) og en eller flere uafhængige variable (X)
β 0: Skæringspunkt med y-aksen (forventet Y når X=0)
β 1: Hældningskoefficient (forventet ændring i Y når X stiger med en)
Estimation (Ordinary Least Squares - OLS)
Mindste kvadraters metode: Minimering af summen af kvadrerede residualer (SSR).
Nøglebegreber:
Kovarians: Måler samvariation mellem
X og Y.
Varians i X: Påvirker hældningens størrelse.
RMSE (Root Mean Squared Error): Gennemsnitlig afvigelse fra regressionslinjen (standardafvigelse for residualer).
R² (Forklaringsgrad):
Andel af variation i Y forklaret af
X (0 til 1).
Lav R² betyder ikke nødvendigvis en dårlig model – fokus er ofte på
β1
RMSE: Konkret mål for forudsigelsesfejl (f.eks. “Gennemsnitlig fejl på 2.28 skalapoint”). Altså Gennemsnitlig forudsigelsesfejl.
R² kan ikke bruges alene til at udlede kausal inferens!
Selektionsbias:
Forskel mellem treatment og kontrol gruppe i fravær af treatment
Hvis X ikke er tilfældigt tildelt, kan
β1 indeholde bias (f.eks. pga. tredjevariable som indkomst).
Linearitetsantagelse:
Sammenhængen mellem
X og Y skal være lineær (testes med scatterplots/lowess-kurver).
Outliers
Ekstreme observationer kan påvirke resultaterne (vurder om de skal ekskluderes).
Reskalering:
Justering af variable for bedre fortolkning (f.eks. standardafvigelser).
Fortolkning af lineær regression
β1 =0.17: En stigning på 1 i X giver en stigning på 0.17 i Y.
Brug standardafvigelser eller percentiler for mere meningsfulde effektstørrelser.
Hældningskoefficient (β1)
Ændring i Y pr. enhedsændring i X.
Skæringspunkt (β0 ) (konstanten)
Forventet Y når X=0.
Fejlled (ui)
Forskellen mellem observeret og forudsagt Y.
Sum of Squared Residuals (SSR)
Summen af kvadrerede afvigelser fra regressionslinjen.
Kovarians
Måler retning og styrke af lineær sammenhæng.
Et mål for samvariationen mellem X og Y
Fortegnet på kovariansen giver os retningen på sammenhængen
Jo større kovarians jo stærkere en sammenhæn
Total Sum of Squares (TSS)
Variation i Y omkring dens gennemsnit.
Explained Sum of Squares (ESS)
Variation forklaret af modellen.
Summen af forskellene mellem modellens forudsagte værdier og gennemsnittet
R pakke brugt til at fremvise regressionsresultater
Stargazer
Nøglepunkter for lineær regression
Tolk β1 i kontekst (især ved reskalering).
Vurder modelantagelser (linearitet, fravær af outliers).
Husk R² og RMSE for at beskrive modellens præcision.
Residualer
Hver enkel observations afvigelse fra regressionslinje.
Angiver hvor meget modellen (dvs. linjen) ”gætter forkert” ift. hver af de faktiske observationsværdier.
Mindre residualer: Modellen fitter data bedre.
Eksempel er at vi udregner hvad en udgift burde være i forhold til hvad den er. Den forskel er vores residual
Fravær af selektionsbias
I regression: Fejlleddet er ukorreleret med X
Betyder, at observationer på forskellige niveauer af X har samme potentielle outcomes
Eks.: E(Y) når X1 = 8 skal være det samme som X2 = 4, hvis X1 havde været lig 4.
Fejlleddet indeholder udeladte variable
Hvis X korrelerer med disse variable/faktorer så er der selektionsbias.
Kontrolvariable: Inklusion af førhen udeladte faktorer øger sandsynlighed for, at X er ukorreleret med fejlleddet:
OLS antagelser
1) Linearitet i modellen
2) Observationer er i.i.d.
3) E(U | X) = 0 (fravær af selektionsbias)
4) Homoskedastiske fejlled (sjældent opfyldt, men let fix)