U8 Simpel lineær regression Flashcards

(20 cards)

1
Q

Grundlæggende om Lineær Regression

A

Formål: At estimere sammenhængen mellem en afhængig variabel (Y) og en eller flere uafhængige variable (X)

β 0: Skæringspunkt med y-aksen (forventet Y når X=0)

β 1: Hældningskoefficient (forventet ændring i Y når X stiger med en)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
1
Q

Estimation (Ordinary Least Squares - OLS)

A

Mindste kvadraters metode: Minimering af summen af kvadrerede residualer (SSR).

Nøglebegreber:
Kovarians: Måler samvariation mellem
X og Y.

Varians i X: Påvirker hældningens størrelse.

RMSE (Root Mean Squared Error): Gennemsnitlig afvigelse fra regressionslinjen (standardafvigelse for residualer).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

R² (Forklaringsgrad):

A

Andel af variation i Y forklaret af
X (0 til 1).

Lav R² betyder ikke nødvendigvis en dårlig model – fokus er ofte på
β1
RMSE: Konkret mål for forudsigelsesfejl (f.eks. “Gennemsnitlig fejl på 2.28 skalapoint”). Altså Gennemsnitlig forudsigelsesfejl.

R² kan ikke bruges alene til at udlede kausal inferens!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Selektionsbias:

A

Forskel mellem treatment og kontrol gruppe i fravær af treatment

Hvis X ikke er tilfældigt tildelt, kan
β1 indeholde bias (f.eks. pga. tredjevariable som indkomst).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Linearitetsantagelse:

A

Sammenhængen mellem
X og Y skal være lineær (testes med scatterplots/lowess-kurver).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Outliers

A

Ekstreme observationer kan påvirke resultaterne (vurder om de skal ekskluderes).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Reskalering:

A

Justering af variable for bedre fortolkning (f.eks. standardafvigelser).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Fortolkning af lineær regression

A

β1 =0.17: En stigning på 1 i X giver en stigning på 0.17 i Y.
Brug standardafvigelser eller percentiler for mere meningsfulde effektstørrelser.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hældningskoefficient (β1)

A

Ændring i Y pr. enhedsændring i X.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Skæringspunkt (β0 ) (konstanten)

A

Forventet Y når X=0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Fejlled (ui)

A

Forskellen mellem observeret og forudsagt Y.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Sum of Squared Residuals (SSR)

A

Summen af kvadrerede afvigelser fra regressionslinjen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Kovarians

A

Måler retning og styrke af lineær sammenhæng.

Et mål for samvariationen mellem X og Y
Fortegnet på kovariansen giver os retningen på sammenhængen
Jo større kovarians jo stærkere en sammenhæn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Total Sum of Squares (TSS)

A

Variation i Y omkring dens gennemsnit.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Explained Sum of Squares (ESS)

A

Variation forklaret af modellen.
Summen af forskellene mellem modellens forudsagte værdier og gennemsnittet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

R pakke brugt til at fremvise regressionsresultater

16
Q

Nøglepunkter for lineær regression

A

Tolk β1 i kontekst (især ved reskalering).

Vurder modelantagelser (linearitet, fravær af outliers).

Husk R² og RMSE for at beskrive modellens præcision.

17
Q

Residualer

A

Hver enkel observations afvigelse fra regressionslinje.
Angiver hvor meget modellen (dvs. linjen) ”gætter forkert” ift. hver af de faktiske observationsværdier.
Mindre residualer: Modellen fitter data bedre.

Eksempel er at vi udregner hvad en udgift burde være i forhold til hvad den er. Den forskel er vores residual

18
Q

Fravær af selektionsbias

A

I regression: Fejlleddet er ukorreleret med X
Betyder, at observationer på forskellige niveauer af X har samme potentielle outcomes
Eks.: E(Y) når X1 = 8 skal være det samme som X2 = 4, hvis X1 havde været lig 4.
Fejlleddet indeholder udeladte variable
Hvis X korrelerer med disse variable/faktorer så er der selektionsbias.
Kontrolvariable: Inklusion af førhen udeladte faktorer øger sandsynlighed for, at X er ukorreleret med fejlleddet:

19
Q

OLS antagelser

A

1) Linearitet i modellen
2) Observationer er i.i.d.
3) E(U | X) = 0 (fravær af selektionsbias)
4) Homoskedastiske fejlled (sjældent opfyldt, men let fix)