L6 Simpel lineær regression Flashcards

1
Q

Hvad er antagelserne for simpel lineær regression? Hvordan undersøges de?

A

Antagelser omkring design:

  • uafhængige observationer
  • fravær af selektionsbias eller E(UlX)=0

Antagelser der undersøges grafisk:

  • linearitet: scatterplot (eller ACPR ved MLR)
  • outliers: scatterplot (eller ACPR ved MLR)
  • fravær af heteroskedasticitet: RVP plpot (robust SE)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvornår er en observation en outlier?

A

Når den er en indflydelsesrig observation. Når den ligger langt fra gennemsnittet og fra regressionslinjen (leverage og..)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er et RVP plot

A

Bruges til at undersøges homoskedasticitet. Plotter residualerne altså afvigelserne fra regressionslinjen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad er heteroskedasticitet? Hvordan løser man problemer med det?

A

Omhandler variansen i residualerne på tværs af vores regressionslinje. Hvis der er heteroskedasticitet, så er der et ikke homogent mønster (eks. en sommerfugl) i residualerne.

Løsning: robuste standardfejl (altid i store stikprøver)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Er hældningskoefficienten udtryk for den lineære sammenhæng mellem x og y?

A

Ja, altid (deskriptiv sammenhæng)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Er hældningskoefficienten udtryk for den lineære effekt af x på y?

A

Nej, kun i det sjældne tilfælde at antagelsen om fravær af selektion er overholdt, E(U l X)=0.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Tegn sammenhængen mellem population og stikprøve ift. parametre/estimater

A

hat på beta-koefficienter og på fejlledet u

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvad er forskellen på hat og streg?

A

Hat: et estimat af en parameter (eks. beta1-hat)
Streg: et gennemsnit i stikprøven (ystreg)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Er residualerne altid ukorrelerede med x i lineær regression?

A

JA! Pr. definition, da B0 og B1 udregnes efter at minimere residualerne (SSR).

Vi kan diskutere, om fejlledet (parameteren i population), er ukorreleret med x.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvordan måler man modellens fit?

A

R^2 og RMSE

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Kan Frederik li R^2?

A

Fucking NEJ!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad står TSS, ESS og SSR for?

A

TSS: total sum of squares (gns. afstand fra gns.: yi-ystreg kvadret)

SSR: total sum of squared residuals (gns afstand fra yi-forudsagt kvadret, altså residual).

ESS: explained sum of squares (differensen mellem TSS og SSR).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad sker der, hvis uheldet er ude for:

  • linearitet
  • fravær af selektion
  • uafhængige obs
  • outliers
A

Løsning

  • stadig ok approksimation (ellers transformation). Mindre betydeligt hvis der er afvigelser i enderne, hvor der er få observationer.
  • du laver bare deskriptiv inferens
  • konsekvens for inferentiel stat (klyngerobuste!)
  • kode dem ud for fanden
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad er parametrene β0 og β1 i den lineære regressionsmodel og hvordan fortolkes de?

A

β0: skæring med y-aksen altså E(Y l X=0)

β1: hældningskoefficienten. Ændring i y ved x+1. Konstant på tværs af x (derfor lineær)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvilke ting påvirker R^2, som kan gøre at den måske er lidt shady (ifølge Frederik)?

A

Tit er vi ikke rigtig interesseret i al variation i y, men mest om x påvirker y

  • Ekstreme outliers påvirker meget (fordi TSS - altså den gennemsnitlige afvigelse fra gennemsnittet)
  • Afhænger af trivielle faktorer såsom målefejl
  • Tilfældig støj
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hvordan estimeres parametrene β0 og β1 ?

A

Parameterne estimeres ved at minimere SSR (summen af kvadret residualer). Differentiere SSR og finde lokalt minimum.

β1-hat: cov(x,y)/var(x)
β0-hat: ystreg - β1-hat*xstreg

Cov(x,y) angiver retningen for hældningskoefficienten, mens større var(x) alt andet lige giver en mindre koefficient.

17
Q

Hvad er forskellen på residualer og fejlled?

A

Residualerne er estimatet af fejlledet.

Når jeg minimerer residualerne for at finde betakoefficienterne vil residualerne altid være ukorreleret med x, men det er ikke givet at fejlledet er det.

Fravær af selektionsbias: estimatet er i overensstemmelse med den sande parameter.

18
Q

Hvordan estimeres modellens forventede værdier og residualer?

A

Yihat = B0hat + B1hat*Xi + uihat er estimatet for et punkt i regressionen, hvor:

uihat = yihat-yi.

Residualet er afstanden fra regressionlinjen (den forudsagte værdi) til observationen.

19
Q

Hvad er RMSE?

A

Root mean squared error

“Standardafvigelsen” fra regressionslinjen - giver et konkret bud på, hvor langt vores observationer falder fra regressionslinjen

RMSE = kvadratrod (SSR/n-k)

20
Q

Hvad er modellens R2 hvordan fortolkes de?

A

Prooortional reduction in error. Hvor stor en del af variationen i Y forklarer X.

ESS/TSS

0 < R2 < 1 og kan tolkes som, hvor mange procent af variationen i Y x kan forklare

Man sammenholder forudsigelsesevnen uden regression (afstand til gennemsnittet, kvadret fejl: TSS) med forudsigelsesevnen med regres-sion (afstand til forudsagt værdi, kvadret fejl: SSR)

Altså et forhold mellem hvad vi gætter på med gennemsnittet (den naive, bedste gæt) og så vores forklaring med regressionslinje med TSS som benchmark altså hvor meget bedre bliver vi? (relativ forbedring).

21
Q

Hvad betyder antagelsen om, at E(u|x) = 0 og hvilket forhold har antagelsen til selektionsbias?

A

Fejlledet skal være ukorreleret med x. Den forventede værdi af fejlledet givet x, skal være =0.

E(U l X)=0.

Præcis samme antagelse som fravær af selektionsbias. Altså vi vil gerne vide om forskellen skyldes treatment og IKKE selektion ind i treatment.

Der må ikke være andre faktorer, der driver sammenhængen

22
Q

Hvad går regression ud på og hvorfor er det fed?

A

Vi prøver at estimere det betingede gennemsnit ved en lineær funktion. Vi prøver at beskrive sammenhængen mere generelt.

Vi estimerer altså den forventede værdi af y givet en bestemt værdi af x. E(Y l X)= B0 + B1X

Regression er simpel, der er mulighed for statistisk kontrol og modellen er flexibel (non-lineariteter)

23
Q

Hvad er forskellen på SE og robuste SE rent substantielt?

A

SE antager homoskedasticitet; fordi SE er den gennemsnitlige afvigelse. Så dur det jo ikke, hvis der er meget variation.

Robuste SE tager højde for at variansen er heterogen langs regressionslinjen.