U12 Inferens fra regression Flashcards
(16 cards)
Unbiased Estimation
At OLS-estimatoren er middelret (unbiased) under visse antagelser (fravær af selektionsbias, linearitet, ingen outliers).
Estimatorens egenskaber: konsistens (konvergerer mod den sande værdi for stort n) og effektivitet (minimal varians).
En estimator, der gennemsnitligt rammer den sande populationsværdi
Standardfejl og Inferens
Standardfejlen for hældningskoefficienten afhænger af:
RMSE (størrelsen af residualerne).
Stikprøvestørrelsen (større n → mindre usikkerhed).
Variationen i X (mere variation → mere præcist estimat).
Mål for usikkerhed i et estimat; standardafvigelsen for stikprøvemålsfordelingen
Homoskedasticitet
Konstant varians i fejlleddet uafhængigt af X
Betyder, at residualernes størrelse ikke varierer på tværs af X – dvs. at fejlleddene er konstante
Variationen i residualerne/fejlleddene er ukorreleret med X
Alternativ terminologi: Varianshomogenitet
Heteroskedasticitet
Varierende fejlvarians → kræver robuste standardfejl
Betyder, at homoskedasticitet ikke er opfyldt: Fejlleddenes variation afhænger af X
Denne korrelation kan tage mange former og kan også være non-lineære.
Diagnosticeres med postestimationskommandoen RVP-plot (residuals vs. predicted plot)
t-test
Test for, om en enkelt koefficient er signifikant
p-værdi
Sandsynlighed for at observere data under H0; lav p-værdi
Multikollinearitet
Høj korrelation mellem uafhængige variable → øget usikkerhed i estimater→ øger standardfejlen
Løsninger: Fjern overflødige variable eller brug indeks
F-test
Test for signifikans af flere koefficienter samtidig (fx for kategoriske variable)
Tester om mindst én koefficient i en gruppe er forskellig fra 0 (fx for kategoriske variable).
Sammenligner forklaringskraft mellem en urestrikteret og en restrikteret model.
H0: Alle parametre er lig 0.
Ha: Mindst én af parametrene er forskellig fra 0.
Urestrikteret (UR) model: Almindelig MLR
Restrikteret (R) model: H0 antages sand
F-test er primært produkt af forbedring i R2 fra R til UR + stikprøvestørrelse.
Balancetest
Tjek for, om grupper er sammenlignelige på baggrundsvariable (vigtigt for kausal inferens).
Bruges i kausal inferens til at tjekke, om treatment- og kontrolgrupper er ens på baggrundsvariable (via t- eller F-tests).
Robuste standardfejl
Justering for heteroskedasticitet (fx via lmtest-pakken i R).
Korrigerer for heteroskedasticitet, således at std. fejlene stadig estimeres præcist.
Outliers
Ekstreme observationer kan påvirke resultaterne.
Håndteres ved at identificere (fx via scatterplots), vurdere repræsentativitet og evt. køre robusthedsanalyser.
RMSE (Root Mean Square Error):
Mål for modellens præcision (hvor tæt er forudsigelser på data).
Middelret (unbiased)
En estimator er unbiased, hvis dens stikprøvemålsfordeling centrerer sig omkring populationsgennemsnittet
Hvis vi udtrækker en masse stikprøver, vil en middelret estimator gennemsnitligt ramme populationsparameteren.
Bias defineres her som afstanden fra estimatorens værdi og populationsværdien
Efficient
En estimator er efficient, hvis variansen i stikprøvemålsfordeling er lav, dvs. hvis fordelingen er koncentreret tæt omkring populationsgennemsnittet.
Gør at vi kan udtale os med større statistisk præcision med vores data.
Std.fejl for hældningskoefficient
Standardfejlen afhænger af
1) RMSE: Større residualer 🡪 upræcist estimat (større std. fejl)
2) Stikprøvestørrelse 🡪 Større N 🡪 mere præcist estimat (mindre std. fejl)
3) Variation i X: Mere variation 🡪 mere præcist estimat (mindre std. fejl).
Multikollinearitet: Jo mindre selvstændig variation, der er tilbage i X efter kontrol, jo større std. fejl.
Er også præcist sådan, at multikollinearitet diagnosticeres (dvs. hvis inklusion af ny kontrolvariabel resulterer i større std. fejl 🡪 sandsynligt med multikollinearitet).
Men i det omfang, at Z reducerer fejlleddenes størrelse idet Z korrelerer med Y, så reducerer inklusion af Z std. fejl.
Dvs: Hvis Z korrelerer (stærkt) med X 🡪 større std. fejl
Hvis Z korrelerer med Y 🡪 mindre std. fejl
Uafhængige obs.
Uafhængige observationer påvirker ikke hinanden: Hver ny observation bidrager med ny information