Simple Linear Regression Flashcards
(33 cards)
Hvorfor (og hvordan) undersøger man overall model fit?
Fordi man sjældent finder en perfekt lineær sammenhæng, ser man i stedet hvor godt modellen passer - ved at kigge på fejlene i forudsigelserne - kaldet residuals.
Hvad kaldes forskellen mellem den observerede værdi og den værdi, modellen forudsiger?
Residual (fejl).
Hvad viser residuals?
Hvor meget data afviger fra den perfekte (forudsagte) linje.
Hvad er ‘Least Squares Fit’?
Den bedst passende linje, der minimerer summen af kvadrerede afvigelser (residuals).
Hvad står SSr for i regression?
Residual Sum of Squares.
Hvad repræsenterer SSr?
Summen af forskellene mellem de observerede værdier og modellens forudsigelser.
Hvad står SSt for?
Total Sum of Squares.
Hvad repræsenterer SSt?
Summen af forskellene mellem de observerede værdier og gennemsnittet.
Hvad står SSm for?
Model Sum of Squares.
Hvad viser SSm?
Forskellen mellem modellens forudsigelser og gennemsnittets. Er derfor et udtryk for, hvor meget bedre regressionsmodellen er til at forudsige ift. hvis man blot brugte gennemsnittet som model.
Hvad angiver R² (forklaringsgraden)?
Hvor stor en andel af variationen i den afhængige variabel, der kan forklares af modellen.
Hvad betyder R² = 0,65?
At modellen forklarer 65 % af variationen i data.
Hvad bruges F-testen i lineær regression til?
At vurdere, om hele regressionsmodellen er signifikant bedre til at forklare variationen i data end en model uden prædiktorer (fx gennemsnittet).
Hvordan beregnes F-testen?
Ved at man kigger på forholdet mellem forbedringen fra modellen SSm og den resterende fejl SSr.
Hvad er ‘Mean Squares’ i regression?
Gennemsnitlig varians beregnet for at sammenligne SSm og SSr.
Hvordan beregnes MSm (Mean Square for Model)?
MSm = SSM / 1.
Hvordan beregnes MSr (Mean Square for Residuals)?
MSr = SSR / N-2.
Hvordan beregnes F-værdien?
F = MSm / MSr.
Hvad indikerer en høj F-værdi?
At den systematiske varians er stor i forhold til den usystematiske varians - modellen forklarer derfor noget, der er statistisk signifikant.
Hvordan vurderes signifikans af F-værdien?
Ved at sammenligne den med en kritisk F-værdi i F-distributionen baseret på de relevante frihedsgrader (N-2).
Hvad er de nødvendige antagelser for simpel lineær regression?
1) Lineært forhold
2) To kontinuere variable
3) Normalfordeling af fejl
4) Uafhængige observationer af fejl
5) Homoskedasticitet
Homoskedasticitet betyder, at variansen af residualerne er ensartet på tværs af alle værdier af prædiktoren.
Hvad er de to overordnede trin i analysen af simpel lineær regression?
1) Vurdering af overall model fit (R^2 og F)
2) Vurdering af de individuelle prædiktorer (b og t-statisik)
R^2 angiver, hvor godt modellen passer til dataene, mens F-testen vurderer, om modellen som helhed er signifikant.
Hvilke konkrete steps skal man følge for at udføre en simpel lineær regression?
1) Indsæt data og tilpas regressionslinje
2) Find overall fit via R^2 og f-ratio
3) Test signifikans for f-ratio
4) Find signifikans af individuel predictor (b)
5) Fortolk resultater i henhold til nulhypotesen
6) Rapportér i APA-format
7) Brug modellen til forudsigelser
APA-format refererer til American Psychological Association’s stilguide for rapportering af forskning.
Hvad tester man med en t-statistik i simpel lineær regression?
Signifikansen af de individuelle prædiktorer. Altså om b1 er signifikant anderledes fra 0.
Nulhypotesen er, at b = 0, hvilket betyder, at der ikke er nogen sammenhæng mellem prædiktor og udfald.