Regressionsanalys Flashcards
(29 cards)
Hur placeras regressionslinjen i förhållande till observerade datapunkter?
Så att residualerna blir så små som möjligt (det vill säga avstånden mellan predicerade och observerade värden).
Beskriv formeln för regressionslinjen (ledtråd: ”a”, ”b”).
y = a + bx
b beskriver lutningen på linjen (ökning i y när x ökar med ett)
a beskriver interceptet
Allt annat konstant, vad händer med regressionslinjen när korrelationen mellan prediktorn och utfallsvariabeln minskar?
Linjen blir mer flack. Formeln för b: b = r * (standardavvikelse för y / standardavvikelse för x) Om korrelationen (r) minskar så minskar även b, lutningen blir mindre.
Regressionslinjen går alltid genom en viss punkt. Vilken?
Medelvärdet för den beroende och medelvärdet för den oberoende variabeln (Mx;My).
På vilket sätt skiljer sig β (beta) från ”den ordinarie” regressionskoefficienten b? Vilken fördel har β jämfört med b?
Om man standardiserar x- och y-variabeln och beräknar regressionslinjen så betecknas linjens lutning med beta. β anger hur många standardavvikelser värdet på y ökar för varje ökning med en standardavvikelse på x-variabeln.
Värdet på β påverkas inte av enheten man mäter i. Den indikerar prediktiv förmåga (till skillnad från b), eftersom den kan jämföras med andra standardiserade regressionskoefficienter.
Regressions SS
SS som återstår när observerade värden ersätts med predicerade värden. Vi vill att vår modell (det predicerade värdet) ska behålla så mycket varians som möjligt. Ju större regressions SS är i förhållande till residual SS desto mer av variansen i den beroende variabeln förklaras av vår modell (desto högre R-square får vi).
Residual SS (error)
SS som går förlorad när observerade värden ersätts med predicerade värden.
Between SS
Den SS som återstår om varje persons värde ersätts med resp. gruppmedelvärde.
Within SS
Den SS som förloras om varje värde ersätts med resp. gruppmedelvärde.
Vid regressionsanalys använder man sig av två olika frihetsgrader (df). Vad kallas dessa och hur beräknas de?
Regressionsfrihetsgrader (Reg.df): antalet prediktorer (p)
Residualfrihetsgrader (Res.df): Totala antalet personer - antalet prediktorer - 1 (N-p-1)
Vad står ”R” respektive ”R²” för?
R: korrelationen mellan predicerade och observerade y-värden
R² (R-square i SPSS output): Hur stor andel av variansen i BV (y) som kan förklaras av variansen i OV (x). Med andra ord är R²= förklarad varians
Vad har man för antaganden angående varians och fördelning i utfallsvariabeln vid enkel regressionsanalys?
Antagandet om homoscedasticitet innebär att variansen för y är homogen. Det är den om spridningen i variabeln y är ungefär lika stor för alla värden på x.
Antagandet om approximativt normalfördelade residualer innebär ungefär att y-värdena för varje x-värde bör vara normalfördelade.
Vad skiljer multipel från enkel regressionsanalys?
Man använder flera oberoende variabler (prediktorer) för att predicera en beroende variabel (y).
Vad innebär kollinearitet? Beskriv något mått på kollinearitet och någon tumregel vad den bör anta för värden.
Om en OV kan förklaras utifrån en annan OV sägs den ha kollinearitet. Denna OV bidrar inte så mycket till förklaringen av BV och kan innebära problem för modellen. T.ex. riskerar man att dra slutsatsen att en OV inte har nån effekt på BV trots att den har det.
Tolerance (bra om det är högt) > 0,4
Vad innebär ”adjusted R square”?
Förklarad varians (hur stor andel av variansen i BV som kan förklaras av variansen i OV) justerat för antal prediktorer och antal deltagare. Om man har många deltagare i förhållande till antal prediktorer blir skillnaden mellan adjusted R square och R square inte så stor.
Vad kan man anta om ANOVA-tabellen vid en regressionsanalys visar på en signifikant F-kvot?
Att modellen förklarar mer varians än vad en modell helt utan prediktorer skulle göra (modellen är bättre än slumpen). Åtminstone en av prediktorerna kan antas ha ett samband som är starkare än 0 i populationen.
Vad anger b- och β-koefficienterna vid en multipel regressionsanalys?
B: Hur mycket den beroende variabeln ökar (i skalsteg) när prediktorn ökar med 1 (skalsteg), givet att övriga prediktorer hålls konstanta.
Beta: Hur mycket den beroende variabeln ökar (i sd) när prediktorn ökar med 1 sd, givet att övriga prediktorer hålls konstanta.
Enter
Alla valda OV tas med i modellen. Alla OV behandlas som om de skulle vara sist i hierarkin.
Hierarkisk
OV tas med i en viss (bestämd) ordning. Effekten av en OV beräknas medan OV på högre nivå kontrolleras.
Forward
Programmet väljer ut OV som förklarar mest varians, adderar sedan nästa OV o.s.v. OV tas med i modellen tills den förklarade variansen inte längre ökar signifikant.
Backward
Alla OV tas med i modellen och sedan elimineras (successivt) de OV som inte bidrar signifikant till förklarad varians.
Stepwise
Kombination av forward och backward.
Beskriv, steg för steg, hur man skulle gå tillväga för att testa om en viss variabel X kan antas ha en kurvlinjär effekt på en annan variabel Y.
- Z-transformera regressionskoefficienten
- Kvadrera den Z-transformerade regressionskoefficienten
- Undersök sambandet på nytt, tillsammans med den ursprungliga prediktorn
Beskriv, steg för steg, hur man skulle gå tillväga för att testa om två variabler X och Z kan antas ha en interaktionseffekt på en tredje variabel Y.
- Multiplicera de två variablerna X och Y (X*Y)
2. Undersök sambandet å nytt, tilllsammans med de ursprungliga prediktorerna X och Y