Regressionsanalys Flashcards by Linn Högström

Hur placeras regressionslinjen i förhållande till observerade datapunkter?

Så att residualerna blir så små som möjligt (det vill säga avstånden mellan predicerade och observerade värden).

How well did you know this?

Not at all

Perfectly

Beskriv formeln för regressionslinjen (ledtråd: ”a”, ”b”).

y = a + bx
b beskriver lutningen på linjen (ökning i y när x ökar med ett)
a beskriver interceptet

How well did you know this?

Not at all

Perfectly

Allt annat konstant, vad händer med regressionslinjen när korrelationen mellan prediktorn och utfallsvariabeln minskar?

Linjen blir mer flack.
Formeln för b: b = r * (standardavvikelse för y / standardavvikelse för x)
Om korrelationen (r) minskar så minskar även b, lutningen blir mindre.

How well did you know this?

Not at all

Perfectly

Regressionslinjen går alltid genom en viss punkt. Vilken?

Medelvärdet för den beroende och medelvärdet för den oberoende variabeln (Mx;My).

How well did you know this?

Not at all

Perfectly

På vilket sätt skiljer sig β (beta) från ”den ordinarie” regressionskoefficienten b? Vilken fördel har β jämfört med b?

Om man standardiserar x- och y-variabeln och beräknar regressionslinjen så betecknas linjens lutning med beta. β anger hur många standardavvikelser värdet på y ökar för varje ökning med en standardavvikelse på x-variabeln.

Värdet på β påverkas inte av enheten man mäter i. Den indikerar prediktiv förmåga (till skillnad från b), eftersom den kan jämföras med andra standardiserade regressionskoefficienter.

How well did you know this?

Not at all

Perfectly

Regressions SS

SS som återstår när observerade värden ersätts med predicerade värden. Vi vill att vår modell (det predicerade värdet) ska behålla så mycket varians som möjligt. Ju större regressions SS är i förhållande till residual SS desto mer av variansen i den beroende variabeln förklaras av vår modell (desto högre R-square får vi).

How well did you know this?

Not at all

Perfectly

Residual SS (error)

SS som går förlorad när observerade värden ersätts med predicerade värden.

How well did you know this?

Not at all

Perfectly

Between SS

Den SS som återstår om varje persons värde ersätts med resp. gruppmedelvärde.

How well did you know this?

Not at all

Perfectly

Within SS

Den SS som förloras om varje värde ersätts med resp. gruppmedelvärde.

How well did you know this?

Not at all

Perfectly

Vid regressionsanalys använder man sig av två olika frihetsgrader (df). Vad kallas dessa och hur beräknas de?

Regressionsfrihetsgrader (Reg.df): antalet prediktorer (p)

Residualfrihetsgrader (Res.df): Totala antalet personer - antalet prediktorer - 1 (N-p-1)

How well did you know this?

Not at all

Perfectly

Vad står ”R” respektive ”R²” för?

R: korrelationen mellan predicerade och observerade y-värden

R² (R-square i SPSS output): Hur stor andel av variansen i BV (y) som kan förklaras av variansen i OV (x). Med andra ord är R²= förklarad varians

How well did you know this?

Not at all

Perfectly

Vad har man för antaganden angående varians och fördelning i utfallsvariabeln vid enkel regressionsanalys?

Antagandet om homoscedasticitet innebär att variansen för y är homogen. Det är den om spridningen i variabeln y är ungefär lika stor för alla värden på x.

Antagandet om approximativt normalfördelade residualer innebär ungefär att y-värdena för varje x-värde bör vara normalfördelade.

How well did you know this?

Not at all

Perfectly

Vad skiljer multipel från enkel regressionsanalys?

Man använder flera oberoende variabler (prediktorer) för att predicera en beroende variabel (y).

How well did you know this?

Not at all

Perfectly

Vad innebär kollinearitet? Beskriv något mått på kollinearitet och någon tumregel vad den bör anta för värden.

Om en OV kan förklaras utifrån en annan OV sägs den ha kollinearitet. Denna OV bidrar inte så mycket till förklaringen av BV och kan innebära problem för modellen. T.ex. riskerar man att dra slutsatsen att en OV inte har nån effekt på BV trots att den har det.

Tolerance (bra om det är högt) > 0,4

How well did you know this?

Not at all

Perfectly

Vad innebär ”adjusted R square”?

Förklarad varians (hur stor andel av variansen i BV som kan förklaras av variansen i OV) justerat för antal prediktorer och antal deltagare. Om man har många deltagare i förhållande till antal prediktorer blir skillnaden mellan adjusted R square och R square inte så stor.

How well did you know this?

Not at all

Perfectly

Vad kan man anta om ANOVA-tabellen vid en regressionsanalys visar på en signifikant F-kvot?

Study These Flashcards

Att modellen förklarar mer varians än vad en modell helt utan prediktorer skulle göra (modellen är bättre än slumpen). Åtminstone en av prediktorerna kan antas ha ett samband som är starkare än 0 i populationen.

Vad anger b- och β-koefficienterna vid en multipel regressionsanalys?

Study These Flashcards

B: Hur mycket den beroende variabeln ökar (i skalsteg) när prediktorn ökar med 1 (skalsteg), givet att övriga prediktorer hålls konstanta.

Beta: Hur mycket den beroende variabeln ökar (i sd) när prediktorn ökar med 1 sd, givet att övriga prediktorer hålls konstanta.

Enter

Study These Flashcards

Alla valda OV tas med i modellen. Alla OV behandlas som om de skulle vara sist i hierarkin.

Hierarkisk

Study These Flashcards

OV tas med i en viss (bestämd) ordning. Effekten av en OV beräknas medan OV på högre nivå kontrolleras.

Forward

Study These Flashcards

Programmet väljer ut OV som förklarar mest varians, adderar sedan nästa OV o.s.v. OV tas med i modellen tills den förklarade variansen inte längre ökar signifikant.

Backward

Study These Flashcards

Alla OV tas med i modellen och sedan elimineras (successivt) de OV som inte bidrar signifikant till förklarad varians.

Stepwise

Study These Flashcards

Kombination av forward och backward.

Beskriv, steg för steg, hur man skulle gå tillväga för att testa om en viss variabel X kan antas ha en kurvlinjär effekt på en annan variabel Y.

Study These Flashcards

Z-transformera regressionskoefficienten
Kvadrera den Z-transformerade regressionskoefficienten
Undersök sambandet på nytt, tillsammans med den ursprungliga prediktorn

Beskriv, steg för steg, hur man skulle gå tillväga för att testa om två variabler X och Z kan antas ha en interaktionseffekt på en tredje variabel Y.

Study These Flashcards

Multiplicera de två variablerna X och Y (X*Y)

2. Undersök sambandet å nytt, tilllsammans med de ursprungliga prediktorerna X och Y

Tänk dig att vi finner, vid en multipel regressionsanalys, att regressionskoefficienten för prediktor X är lika med +0,3, att regressionskoefficienten för prediktor Z är lika med -0,2, och att koefficienten för interaktionstermen X × Z är lika med +0,4 (alla koefficienter är signifikanta). Beskriv hur värdena +0,3; -0,2; och +0,4 kan tolkas.

När prediktorn X ökar med 1, så ökar den beroende variabeln med 0,3, givet att värdet på den andra prediktorn är genomsnittligt. När prediktorn Z ökar med 1, så minskar den beroende variabeln med 0,2m givet att värdet på den andra prediktorn är genomsnittligt. När den ena prediktorn ökar med 1, så ökar effekten av den andra med 0,4. T ex om prediktor X ökar från 0 (medelvärde när de är standardiserade) till 1, så ändras effekten av Z från -0,2 till –0,2 + 0,4 = 0,2.

Säg att vi har en kategorivariabel med fyra kategorier som vi vill ta med som en prediktor i en regressionsanalys. Beskriv hur man skall göra.

1. Vi skapar 4-1=3 dikotoma “dummy-variabler”. 2. Om en observation är av rätt kategori får det värdet 1, alla andra blir 0. 3. Den sista fjärde kategorin får ingen dummyvariabel utan blir referenskategori. 4. Vi kör analysen och jämför dummy-variablerna mot den sammanslagna kategorivariabeln. Om det finns en signifikant skillnad i varians mellan den och en dummy-variabel vet vi om en kategori skiljer sig signifikant från de andra.

När är logistisk regression att föredra framför linjär regression? Varför?

När den beroende variabeln är dikotom. Logistisk gör det möjligt att predicera värden på dikotoma variabler eftersom vi får oddskvoter.

Säg att en kontinuerlig prediktor X får en regressionskoefficient på +0,2 (p < .05) vid en logistisk regression (binär). Beskriv vad värdet +0,2 står för.

För varje ökning av X med 1 ökar den naturliga logaritmen för oddsen att tillhöra den undersökta kategorin med 0,2. Alltså: Oddsen ökar när prediktorn ökar!

Diagnostik

(1) Residualerna bör i genomsnitt vara ungefär noll för alla nivåer av de predicerade värdena. Detta kan undersökas genom att titta på en scatterplot med predicerade värden på x-axeln och med residualer på y-axeln. (Det ska inte se ut att finnas något samband) (2) Ingen person bör ha en ”otillbörligt” stark effekt på framräknat intercept eller regressionskoefficient. Detta kan undersökas genom att titta på histogram över de standardiserade DfBeta-värdena. (Vi vill inte ha några outliers)

Regressionsanalys Flashcards

(29 cards)