Korrelation & regression Flashcards
(18 cards)
Bivariat
Att man observerar 2 variabler
Korrelation
Ett sambandsmått. Finns det någon koppling mellan 2 variabler?
Styrkan i denna koppling mäts med Pearsons r eller Spearmans p
Kan ses som standardiserad samvariation
Kovarians
Mått på grad av samvariation mellan variabler. Hur påverkas y av en förändring i x?
Kan ses som en ostandardiserad korrelationskoefficient, dvs påverkas av vilka enheter man har i sina mätningar
Varians
Sammanfattar mätvärdenas avstånd från medelvärdet.
= summan av alla kvadrerade avvikelser mellan enskilda observationer och deras gemensamma medelvärde, dividerat med antalet observationer
Standardavvikelse
Roten ur variansen
Delad varians/andel förklarad varians
Den kvadrerade korrelationskoefficienten, r^2
Kallas även determinationskoefficienten
Anger: Andel förklarad varians.
= hur stor andel av variationen (spridningen) i den ena variabeln som kan förklaras av variationen i den andra
Ex. om r=0.70 så är r^2=0.49. Innebär att vi har 49% förklarad varians. Innebär att 49% av spridningen i ena variabeln kan förklaras av den andra.
Situationer där korrelationen blir missvisande
- Ej linjärt samband (använd icke-linjär regression i stället)
- Det finns en outlier. Korrelationen kan bli signfikant positiv fastän det inte stämmer. Ta bort den alt. gör ett icke-parametriskt test i stället
- Variationsvidden är för begränsad
- Separata populationer
Regression
En korrelation beskriver hur starkt ett samband är, regression beskriver hur sambandet ser ut.
Med en regressionsanalys får vi fram regressionslinjen, som beskriver hur sambandet ser ut. Den är bra inte bara för att beskriva utan även för att PREDICERA.
Vid regressionsanalys har man vanligtvis data på intervall- eller kvotnivå
regressionslinjen: y = a + bx
Regressionsanalys - antaganden
- Det ska finnas ett samband och det ska vara linjärt
- Variansen för Y ska vara homogen
- Normalfördelade residualer. Y-värdet för varje x-värde bör vara normalfördelade
Totalvarians, felvarians, förklarad varians
Total varians = förklarad varians + felvarians
Multipel korrelation
När vi vill undersöka sambandet mellan en BV och 2 eller fler OBV.
Används inom regressionsanalys för att mäta hur väl en grupp av variabler förutsäger en annan grupp av variabler.
Då använder man den multipla korrelationskoefficienten, R.
R^2 = förklaringsgrad; förklarad/delad varians. Hur stor del av variansen i BV beror på variansen i våra OBV?
beräkna multipel korrelation
addera alla de enskilda korrelationerna i kvadrat. då får vi R^2.
Men man behöver en krångligare formel om prediktorerna (OBV) överlappar med varandra
partiell korrelation
Vid bivariat korrelation kan det finnas problem med inverkan av en tredje variabel. Ex att vi har ett samband mellan studietid och provresultat, men det kan finns bakomliggande faktorer som påverkar sambandet. Ex intelligens som kan antas ha påverkan på både studietid och provresultat.
Mha partiell korrelation kan vi kontrollera för effekten av andra variabler, och därmed isolera korrelationen mellan två variabler.
semipartiell korrelation
utnyttjas vid hierarkisk regression
hierarkisk regression
En regressionsanalys där oberoende variabler läggs till i modellen i flera steg. Detta gör man för att undersöka hur mycket varje variabel bidrar till förklaring av varians i BV.
Genom att lägga till variabler i steg kan man isolera effekten av specifika variabler. Sedan tittar man på om förklaringsgraden ökar mellan olika modeller, i så fall kan man anta att den nya variabeln är betydelsefull i att förklara variansen i BV.
Multipel regression
När vi vill undersöka sambandet mellan 1 BV och 2/flera OBV. Att förstå hur förändringar i OBV påverkar BV och att predicera värden på BV utifrån värden i OBV.
Syften:
* Förklaring - att förstå hur (mycket) OBV påverkar BV
* Predicera - förutsäga värden på BV
* Kontrollera - för bakomliggande variabler. Isolera effekten för specifik OBV genom att kontrollera för andra variabler
Man får olika resultat beroende på i vilken ordning man lägger in prediktorerna
Olika typer av multipel regression:
* Standard: Lägg in alla prediktorer samtidigt. Görs när man inte har en modell i bakhuvudet
* Hierarkisk: När man vill testa explicita modeller/hypoteser. Den vanligaste sorten. Lägg in de prediktorer man vill kontrollera för först, sedan den man tror har störst betydelse.
Goodness of fit
Ett mått på hur väl en statistisk modell passar till våra observerade data. Hur bra fångar modellen datafördelningen? Är modellen tillräckligt bra för att användas för prediktioner?
R^2 = andel förklarad varians vid multipel regression.
R^2 blir automatiskt större när vi lägger in fler prediktorer.
För att kunna jämföra modeller med olika antal prediktorer behöver vi ett mer rättvist mått, och kan då använda adjusted R^2 = justerat R^2 utifrån antal frihetsgrader. Då tar man hänsyn till antal OBV. Kan då jämföra modeller med olika antal OBV.
Dummyvariabel
När man gör regressionsanalys har man samma skalnivåkrav som vid övriga parametriska metoder.
Men man kan skapa en dummyvariabel för lägre skalnivådata ex kön. Att man sätter en siffra på de olika kategorierna.