Variansanalys/ANOVA Flashcards

(12 cards)

1
Q

Ofta kvadreras Pearson’s korrelationskoefficient, hur tolkas detta kvadrerade mått? 1p

A

Kvadrerade r kan tolkas som förklarad varians. Detta beskriver hur stor del av variansen i den
ena variabeln förklaras av variansen i den andra variablen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Vid beräkning av ANOVA så kommer man i kontakt med tre typer av varians som man använder
för att beräkna F-värdet. Vad kallas de tre typerna av varians? Beskriv också vad de innebär och
hur de används för att beräkna F-värdet. 2p

A

Total varians = Systematisk varians + Felvarians
Systematisk varians kan beskrivas som att handla variansen mellan olika betingelser och det
totala medelvärdet för variabeln. Är summan av de kvadrerade avstånden från betingelsernas
medelvärdes till medelvärdet för alla betingelserna.
Felvarians är istället varians inom en betingelse. Är summan av de kvadrerade avstånden från
varje datapunkt inom en betingelse till medelvärdet av respektive betingelse, summerat med
motsvarande för alla betingelserna.
F-värdet = systematisk varians / felvarians
Ju lägre felvarians: desto högre värde på F-värdet, vilket indikerar att större delen av
variansen i studien beror på systematisk varians och inte felvarians. Vilket generellt är ett gott
tecken, då vi faktiskt fångat det vi vill med vår data, och inte en massa ovidkommande
variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Vad är fördelarna och nackdelarna med att korrigera en analys för multipla jämförelser? 2p

A

Fördelar är att man kan på ett öppet och utforskande sätt leta efter samband. Multipla
jämförelser görs ofta som post-hoc test vid ANOVA testningar, som på egen hand har svårt att
förklara vart skillnaderna ligger, utan bara att skillnaden som finns är signifikant. Vart skillnaden
befinner sig kan man besvara med multipla jämförelser.
Dock finns det en stor nackdel med sådana jämförelser, nämligen att för varje jämförelse ökar
chansen att ma gör ett typ 1 fel, alltså att man förkastar nollhyposesen fastän den är sann.
Säg att man gör massor av såna här multipla jämförselser, ofta via t-testningar, och får fram
10 signifikanta samband på en en 5% alfanivå. Då ökar risken för att man gör minst ett typ-1
fel om man väljer att förkasta nollhypotesen i samtliga av dessa fall, även om de flesta av dem
är sanna samband. Detta fnins det sätt att hantera; ett sådant är bonferoni metoden vid post
hoc testning, som innebär att man dividerar alfanivån med antalet jämförelser man gör. Gör
man 10: dividera 5% med 10, ny alfanivå på 0,5%. Ett problem med detta är förstås att det blir
mycket svårare att ni till detta gränsvärde. Detta går i sin tur att kompenseras för med högre
statistisk power, som genom att ha fler deltagare. Om man vet fårn början när man designar
en studie där man planerar att göra många multipla jämförelser i sin post-hoc analys är det
därför bra att rekrytera fler deltagare än man hade gjort annars.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Vid beräkning av ANOVA så kommer man i kontakt med tre typer av varians som man använder
för att beräkna F-värdet. Vad kallas de tre typerna av varians? Beskriv också vad de innebär och
hur de används för att beräkna F-värdet. 2p

A

De tre typerna av varians kallas för totalvarians, förklarad varians (systematisk varians) och
oförklarad varians (felvarians).
Totalvariansen är den beräknade variansen mellan alla studiens observationer (alltså den
beräknade distansen från varje enskild datapunkt till medelvärdet). Den förklarade variansen,
som också kan benämnas som mellangruppsvarians, är skillnaden mellan summorna av de
kvadrerade avstånden i varje observerad GRUPP. Den oförklarade variansen däremot
undersöker inomgruppsvariansen, avstånden mellan de individuellas datapunkter i varje grupp.
För att beräkna F-värdet divideras den förklarade variansen på den oförklarade variansen
(förklarad varians/oförklarad varians). Vi vill att felvariansen ska vara så liten som möjligt för
att få ett så högt F-värde som möjligt. Ett högre F-värde säger oss att det finns en högre
sannolikhet för en statistiskt signifikant skillnad mellan grupperna (betingelserna).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

a) “Men va? Min basmodell innehåller bara felvarians!” utbrister Impulsive Ivar. Vad menar han?
Har han rätt eller fel? Är det rimligt att han blir förvånad?
b) Felvarians används vid beräkning av F-värdet vid en ANOVA. Vad är det man undersöker med
beräkning av F-värde?

A

a) Ja i basmodellen utgår man faktiskt ifrån att all varians är felvarians. I vår alternativa modell
blir istället felvariansen ett mått på hur stor del av variansen som inte kan förklaras av
skillnaderna mellan gruppernas medelvärden. Självklart är det förståeligt att Ivar blir förvånad
om han inte är så insatt i variansanalys, vid andra analyser t.ex. regressionanalys, antar man
ju inte att modellen bara innehåller felvarians.
b) För att beräkna F-värdet vid en ANOVA beräknar man kvoten av förklarad varians/
felvarians. Ju högre F-värde desto större sannolikhet att vi har en statistiskt signifikant
skillnad. Den förklarade variansen är alltså avstånden mellan de olika gruppernas medelvärde
i kvadrat och felvariansen avstånden mellan de observerade värdena och medelvärdet, i
kvadrat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Varför använder man sig av post-hoc test vid ANOVA med fler än två betingelser? Vilket problem
försöker man lösa? Vad finns för problem som kan uppstå när man gör post-hoc-test och hur kan
man kompensera för dessa problem i sin forskningsplanering?

A

I en ANOVA får vi fram om det finns en signifikant skillnad mellan någon av grupperna, vi får
dock ingen information om mella vilka grupper. Vilket vi såklart oftast vill veta. Vi behöver
därför göra ett eftertest. Ett post- hoc test är ett kontrasttest som kan användas för detta. Vi får
då ut information om mellan vilka grupper det finns en signikant skilnad.
Det finns dock ett problem som kan uppstå vid användninen av post-hoc-test. För varje
jämförelse ökar nämligen risken för att vi begår ett typ I-fel, det vill säga att vi felaktigt förkastar
nollhypotesen. Om vi alltså utgår ifrån en alfanivå på .05 (som ofta är standard i psykologisk
forskning) kommer sannolikheten att vi begår ett typ i-fel öka för varje jämförelse vi gör.
Risken kommer alltså inte längre att vara endast 5 % (som är den risk vi är villiga att
acceptera). För att kompensera för detta är det vanligt att man använder sig av Bonferronis
korrigering. Vilket innebär att man justerar för antalet jämförelser och sänker alfanivån.
Alfanivån kan dock riskeras att bli så pass låg att vi istället får svårt att hitta en signifikant
skillnad, att risken för typ II-fel ökar. Det här är något vi kan försöka kontrollera för genom att ta
hänsyn till dessa saker tidigt i forskningsprocessen. Tex. att man utgår ifrån ett stort stickprov
med hög power och en stark manipulering av OBV.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

F-värdet är systematisk varians/felvarians. Ge en djupare beskrivning om vad de två olika typerna
av varians innebär och hur de hänger ihop med F-värdet. 2p

A

Systematisk varians innebär den varians i data som vi kan förklara med vår modell. I en
variansanalys så innebär detta att man beräknar avståndet från gruppernas medelvärden till
det totala medelvärdet och kvadrerar och summerar dessa. I en regression så refererar den
systematiska variansen till avståndet mellan regressionslinjens värden och kriterievariabeln ys
medelvärde (kvadrerat och summerat). Med andra ord handlar den systematiska variansen
om den andel varians i vår data som vår modell kan förklara.
Felvariansen är all varians i data som vi inte kan förklara med hjälp av vår modell. I en
variansanalys så handlar det om skillnaderna mellan varje observerat värde till gruppens
medelvärde (kvadrerat och summerat). I en regression så handlar det om skillnaden mellan
varje observerat värde och motsvarande värde på regressionslinjen (kvadrerat och
summerat).
För att få fram F-värdet så delar man som sagt den systematiska variansen på felvariansen.
Ju högre värde på F desto större innebär det att den systematiska variansen är relativt
felvariansen. Vi vill att proportionen av systematisk varians ska vara högre än felvariansen
eftersom vi då kan säga att vår modell förklarar med av datan än vad den inte förklarar. I en
variansanalys handlar det om att vi kan säga att skillnaderna mellan grupperna är större än
inom grupperna, och att detta beror på att värdena ingår i olika betingelser (där vi har
manipulerat OBV). F-värdet måste dock vara signifikant för att vi ska kunna konstatera detta.
Det är signifikant om det är större än det kristiska F-värdet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

F-ration är det viktigaste statistiska värdet vid ANOVA.
A) Av vilka två typer av varians beräknas ration? (1p)
B) Vad beskriver de två olika typerna av varians? (1p)

A

A) F-ration beräknas av systematiskvarians och felvarians.
B) Systematiskvarians beskriver den varians som beror på manipulationen. Systematiska
variansen utgörs av summeringen av de kvadrerade avstånden mellan betingelsernas
enskilda medelvärden och betingelsernas gemensamma medelvärde.
Felvarians utgörs av den varians som inte beror på manipulation, utan beror på något annat
t.ex. individuella skillnader. Felvariansen definieras som summeringen av de kvadrerade
avstånden mellan betingelsernas enskilda observationer och betingelsens medelvärde.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hur skulle du kort förklara för en vän som har missat kursen psykologisk forskningsmetod II hur
man kan få fram förklarad varians från en korrelationskoefficient, och vad som menas med
förklarad varians? 1p

A

Korrelationskoefficienten r ger oss en bild av hur riktining och styrka ser ut i en korrelation och
varierar mellan -1 och 1. Om vi kvadrerar korrelationskoeficienten får vi fram r2, alltså
korrelationskoefficienten i kvadrat eller determinationskoefficienten. r2 ger oss en bild av den
förklarade variansen för en korrelation. Med förklarad variens innebär hur mycket av
förändringen i y som kan förklaras dvs. antas vara ett resultat av förändring i x. På så sätt blir
det ett mått på hur bra vår hypotes eller modell beskriver variansen i datan eftersom att desto
mer varians i BV som förklaras av våra OBVS desto mer sannorlikt är det att våra OBVs
faktiskt har en reell påverkan på bv. Genom r2 kan vi även få en bild av hur mycket av
variansen som inte förklaras av modellen och därmed resonera kring vad detta kan bero på,
ex. mätfel eller ovidkommande variabler.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Ge en så bra beskrivning som möjligt av vad “total varians” innebär vid en oberoende envägsANOVA. 2p

A

Vid en oberoende envägsanova har vi en obv och med flera betingelser och olika deltagare
eller studieobjekt i dessa betingelser. Om vi placerar ut medelvärdet för alla våra datapunkter
för alla betingelser får vi en baslinje för mätningen. Denna används senare för att jämföra
medelvärdet för de individuella grupperna. Om dessa medelvärden ligger exakt i linje med eller
väldigt nära det totala medelvärdet finns ingen signifikant eller meningsfull skillnad mellan
grupperna. Desto störe avstånd mellan grupp-medelvärderna och det totala medelvärdet desto
mer skillnad finns det i grupperna som följd av vår manipulation.
Det kvadrerade avståndet mellan gruppernas medelvärde och det totala medelvärdet är den
förklarade variansen. Det kvadrerade avståndet mellan gruppernas medelvärde och varje
datapunkt är felvariansen. Totalvariansen kan beskrivas som förklarad varians + felvarians,
alltså summan av det kvadrerade avståndet från samtliga datapunkter till det totala
medelvärdet. I praktiken innebär den totala variansen spridningen kring medelvärdet i hela vår
mätning. Eftersom vi i anovor söker skillnad snarare än samband är spridning kring
medelvärdet positivt snarare än negativt vilket det är i många andra test där man vi ha en data
som är samlad kring medelvärdet och så lite varians som möjligt. Mede det sagt vill vi att så
mycket av den totala variansen som möjligt ska bestå av förklarad varians för att få ett högt Fvärde och kunna se om vår modell beskriver en signifikant skillnad mellan betingelserna, helt
slumpmässig varians är snarare ett tecken på t.ex. problematik i datainsmaling. Hade vi haft
en flervägs anova hade analysen av variansen blivit mer komplex eftersom vi då inte enbart
mäter skillnad mellan betingelserna utan även huvudeffekt och interaktion mellan de olika
OBV

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

F-värdet är systematisk varians/felvarians. Ge en djupare beskrivning om vad de två olika typerna
av varians innebär och hur de hänger ihop med F-värdet. 2p

A

Inom anova är vi intresserade av systamatisk varians (förklarad varians), felvarians och total
varians.
Total varians är summan av varje datapunkts kvadrerade avstånd från medelvärdet av alla
uppmätta data i studien, dvs. spridningen kring baslinjen i datan och ger oss en bild av den
totala spridningen av varians i datan.
Den systematiska variansen är den kvadererade summan av avståndet mellan varje
betingelses individuella medelvärde och baslinjen och ger oss en bild av hur mycket varje
grupps medelvärde skiljer sig från det totala medelvärdet. Eftersom vi i anova är intresserade
av skillnad mellan grupper hade ett medelvärde för gruppen nära det totala medelvärdet
inneburit mindre skillnad mellan grupper och ett större stor skillnad mellan grupper. Desto mer
av variansen som faller in mellan gruppens medelvärde och det totala medelvärdet desto
större del av den totala variansen kan antas vara ett resultat av skillnader i de betingelser vi
har i vår modell vilket innebär att vår modell i högre grad beskriver en grund till skillnaden
mellan grupperna.
Felvariansen är summan av det kvadrerade avståndet mellan gruppernas individuella
medelvärde och datapunkterna som faller inom den gruppen/betingelsen summerat för alla
våra grupper. det blir alltså ett mått på den variansen i datan som inte kan antas förklaras av
vår modell. Desto större kvadrerat avstånd mellan datapunkterna och gruppens medelvärde
desto mer av den totala variansen kan antas bero på något annat än vår modell, t.ex.
ovidkommande variabler eller mätfel.
F-värdet är ett av de viktigaste måtten i anova och ger oss en uppfattning kring hur bra vår
modell beskriver variansen i datan och hur sannolikt det är att vi får ett statistiskt signifikant
resultat.
F-värdet får man fram genom att dela den systematiska variansen med felvariansen. En
analys med högre andel systematisk varians och lägre andel felvarians kommer därför få ett
högre F-värde. Ett högre F-värde är en indikation på att vår modell förklarar mer av variansen
jämfört med vad som kan attribueras till slumpen eller andra faktorer och ger därför en
indikation på hur mycket stöd vi har för att förkasta H0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Vad behöver man tänka på när man designar en studie om man vet att man kommer att behöva
använda post-hoc test med korringering för multipla jämförelser? 2p

A

Ibland har vi behov av att genomföra multipla jämförelser i vår data, t.ex. i de fall vi genomfört
en anova där vi kommer vilja använda kontrasttest för att hitta var skillnaderna i vår data finns.
När vi genomför multipla analyser ökar risken att vi får ett signifikant resultat pga slumpen
enligt grundläggande sannolikhetslära, på samma sätt som att om vi slår en tärning tillräckligt
många gånger så kommer vi tillslut få en sexa så kommer vi vid tillräckligt många analyser
tillslut få ett signifikant resultat, oavsett om vår data reflekterar det eller inte. Därför är det
viktigt att vi vid multipla jämförelser, vilket vi som nämnt ibland har helt ärligt uppsåt och behöv
av att göra, även kontrollerar för denna risk.
Ett sätt att göra detta är genom post-hoc test. Exempelvis, för att bygga på mitt tidigare
exempel, hade vi i det fall att vi gjort en anova med kontrasttest kunnat använda Bonferronis ttest. I det post-hoc testet delar vi vårt p-värde med antalet jämförelser. Som en naturlig
konsekvens av detta påverkas p-värdet och det kan vara svårare att uppnå ett p-värde mindre
än alpha-nivån, detta är även fallet vid användande av många andra post-hoc test. Multipla
gämförelser ökar vår risk att begå ett typ 1 fel, dvs. anta H1 när vi inte ska det, men
konservativa post-hoc test kan resultara i att vi istället begår ett typ 2 fel och antar H0 när detta
inte är lämpligt. Det gäller alltså att hitta en balans mellan dessa risker och för att kompensera
för detta behöver vi öka vår studies statistiska power genom att redan i designen ta med
korrigeringen i beaktning och t.ex. ha med fler deltagare eller mätningar och ha mer kraftfulla
manipulationer. På så sätt ger vi vår effekt bättre förutsättningar att “bryta igenom” trots
korrigeringen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly