Statisktisk signifikans Flashcards
(9 cards)
Det finns fördelar med signifikanstest men även nackdelar. Ta upp minst en nackdel och
reflektera över minst en fördel. 2p
En nackdel med signifikanstestning där man jämör p-värde med en förutbestämd alfanivå är
att p-värdet trots allt visar en gradient av signifikans. Skillnaden mellan p =
,049 och p =
,051
är närmast obefintlig, men den ena kan komma att rapporteras som signifikant och den andra
inte. Det finns också en viss godycklighet för vald alfanivå, som också skiljer åt mellan olika
vetenskapliga dicipliner. Varför just 5%? Varför inte 3%? Man skulle kunna argumentera för
en stramare alfa-nivå, och förespråka mer ressurser till forskning för att få högre statistisk
power generellt. Men det skulle förstås bli en ekonomisk fråga. Vilket ändå säger en del om
godtyckligheten. I en perfekt värld skulle forskare ha ressurser för att lättare få ännu lägre p-
värden.
En fördel med signifikanstestning är att det leder till en jämförbarhet i rapportering av resultat.
Det blir särskilt lätt att raportera i en abstrakt, vilket minskar risken att populärvetenskap och
allmänheten misstolkar resultat när de skumläser.
Problematisera kring användandet av gränsvärdet p < 0,05 2pProblematisera kring användandet
av gränsvärdet p < 0,05 (2p)
P-värdet 0,05 är ett godtyckligt nummer. Det säger egentligen ingenting om effekten av den
skillnad som vi undersöker. Med detta menas att vi skulle kunna säga att vi hittat en statistikt signfikant skillnad mellan två variabler eftersom vi fått ett p-värde på 0,05, men effektstorleken är väldigt liten (ex. d= 0.15), vilket då gör att vi egentligen bör ifrågasätta signifikansen av den manipulation vi gjort. Det kan diskuteras om det då sker ett typ 1-fel om vi endast ser till p-värdet i en studie.Ser vi att vi får ett p-värde på 0,05 kanske vi felaktigt förkastar nollhypotesen om vi inte tar i beaktning alla delar av den statistik vi får. Ett ytterligare problem är också att vi hårddrar en gräns vid 0.05. Det är problematiskt för att det skulle kunna innebära att vi behåller nollhypotesen om vi skulle få en effekt vid 0.06 men inte vid
0,05, även om våra fynd kanske är väldigt relevanta och intressanta för den forskning vi gör. På vilket sätt är 0,05 egentligen så mycket bättre än 0,06? Det finns en möjlighet att vi då gör
ett typ 2 fel, att vi felaktigt behåller nollhypotesen trots att det kanske finns en signfikant skillnad, men att vi exempelvis inte har tillräckligt stor statistisk power.
Vid nollhypotes-signfikanstestning beräknas ett p-värde under antagandet att nollhypotesen är
sann. Oftast kan man se p-värdet definierat som sannolikheten för resultatet om nollhypotesen
vore sann. Vad är det som är fel i denna definition och hur ska en korrekt definition beskrivas? 2p
P-värdet brukar ibland felaktigt definieras som sannolikheten för resultatet om nollhypotesen
vore sann. P-värdet säger oss dock inget om denna sannolikhet. Den korrekta definitionen av
p-värdet är sannolikheten att erhålla ett resultat som är minst så extremt som det faktiskt
erhållna resultatet, givet att nollhypotesen är sann.
P-värdet 0.04 är mkt bättre än p-värdet 0.052 säger en stöddig forskare. Upplys personen om att
det kanske inte är så enkelt även om hen har rätt i sak. (2 p).
.05 är ofta den alfanivå som används för att avgöra om ett resultat är signifikant eller ej.
Forskarvärlden har alltså kommit överrens om att vi är villiga att acceptera en 5 procents risk
för att vi begår ett typ I-fel, alltså felaktigt förkastar nollhypotesen. Men att vi drar en så tydlig
gräns för vad som anses vara signifkant eller inte kan vara problematiskt. Hur stor skillnad är
det egentligen på .04 och .052? Denna gränsdragning kan anses vara mycket godtycklig. Att
endast kolla på om ett resultat är signifikant eller ej säger inte heller speciellt mycket om
resultatets betydelse i praktiken. Har vi ett tillräckligt stort stickprov kommer resultatet att bli
signifikant även om effekten är mycket liten. Vi behöver alltså även kolla på studiens
effektstolek och power, och inte låsa oss vid ett signifikant resultat. Det här är generellt något
som blivit ett problem inom psykologin som forskningsområde. Det finns en tendens att
endast studier med signifikanta resultat publiceras. Och det är t.ex. inte heller alltid som
studiernas power publiceras. Vi ser idag en replikationskris inom psykologin. Endast 50 % av
alla studier går att replikera. Publikationsbias skulle alltså kunna vara en anledning till att det
blivit på detta vis. Att endast studier med p < .05 publiceras kan bidra till en förvrängd bild av
forskningsområdet, om inte annat relavant info också tas i beakting.
Vad är fördelarna och nackdelarna med att korrigera en analys för multipla jämförelser? 2p
Fördelarna är att man undviker massignifkansproblemet. Ju fler gånger man gör en multipel
jämförelse på sin data desto mer kommer alfavärdet att öka. Gör man en jämförelse så är
alfanivån på 0,05. Gör man två jämförelser så är alfanivån plötsligt mycket större. Man kan
korrigera alfavärdet genom t.ex. en bonferronikorrigering. Då delar man alfanivån på andelen
jämförelser. Detta gör att man undviker att höja risken för typ-I-fel för varje parvisa jämförelse
man gör.
Nackdelarna är att man vid för många jämförelser kan “döda” den effekt som finns i datan.
Genom att sänka alfanivån minskar man alltså sannolikheten att hitta en effekt. Man kan lösa
detta genom att antingen använda ett mindre konservativt eftertest (dock mer risk för typ-Ifel) eller genom att öka sin power i studien. För att öka power kan man t.ex. använda en
inomgruppsdesign, starkare manipulation eller större stickprov
Det är trist att ha fel. Men hur ska vi veta om vi har ett resultat att lita på? Beskriv tre nackdelar
med att endast förlita sig på p-värden (statistisk signifikans). Om du kommer på någon fördel får
du gärna skriva om det. (2 p)
- P-värdet har en godtycklig gräns. Ett p = 0,04 brukar ses som bättre än p = 0,06. Denna
hårda gräns kan medföra att vissa effekter som är på gränsen går förlorade. - P-värdet misstolkas ofta och kan bidra till p-hacking. Eftersom p < 0,05 är så
eftersträvansvärt så kan det medföra att man gör fler multipla jämförelser i sin data utan att
korrigera för alfanivån. I media kan detta även lätt misstolkas som att man har funnit en
signifkant effekt, speciellt om det finns en brist på förståelse för massignifkansproblemet. Pvärdet säger heller inget som storleken på en effekt. - P-värdet erbjuder inte möjligheten att vikta H1 mot H2. Man kan alltså inte i en studie
jämföra sannolikheten för resultatet givet H1 eller H2 med p-värdet.
Definiera p-värdet (1p)
P-värdet utgör den risk man accepterar kring att begå ett typ 1-fel, att förkasta en sann
nollhypotes. P-värdet definieras som “sannolikheten att erhålla vårt resultat och alla extremare
resultat givet att nollhypotesen är sann.” Så p-värdet anger inte bara sannolikheten för det
resultat som har erhållits givet att nollhypotesen är sann utan även extremare resultat (som
antas vara i alternativhypotesens riktning även om p-värdet inte säger något om
alternativhypotesen).
Ge exempel på tre problematiska aspekter av p-värdet (3p).
P-värdet utgör en godtycklig gräns kring huruvida ett resultat kan anses vara statistiskt
signifikant. Det är egentligen ingenting som säger att p=0,052 är avsevärt mycket sämre än
p=0,04. Dock kan denna godtyckliga gräns innebära att beslut fattas utefter liknande relativt
små skillnader. Sedan är det vanligt att p-värdet misstolkas, t.ex. i media, det är t.ex. lätt att
tro att p-värdet uttalar sig om sannolikheten för nollhypotesen, vilket det inte gör utan p-värdet
anger “sannolikheten att erhålla vårt resultat och alla extremare resultat givet att nollhypotesen
är sann.” Så p-värdet utalar sig inte om sannolikheten att nollhypotesen är sann, och det
berättar inte heller om sannolikheten för alternativhypotesen. Detta är en anledning att flera
börjar förespråka ett användande av Bayesfaktorn, som bygger på betingade sannolikheter
och kan jämföra sannolikheten för resultatet givet alternativhypotesen jämfört med
nollhypotesen. Slutligen så betyder inte ett statistiskt signifikant resultat i sig något. pvärdet är inte ett effektmått (även fast det kan misstolkas som det) och med ett tillräckligt stort
urval kan vad som helst bli signifikant.
Ni får syn på detta resultat: “The effect was almost significant, p=.06”. Problematisera kring pvärden och ge minst två nackdelar. Vad är ett p-värde föresten? 2 p
Ett p-värde är en output från ett inferenstest som ger oss ett värde mellan 0 och 1 som vi
sedan jämför mot ett satt alpha-värde. Om p-värdet understiger det bestämda alpha-värdet
kan vårt resultat eller effekt antas vara signifikant och i sin tur användas som en fingervisning
kring huruvida det är lämpligt att förkasta eller behålla nollhypotesen.
Ett av de större problemen med att använda p-värde som det enda måttet på signifikans går
att sätta i relation till exemplet i frågan. P-värdet är konservativt och binärt i det att du får
antingen ett signifikant resultat eller inte och det finns inget spelrum där emellan, det finns
alltså i de flesta forskningssammanhang inget “nästan signifikant” resultat. Detta i ljuset av att
alpha-nivån är en, om allmänt accepterad och etablerad, godtycklig gräns väcker frågor kring
funktion och konsekvens av den hårda cut-offen. Säger ett resultat på p=.06 så pass
avsevärt mindre om ett studerat fenomen att det inte ska anses godtagbart i dagens
forskning? På samma sätt blir värden under .05 ofta automatiskt ansedda som av hög
relevans. Detta leder oss även in på problemet med att studier visat att förvirringen kring
betydlesen av p-värdet är stor och att många såväl lekmän som akademiker har en felaktig
bild av vad p-värdet innebär.
Ett problem som även uppkommer är medveten eller omedveten p-hacking, där tillexempel
addering av deltagare i efterhand eller multipla analyser använts för att få fram ett signifikant
p-värde och sedan inte rapporterats korrekt. Det har länge varit fallet att framförallt eller
enbart studier med signifikanta resultat publicerats, vilket främjat dessa tillvägagångssätt
men även förminskat relevansen av att även rapportera icke-signifikanta resultat för att ge en
representativ bild av populationen, något man tror kan vara en av de bidragande faktorerna till
replikeringskrisen. Igen, om vi ställer det mot exemplet i frågan innebär det att mycket
forskning som genomförts och som skulle kunna vara relevant och som är argumentativt
“nästan signifikanta” inte blir publicerade. Det ger en missvisande bild och är även negativt för
forskningen eftersom att dessa studier i relation till andra, t.ex. genom meta-analys, skulle
kunna vara informativa för en helhetsuppfattning kring det studerade. Det är även relevant att
fundera kring om ett signifikant resultat med väldigt liten effekt är mer relevant än ett ickesignifikant eller “nästan signifikant” med stor effekt.
Sist men inte minst i både relation till publikationsbias, missförstånd av innebörd och effekt så
är inte p-värdet resistent mot påverkan av moment i analysen som inte nödvändigtvis gör att
studien säger mer eller mindre om ett subjekt. Flera steg inom allt ifrån datainsamling (fler
deltagare), som analys (multipla jämförelser eller justering för multipla jämförelser) och
rapportering (utelämnande av genomförda analyser, post-hoc hypoteser) kan göra att pvärdet får oss att begå typ 1 och typ 2 fel.