FORSKNINGSMETODIK STATISTIK Flashcards
(34 cards)
Vad är deskriptiv statistik?
sammanfattande värden centralmått ex aritmetiskt medelvärde, typvärde, median, z-värden, korrelation, spridningsmått (variationsbredd, perceptiler/kvartiler, standardavvikelse/varians), grafisk redovisning av variablerna ex barplot (frekvensgraf), histogram (frekvensgraf), boxplot, scatterplot
- används för att beskriva variablerna i ett stickprov
- ska redovisas även om målet är inferentiell statistik
- viktigt att få en bild av stickprovet (finns det spridning? uppenbara mätfel? skillnader i grupper?)
Vad är inferentiell statistik?
statistiska test, hypotestestning, p-värden, konfidensintervall
- dra slutsatser om populationen utifrån stickprovet
Vad är en parameter?
ett “sant” värde i populationen, ex sanna medelvärdet för alla studenter i Sverige (praktiskt “omöjligt” att veta ett sant värde pga kan inte testa på alla invånare + ovidkommande variaber)
Vad menas med estimat?
värdet vi observerar i stickprovet ex medelvärde för deltagare (värdet vi estimerar i stickprovet)
Vad är ett spridningsmått?
mäter hur utspridda värdena på en variabel är
variationsbredd: skillnad mellan högsta och lägsta värdet
percentiler/kvartiler: ett sätt att dela upp data i en serie i 4 lika stora delar, hjälper oss att se hur data är fördelad
standardavvikelse/varians: mått på genomsnittlig variation
- standardavvikelse beskriver hur mycket data i ett dataset varierar kring medelvärdet, desto högre standardavvikelse ju mer utspridda värden. Låg= desto närmare är det medelvärdet
- relevant pga: kan dra mer detaljerade slutsatser om data
vad innebär att standardisera?
omvandla data så de har ett gemensamt medelvärde och gemensam standardavvikelse.
Relevant pga: gör det möjligt att jämföra olika data på samma skala (gör dock inte data normalfördelad om den inte var det från början???
Vad menas med z-värden?
konverterar till samma enhet, mått som beskriver hur långt ifrån medelvärdet en observation befinner sig i data uttryckt i antal standardavvikelser. Ett z-värde på 0 = samma som medelvärdet, z-värde på -1 = ligger 1 standardavvikelse under medelvärdet
- används för att standardisera värden och jämföra dem även om det är variabler med olika skalor/enheter
- ju större negativt/positivt z-värde ju längre är observationen från medelvärdet
- det är 95% chans att få ett z-värde mellan -&+ 1.96
- används pga lättare att jämföra olika observationer
Vad innebär normalfördelning?
vanlig fördelning som beskriver hur data är fördelat runt ett medelvärde, flesta observationer ligger kring medelvärdet och färre länge ifrån. symmetrisk klockformad kurva
- medelvärde, median och typvärde är samma i en normalfördelning
- avståndet från medelvärdet mäts i standardavvikelser ca 68% av värdena ligger inom en standardavvikelse från medelvärde och 95% inom två standardavvikelser (chattis)
- relevant pga: gör det möjligt att använda bra statistiska verktyg ex hypotesprövning, konfidensintervall eftersom det bygger på att data är normalfördelade, en grundsten i statistik för att dra säkra slutsatser om data
Vad är korrelation?
mäter hur 2 variabler är relaterade till varandra, ett mått som beskriver styrka och riktning av sambandet mellan dem.
- relevant pga: grundläggande verktyg i sttistik, identifierar och mäter samband mellan variabler, kan ge värdefulla insikter, förutsägelser, kan vara utgångspunkt för ytterligare forskningsfråga
Pearsons produktmomentkorrelationskoefficient r?
mäter styrkan på linjära samband mellan variabler, går från -1 till +1. 0 = inget samband. Mäter endast linjära samband, påverkas mycket av extremvärde, kräver tillräckligt med variation i båda variabler (parametriskt test)
Spearmans rangkorrelationskoefficient rs?
mäter sambandet mellan två variabler baserat på deras rangordning, används när data inte är normalfördelad (alltså inte uppfyller kraven för pearsons r), påverkas mindre av extremvärden, kan upptäcka både linjära och icke linjära samband. (icke-parametriskt test)
Vad är regression?
undersöker hur en variabel påverkas av en eller fler andra variabler och används för att predicera framtida värden. Linjär regression är den enklaste formen där sambandet mellan variablerna visas med en rak linje.
- Ex: undersöker sambandet mellan antalet timmar man studerar och provresultat, kan vi med hjälp av regression försöka förutsäga ditt resultat baserat på hur många timmar du studerar. (beror på pearons r och därmed också påverkad av extremvärden)
- Regression hjälper oss att analysera och förutsäga hur en variabel påverkas av andra variabler
Vad menas med väntevärdesriktigt?
en väntevärdesriktig skattning ger i genomsnitt “rätt” värde av en parameter och är fri från systematiska fel.
- Ex: uppskatta medelåldern i Uppsala, tar stickprov på 100 pers och beräknar genomsnittsåldern, väntevärdesriktighet: om stickprovsmedelvärdet i genomsnitt stämmer överrens med sanna medelåldern i stan är metoden väntevärdesriktig. Icke-väntevärdesriktig: om metoden systematistk ger en felaktig ålder (obs ex från chat)
Vad är statistisk signifikans?
ger data stöd för att förkasta nollhypotesen?
mäts ofta med ett p-värde som anger sannolikheten att få det resultat vi fått, eller ett mer avvikande och extremt utfall - anger sannolikheten för resultatet om nollhypotesen är “sann”. Om p-värde < 0,05 förkastas H0.
Omformulera?
Vad är alfanivå?
förutbestämd gräns för statistisk signifikans i ett test ofta 0,05. Om man höjer alfanivå = kan det leda till mer risk för typ I-fel
Vad menas med samplingfördelning?
Samplingfördelning: är fördelningen av ett statistiskt mått (ex medelvärde) baserat på många olika urval stickprov från samma population, den beskriver hur detta mått varierar mellan olika stickprov som man drar från populationen.
- Ex tar många stickprov med 50 pers från en population och beräknar medelvärdet för varje stickprov - medelvärdena bildar en samplingfördening
relevant pga: kan uppskatta hur pålitligt stickprovet är (ju mindre standardfel desto mer sannolikt att stickprovsmedelvärdet är nära populationens medelvärde). Hjälper oss förstå variation, möjliggör att dra slutsatser, beräkna KI
Vad är standardfelet SE?
standardavvikelser i samplingfördelningen. stort SE = tyder på mer osäkerhet.
- relevant pga: hjälper bedöma osäkerhet
- (standardavvikelse: enskilda observationer för variablerna vi mäter varierar
standardfel: enskilda estimat mellan stickprov varierar)
Vad säger stora talens lag?
desto större stickprov desto närmare kommer stickprovsmedelvärdet att vara till det sanna medelvärdet.
Vad säger centrala gränsvärdessatsen?
medelvärdet av ett tillräckligt stort stickprov liknar normalfördelning (oavsett hur populationen ser ut) vilket är en viktig förutsättning för att göra statistiska test
Vad är konfidensintervall?
95% konfidensintervall: om vi räknar ut 95% konfidensintervall i många olika stickprov kommer 95% av de intervallen att innehålla det sanna medelvärdet. “avgränsar” ett intervall där vi tror det sanna värdet för populationen ligger. visar den statistiska osäkerheten kring medelvärdena.
relevant pga: visar osäkerhet, kan användas för hypotestestning genom test av H0, ligger värde inom KI? Om utanför finns stöd för att förkasta H0 - förklara mer?
Vad menas med t-värde?
används istället för z-värden när vi ex skattar standardfelet med stickprovets standardavvikelse (Tdf= t-värde med en viss frihetsgrad) ett mått på skillnad mellan medelvärden i grupper, används i t-test
Vad är t-test? Oberoende + beroende?
testar om ett medelvärde skiljer sig från ett visst värde (ofta 0) används ofta för att testa om två medelvärden skiljer sig från varandra. testa skillnader mellan medelvärden ex m av en behandlingsgrupp vs kontrollgrupp.
- Oberoende t-test: används för att jämföra två olika grupper (mellangruppsdesign) ex jämför medelvärden mellan behandlingsgrupp och kontrollgrupp
- beroende t-test: används för att jämföra två olika mätningar inom samma grupp (inomgruppsdesign) (brukar ha högre power än oberoende t-test) ex jämför medelvärden mellan samma grupp före vs efter behandling
- relevant pga: möjliggör jämförelsen av skillnad mellan grupper vilket är centralt för mycket forskning, kan testa hypoteser, objektiv metod?
Vad är nollhypotestestning/hypotesprövning? Vad är en riktad/ensidig och oriktad/tvåsidig hypotes?
metod för att avgöra om det finns tillräckligt stöd i data för att förkasta nollhypotes. Hypotesprövning görs för att jämföra en skillnad mellan 2 medelvärden och se om det kan generaliseras till populationen från mätningar gjorda i stickprovsundersökningar, man vill se om skillnaden är signifikant skild från noll (ingen skillnad)
- Ensidig/riktad: man vill veta om en effekt i en riktning (ex medelvärdet är högre/lägre än 0) lägre kritisk gräns
- tvåsidig/oriktad: man vill veta om det finns en effekt (ex medelvärdet är inte 0, inget om riktning)
Vad är typ-I fel och typ-II fel?
- Typ-I fel: förkasta H0 trots att H0 gäller (sannolikheten att göra det = alfanivån)
- Typ-II fel: behålla H0 trots att H1 gäller (sannolikheten att göra det påverkas av stickprovsvstrlk, effektstrlk, felvarians, beroende mätningar)