Statistisk analys av data Flashcards
(104 cards)
Vilka 3 steg måste göras innan dataanalys?
- Lär känna datan
- Sammanfatta data
- Bekräfta vad datan stödjer / avslöjar
Lär känna datan
Första steget i dataanalysen
Fastställa om datan är meningsfull
T.ex använda stam - blad- diagram
Undersöka outliers
Sammanfatta datan
2 steget i dataanalysen
Sätta enkla siffror på våra datapunkter
Bekräfta vad datan stödjer / avslöjar
Formella metoder för att testa hypoteser och dra slutsatser.
Gör t.ex genom SPSS
Stem-and-leaf - diagram
Ett sätt att visa tal i en lista genom att dela upp dem i “stam” (t.ex. tiotal) och “blad” (t.ex. ental) för att lättare se fördelningen av data.
Bimodal distribution
En bimodal fördelning är ett diagram eller en graf där det finns två toppar. Det betyder att det finns två värden eller områden som är vanligast i datan – alltså två “vanliga” grupper
Outliers (extremvärden)
Outliers är värden som ligger långt ifrån de andra i en datamängd. De sticker ut och kan påverka medelvärdet mycket
Variabilitet
Variabilitet betyder hur mycket värden i en datamängd skiljer sig åt.
Det visar alltså hur spridda eller ojämna observationerna är
Hög variabilitet = stor spridning
Låg variabilitet = värdena ligger nära varandra
Boxplot
Ett sätt att få en bild över datorn speciellt om den har många datapunkter
- Median - strecket i mitten av lådan
- Lådan innehåller hälften av datan
- Strecken visar spridningen av datapunkterna
Boxplotdefinitionen
Ligger outliers utanför intervallet, då sollas de bort
Kvartiler
Ett sätt att dela upp data i fyra lika stora delar för att bättre förstå hur värdena i en datamängd fördelar sig.
Används i boxplot
Kvartil 1 (Q1)
25% av datan är mindre än detta värdet
Kvartil 2 (Q2)
Medianen - 50%
Det mittersta värdet i datamängden
50% av alla värden är mindre eller lika med medianen
Kvartil 3 (Q3)
75% av datan är mindre än detta värdet
3 fjärdedelar av datan
IQR (Interquartile Range)
Skillnaden mellan Q1 och Q3
Förklarar hur utspridda Q2 är
Vad används IQR till?
För att hitta outliers
Beskriver också variation i datan utan påverkan av outliers
Central tendency
Ett värde som sammanfattar hela datamängden - ett centralt värde
Vilka är de vanligaste central tendency
Medelvärde - summan av alla värden delat med antal värden
Median - Det mittersta värdet som förekommer när datan är placerad i storleksordning
Typvärde - värdet som förkommer flest gånger i datan
I vilket fall är medelvärdet bra att använda?
Det ger en ide om den genomsnittliga nivån av datan då den sammanställer alla värden i datan
I vilket fall är medianen bra att använda?
När datan består av mycket outliers kan man ändå få ett representativt värde genom att plocka ut värdet i mitten
I vilket fall är typvärdet bra att använda?
Bra när man jobbar med kategorisk data och vill veta vad som förkommer oftast
Intervall (Range)
Största värdet - minsta värdet
Enkel bild av spridningen
Påverkas mycket av outliers
Standardavvikelse
Visar i genomsnitt hur mycket varje data punkt avviker från medelvärdet
Desto större SD, desto mer utspridd data
Hur beräknas SD?
- Varje datapunkt minus medelvärdet
- Kvadera skillnaden så allt blir positivt
- Ta medelvärdet av de kvaderade skillnaderna = variansen
- Roten ur variansen = standardavvikelse