Statistisk analys av data Flashcards

(104 cards)

1
Q

Vilka 3 steg måste göras innan dataanalys?

A
  1. Lär känna datan
  2. Sammanfatta data
  3. Bekräfta vad datan stödjer / avslöjar
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Lär känna datan

A

Första steget i dataanalysen
Fastställa om datan är meningsfull
T.ex använda stam - blad- diagram
Undersöka outliers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Sammanfatta datan

A

2 steget i dataanalysen
Sätta enkla siffror på våra datapunkter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Bekräfta vad datan stödjer / avslöjar

A

Formella metoder för att testa hypoteser och dra slutsatser.
Gör t.ex genom SPSS

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Stem-and-leaf - diagram

A

Ett sätt att visa tal i en lista genom att dela upp dem i “stam” (t.ex. tiotal) och “blad” (t.ex. ental) för att lättare se fördelningen av data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Bimodal distribution

A

En bimodal fördelning är ett diagram eller en graf där det finns två toppar. Det betyder att det finns två värden eller områden som är vanligast i datan – alltså två “vanliga” grupper

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Outliers (extremvärden)

A

Outliers är värden som ligger långt ifrån de andra i en datamängd. De sticker ut och kan påverka medelvärdet mycket

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Variabilitet

A

Variabilitet betyder hur mycket värden i en datamängd skiljer sig åt.
Det visar alltså hur spridda eller ojämna observationerna är
Hög variabilitet = stor spridning
Låg variabilitet = värdena ligger nära varandra

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Boxplot

A

Ett sätt att få en bild över datorn speciellt om den har många datapunkter
- Median - strecket i mitten av lådan
- Lådan innehåller hälften av datan
- Strecken visar spridningen av datapunkterna

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Boxplotdefinitionen

A

Ligger outliers utanför intervallet, då sollas de bort

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Kvartiler

A

Ett sätt att dela upp data i fyra lika stora delar för att bättre förstå hur värdena i en datamängd fördelar sig.
Används i boxplot

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Kvartil 1 (Q1)

A

25% av datan är mindre än detta värdet

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Kvartil 2 (Q2)

A

Medianen - 50%
Det mittersta värdet i datamängden
50% av alla värden är mindre eller lika med medianen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Kvartil 3 (Q3)

A

75% av datan är mindre än detta värdet
3 fjärdedelar av datan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

IQR (Interquartile Range)

A

Skillnaden mellan Q1 och Q3
Förklarar hur utspridda Q2 är

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Vad används IQR till?

A

För att hitta outliers
Beskriver också variation i datan utan påverkan av outliers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Central tendency

A

Ett värde som sammanfattar hela datamängden - ett centralt värde

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Vilka är de vanligaste central tendency

A

Medelvärde - summan av alla värden delat med antal värden
Median - Det mittersta värdet som förekommer när datan är placerad i storleksordning
Typvärde - värdet som förkommer flest gånger i datan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

I vilket fall är medelvärdet bra att använda?

A

Det ger en ide om den genomsnittliga nivån av datan då den sammanställer alla värden i datan

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

I vilket fall är medianen bra att använda?

A

När datan består av mycket outliers kan man ändå få ett representativt värde genom att plocka ut värdet i mitten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

I vilket fall är typvärdet bra att använda?

A

Bra när man jobbar med kategorisk data och vill veta vad som förkommer oftast

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Intervall (Range)

A

Största värdet - minsta värdet
Enkel bild av spridningen
Påverkas mycket av outliers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Standardavvikelse

A

Visar i genomsnitt hur mycket varje data punkt avviker från medelvärdet
Desto större SD, desto mer utspridd data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Hur beräknas SD?

A
  1. Varje datapunkt minus medelvärdet
  2. Kvadera skillnaden så allt blir positivt
  3. Ta medelvärdet av de kvaderade skillnaderna = variansen
  4. Roten ur variansen = standardavvikelse
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Varians
Spridningen av datan Medelvärdet från de kvaderade skillnaderna mellan medelvärdet och värdena i datan varians = standardavvikelse ^2
26
Standard fel ( standard error)
Mäter hur mycket medelvärdet från ett stickprov kan förväntas variera om man skulle ta flera olika stickprov från en population Mått på osäkerheten i det beräknade medelvärdet
27
Vad är hypotesprövning?
En metod för att avgöra om en effekt finns i data genom att testa nollhypotesen.
28
Vad är nollhypotesen (H₀)?
Att den oberoende variabeln inte har någon effekt.
29
Vad är alternativ hypotes (H₁)?
Att den oberoende variabeln har en effekt.
30
Vad är ett typ I-fel?
Att förkasta en sann nollhypotes (falskt positivt). Typ 1 fel - som att döma en oskyldig för ett brott
31
Vad är ett typ II-fel?
Att inte förkasta en falsk nollhypotes (falskt negativt). Typ 2 fel - som att missa att döma en som faktiskt är skyldig
32
Vad betyder α (alfa)?
Sannolikheten att begå ett typ I-fel När vi sätter signifikansnivån till t.ex. α = 0.05, betyder det: Vi accepterar att det finns 5 % risk att dra fel slutsats
33
Vad betyder β (beta)?
Sannolikheten att begå ett typ II-fel. Om vi har ett β = 0.20, betyder det: Vi har 20 % risk att missa en verklig effekt
34
Vad är power i statistik?
Sannolikheten att upptäcka en verklig effekt (1 - β).
35
Hur ökar man power?
Genom större stickprov, högre effektstorlek eller högre α.
36
Vad är ett tvåsidigt/two-tailed test?
Testar om ett medelvärde är antingen större eller mindre än ett annat, utan är förväntad riktning från början
37
Vad är ett beroende t-test?
Jämföra inom samma grupp eller persons resultat. Exempel: Elever gör ett test före och efter träning → jämför deras egna resultat.
38
Vad är ett oberoende t-test?
Test för att jämföra två gruppers medelvärden. Exempelvis: Grupp A tränar med proteindryck, Grupp B utan→ Jämför gruppernas medelvärden
39
Vad är och vad testar ANOVA?
Om det finns en skillnad mellan fler än två gruppers medelvärden.
40
Vad är eta-squared (η²)?
Ett mått på effektstorlek vid ANOVA.
41
Vad betyder sfäricitet i ANOVA?
Lika varians av skillnader mellan betingelser. mått på hur stabila skillnaderna är över tid eller betingelser
42
Vad händer om sfäricitet saknas?
Det kan ge felaktiga resultat i ANOVA.
43
Vad innebär ett statistiskt signifikant resultat?
Att resultatet är osannolikt om endast slumpen styr.
44
När används ett ensidigt/one-tailed test?
När vi bara vill testa skillnad i en riktning. Exempel: Vi vill testa om en medicin HÖJER blodtryck. Vi kollar alltså inte om medicinen har någon annan effekt
45
Vad betyder att hypotesprövning är induktiv?
Man drar slutsatser från begränsad data.
46
Vad betyder att hypotesprövning är indirekt?
Man antar att inga skillnader finns och försöker förkasta det antagandet.
47
Vad är första steget i hypotesprövning?
Forma en nollhypotes att den oberoende variabeln inte har någon effekt.
48
Vad är andra steget i hypotesprövning?
Beräkna sannolikheten att skillnader i data hade uppstått om nollhypotesen är sann.
49
Independent t-test Independent groups design
Jämför två oberoende grupper Testar om det finns en signifikant skillnad i medelvärdena
50
Antaganden för independent t-test
1. Oberoende grupper 2. Beroende variabel är kontinuerlig 3. Observationer är oberoende (dvs. varje individ mäts bara en gång). 4. Inga extrema outliers 5. Normalfördelning i varje grupp 6. Liknande varians i grupperna
51
Hur mäts effektstorleken i ett independent t-test
Cohen´s d 0.2 - liten 0.5 - mellan 0.8 - stor
52
Frihetsgrader (df)
Kopplat till hur många observationer vi har Hur många värden i datan som är fria att variera, innan ett visst statistiskt mått blir bestämt - Alltså behöver vi veta hur mycket variation som kan finnas i datan Fler frihetsgrader, mer tillförlitligt blir testet
53
Pooled variance
2 gruppers varianser ihop och viktade för en gemensam uppskattning av variansen Används för att räkna ut standardfelet
54
Standard Error of the Mean (SEM)
Visar hur osäkert vårt stickprovsmedelvärde är i uppskattning till populationensmedelvärde
55
Two-sided p
Kontrollerar om det finns någon skillnaden mellan två grupper oavsett riktning I vanligt p-värde undersöker man bara större eller mindre men här undersöker man båda samtligt
56
standard deviation (SD) - standardavvikelsen
Mått på hur mycket värdena i datamängden sprider sig från medelvärdet
57
One way ANOVA - Analysis of variance
Används för att jämföra 2 eller fler oberoende grupper på samma beroende variabel
58
Antaganden för one way ANOVA Independent groups design
1. Oberoende observationer 2. Oberoende variabel är kategorisk 3. Beroende variabel är kontinuerlig 4.Normalfördelad data i varje grupp 5. Homogenitet i varians
59
F - test
Används som första steg för att se om det finns en signifikant skillnad mellan fler än två grupper Så man kan göra nästa steg och genomföra parvisa jämförelser mellan alla grupper (post-hoc-test)
60
post-hoc-test
Parvisa jämförelser mellan grupperna för att ta reda på exakt mellan vilka grupper skillnaderna finns Steget efter f-testet
61
Cohen´s f
Måttet på skillnaden mellan grupperna Är effekten praktiskt meningsfull 0.1 liten 0.25 medel 0.4 stor
62
Typ I fel
Får en signifikant effekt men den är falsk Förkastar nollhypotesen, fast den är sann
63
Typ II fel
Missar en verklig effekt Behåller nollhypotesen, fast den är falsk
64
Eta Square (η²)?
65
Vad kallas inomgruppsdesign också?
Repeated measures design eller within-subject design.
66
När används beroende t-test?
När man jämför två betingelser i en inomgruppsdesign.
67
Varför kallas det "paravist" t-test?
För att mätvärdena är ihopparade från två nivåer i samma deltagare.
68
Vad är en difference score?
Skillnaden mellan två betingelser, t.ex. Xa - Xb
69
Vilka är två viktiga antaganden för beroende t-test?
1) Två relaterade datamängder, 2) Beroende variabeln är kontinuerlig.
70
Vad är effektstorlek för beroende grupper?
d = Mdiff / SDdiff
71
Vad testar ett inomgrupps-ANOVA?
Om det finns skillnader mellan tre eller fler relaterade betingelser
72
Vad krävs innan man går vidare i inomgrupps-ANOVA?
Ett signifikant övergripande F-test.
73
Vad är sfäricitet?
Lika varians mellan skillnaderna i alla betingelsekombinationer.
74
Varför är sfäricitet viktigt?
För att kunna använda standard-ANOVA-beräkningar korrekt.
75
Vad är ett exempel på motbalansering?
Blockrandomisering eller ABBA-design.
76
Vad är partial eta squared (η²p)?
Ett mått på effektstorlek i ANOVA som visar hur stor andel av variationen som förklaras av den oberoende variabeln.
77
Vad betyder ett högt värde på partial eta squared (η²p)?
Att den oberoende variabeln har stor inverkan på den beroende variabeln.
78
Vilka riktlinjer finns för tolkning av partial eta squared?
0.01 = liten effekt 0.06 = medelstor effekt 0.14 = stor effekt (OBS: dessa är för partial eta², inte exakt samma som klassisk eta²)
79
Mixad ANOVA
Innehåller minst en inomgruppsfaktor och en mellangruppsfaktor Komplex design
80
Tests of Within-Subjects Effects
Visar: Effekten av inomgruppsfaktorn interaktionen mellan inomgrupps- och mellangruppsfaktorn Genom: F-värdet Df signifikans eta^2
81
Tests of Between-Subjects Effects
Visar: Effekten av mellangruppsfaktorn Genom: F-värdet Signifikans Effektstorlek
82
Mauchly's Test of Sphericity
Mäter skillanderna mellan betingelserna i inomgruppsfaktorn. Är variansen lika har vi sphericity Genommförs för att kunna få ett korrekt F-värde
83
Interaktionseffekten i en mixad ANOVA är signifikant, vad gör du?
Undersöker de enkla huvudeffkterna hos de olika betingelserna
84
Interaktionseffkten är inte signifikant i en mixad ANOVA, vad gör du?
Undersöker huvudeffekten direkt
85
Vad händer om vi inte har sphericity?
F-värdet blir opålitligt - riskerar type I fel - felaktigt signifikanta resultat
86
Chi-square test
Underösker om det finns ett samband mellan två kategoriska variabler (kön, ja/nej) Exempel: Har män och kvinnor olika preferenser för sporttyp (tävlingsinriktad/icke-tävlingsinriktad)? Finns det ett samband mellan att ha husdjur och tro att djur har medvetande?
87
Chi-square test steg 1
Räknar hur många från samma kategori som hamnar i varje kombination
88
Chi-square test steg 2
Räknar ut förväntat värde, alltså värdet som skulle vara om det inte fanns någon skillnad - det förväntade värdet
89
Chi-square test steg 3
Räknar ut skillnaden mellen observationer och det förväntade värderna Gör detta i varje cell, summerar alla värden Tar sedan p-värdet ur de summerade värdet och undersöker om de finns en signifikans
90
Korstabell (Kontingenstabell)
Verktyg som används för att visa hur frekvensen (antalet) fördelar sig över olika kategorier
91
Phi
Används i en 2x2 tabell (alltså två kategorier per variabel) för att mäta styrkan på sambandet mellan kategorierna
92
Phi tolkningsskala
Ett värde på 0 eller nära innebär inget samband mellan kategorierna Värdet nära 1 eller -1 indikerar på ett samband Exakt värde på 1 eller -1 är ett perfekt samband
93
Cramér’s V
Används för att mäta sambandet mellan kategoriska variabler när tabellen är större än 2x2 Ger ett mått på styrkan i sambandet
94
Tolkningsskala för Cramér’s V
0.0–0.1: Svagt samband. 0.1–0.3: Måttligt samband. 0.3–0.5: Starkare samband. 0.5 och högre: Mycket starkt samband
95
Vad testar Icke-parametriska test?
Median Ordinal data
96
När används icke-parametriska test?
När vanligt t-test och ANOVA inte kan användas på grund av - datan är inte normalfördelad - det är ordinal data - det finns betydande outliers - det är små stickprov som tagits
97
Normalfördelning
Symmetrisk, om man skulle dela upp data i två lika stora delar vid medelvärdet (vänster och höger), så kommer de två delarna att se likadana ut. Innebär att de flesta värdena är nära medelvärdet, och när man rör sig längre bort från medelvärdet blir de mindre troliga.
98
Mann-Whitney U-test
Alternativ till t-test när datan inte är normalfördelad
99
Hur fungerar mann-Whitney U-test
Jämför två oberoende grupper när data är ordinal (kan rangordnas) Värden rangordnas och jämförs summan av rangordningen av varje grupp
100
U-värdet
Räknas ut genom jämförelse av två gruppers rangordnade värden.
101
Hur avgör man om U-värdet är signifikant?
Jämför värdet med värdarna från U-tabellen eller använd p-värdet för en jämförelse
102
Wilcoxon Signed-Rank Test
Används när du har två beroende grupper eller reapted measures med värden utan normalfördelning
103
Hur beräknar man Wilcoxon Signed-Rank Test
Jämför skillnaden mellan t.ex de olika betingelserna och rangordnar de sedan för att plocka ut medelvärdet och räkna sedan ut W-värdet
104