inför omtentan Flashcards Preview

Statistik 2 (kognitiva processer 15 hp) > inför omtentan > Flashcards

Flashcards in inför omtentan Deck (42)
Loading flashcards...
1
Q

Datanivåer för variabler

A
  • *Nominaldata** - kategorier utan meningsfull rangordning (ex. yrke, kön)
  • Typvärde är ok - inte medelvärde/median
  • Matematiska operationer går inte
  • *Ordinaldata** - rangordnade kategorier utan meningsfulla avstånd (ex. placering i tävling, mående på en skala)
  • Typvärde och median är ok - ej medelvärde
  • Matematiska operationer går inte
  • *Intervalldata** - kvantitativ mätskala med lika stort avstånd mellan mätvärdena utan meningsfull nollpunkt (ex. grader Celsius, IQ)
  • Addition och subtraktion kan utföras
  • Medelvärde och median kan beräknas
  • *Kvotdata** - intervalldata med meningsfull nollpunkt (ex. inkomst, längd, vikt, ålder)
  • Alla matematiska operationer kan utföras
  • Medelvärde och median kan beräknas
2
Q

Deskriptiv statistik

A

Man tittar normaltsett på två typer av mått: centralmått och spridningsmått.

Centralmått:

  • Typvärde - det värde det finns flest av (kan användas på alla datanivåer)
  • Median - mittersta värdet/medelvärdet på de två mittersta
  • (Aritmetiskt) medelvärde (x bar) - summan av alla värden delat med antal värden

Spridningsmått:

  • Variationsbredd - skillnaden mellan det största och minsta värdet (påverkas av outliers)
  • Standardavvikelse - mäter “ungefär” hur stort avstånd det i genomsnitt är mellan en observation och medelvärdet (samma enhet som data)
  • *Varians** - standardavvikelse i kvadrat
3
Q

Hur vet jag att en variabel är normalfördelad? x4

A
  1. Inspektion av histogram - x - mätvärden, y - frekvens
  2. Typvärde, median och medelvärde är nästan likadana
  3. Ungefär lika många värden under som över medelvärdet
  4. “Test of normality” i statistikprogram - om det är signifikant kan man inte anta att populationen är normalfördelad.
4
Q

P-värde

A

Hur sannolikt det är att av en slump få en effekt, som är MINST lika stor som effekten i vårat stickprov givet att nollhypotesen är sann. Om det understiger alfa förkastas nollhypotesen. Värdet står för är sannolikheten att observera en DATA vi testat Inte att en hypotes eller teori stämmer.

5
Q

Typer av T-test

A
  • *One-samples T-test** - ett stickprovsmedelvärde (ex. jämföra med känt populationsmedelvärde)
  • Kan ett stickprov antas vara draget från en population med ett visst medelvärde?

ex: Kan ett känt stickprovsmedelvärde antas vara samma som pop.medelvärdet?

  • *Independent samples T-test** - oberoende mätningar (ex. två grupper)
  • Kan två stickprov antas vara dragna från populationer med samma medelvärde?
  • Förutsätter oberoende observationer

ex: tittar män och kvinnor i genomsnitt lika mycket på tv?

  • *Paired samples T-test** - beroende mätningar (ex. för och eftermätningar)
  • Kan två matchade stickprov antas ha samma medelvärde?
  • Inomindividsdesign eller matchade individer

ex: Kan femåringar antas gilla glass lika mycket som de gillar godis?

6
Q

Typ-1 fel och Typ-2 fel

A

Typ-1 fel (alfa) - vi förkastar nollhypotesen trots att den är sann.

nollhypotesen förkastas trots att ingen effekt existerar i populationen. Vi tror att en effekt existerar som i verkligheten inte finns. (bestäms innan och ligger oftast på 5%)

Typ-2 fel (beta) - vi behåller nollhypotesen trots att den är falsk.

nollhypotesen behålls trots att en effekt finns i populationen Vi missar en effekt som faktiskt finns.

7
Q

kovarians

A

Ett ostandardiserat mått på linjär association mellan två variabler. Man kan inte jämföra olika kovariansestimat med varandra då de kan anta vilka värden som helst, deras värde säger ingenting om styrka i korrelation.

8
Q

korrelation

A

Statistisk representation av ett linjärt samband mellan två kontinuerliga variabler

9
Q

Pearsons korrelationskoefficient

A
  • Vanligaste korrelationskoefficienten
  • Används för kontinuerliga variabler på intervall eller kvotnivå
  • Hittar den raka linjen mellan x och y som bäst överensstämmer med data (sammanfattar sambandet mellan de två variablerna)
  • Standardiserad korrelationskoefficient som alltid är mellan eller lika med -1 och 1
  • Fångar bara linjära samband och påverkas mycket av outliers.
  • För signifikanstestning är frihetsgrader n-2
10
Q

Kom ihåg vid Pearsons x3

A
  • Huruvida en signifikant r är intressant eller inte avgörs från fall till fall. En korrelation på 0.1 kan spela roll i ett sammanhang men vara helt obetydlig i ett annat sammanhang.
  • Icke-signifikanta korrelationer är icke-signifikanta oavsett styrka
  • Med tillräckligt stort n blir även mycket svaga r signifikanta
11
Q

Determinationskoefficienten

A

Svarar på frågan - hur många procent av variansen i en variabel som kan förklaras av varians i en annan variabel. Det är korrelationskoefficient upphöjt till två.

Det är som om man tog alla värden som man har och tittar på deras värde på x-axeln och bytte ut de observerade värdena på y axeln mot de som prediceras av korrelationskoefficienten. Det man vill se är hur mycket av variansen som bevaras om man gör detta och förklaras i procent. R2 = 0.98 är 98% bevarad varians.

12
Q

Chi2 - goodness of fit

A

Mäter den totala avvikelsen mellan en observerad (o) och en förväntad (e) frekvensfördelning. Görs på nominaldata med en viss distribution dragen från en population.

13
Q

Post-hoc: Chi2 - Goodness of fit

A
  • Får man ett signifikant värde på Chi2 goodness of fit kan man utföra ett post-hoc test för att undersöka vilken av kategorierna som avviker mest där tabellen görs om till att bara jämföra en kategori (som man vill undersöka) mot alla andra kategorier. Övriga kategorier slås alltså ihop.
  • Man kan också använda konfidensintervall. Om den estimerade andelen inte ligger inom konfidensintervallet för den observerade andelen förkastas H0. OBS! Genom att använda denna formel ignorerar vi att andel inte är en kontinuerlig variabel (ligger alltid mellan 0 och 1). Vid små stickprov, eller om vi analyserar andelar som ligger nära ändpunkterna (0 och 1), kan vi få problem och bör välja en annan metod t.ex. Wilson Score Interval (lite mer komplicerad formel)
14
Q

Chi2 - test for independence

A

Testar om två variablers frekvensfördelning kan antas vara oberoende av varandra. Variablerna befinner sig på nominalnivå.

15
Q

Post-hoc: Chi2 - test for independence

A

För att hitta vilken nivå på variabel påverkar signifikans i Chi2 test for independence ska den justerade standardiserade residualen beräknas för varje cell. Värdet blir då ett mått på hur mycket observerat värde avviker från förväntat värde, när hänsyn tagits till hur mycket värden av detta slag brukar variera.

Detta värde approximerar z-poäng! Därför kan man förkasta H0 om det absoluta värdet överstiger 1.96 (alfa på 0.05).

16
Q

Parametriska vs icke-parametriska test

A

Parametriska test

  • Ex. Pearsons, ANOVA, t-test
  • Ställer höga krav på data, men uppfylls dessa är parametriska krav förstahandsalternativ
  • Utgår från att data i populationen är fördelat på ett visst sätt (oftast normalfördelningen)
  • Gör antaganden om parametrar från den fördelningen (ex. medelvärde, varians)
  • Beroende variabel (med några undantag) på intervall eller kvotnivå

Icke-parametriska test

  • Chi2, Spearman
  • Färre antaganden än vid parametrisk testning
  • Nackdelen är lägre power (högre risk för typ-2 fel) OM antaganden bakom parametrisk testning är uppfyllda
17
Q

P vs I-P test för association

A

Parametriska test
Pearsons korrelation
- Känslig för outliers
- Variabler: intervall eller kvotnivå
- Normalfördelade variabler
- Homoskedasticitet: variansen i Y är densamma för alla X-värden och variansen i X är densamma för alla Y-värden
- För varje värde på X är Y-värdena normalfördelade, och vice versa

Icke parametriska test
Spearman korrelation
- Ej känslig för outliers
- Variabler: En eller fler variabler på ordinalnivå

Chi2 - test of independence

  • Variabler: nominalnivå
  • Förväntad frekvens bör överstiga 5
  • Oberoende observationer, enbart en datapunkt per individ
18
Q

P vs I-P test för medelvärdesskillnad mellan två grupper

A

Parametriska test

  • *Independent sample t-test**
  • 2 nivåer på oberoende variabel
  • Beroendevariabel: intervall eller kvotnivå
  • Normalfördelad beroendevariabel
  • Homogena populationsvarianser (variansen är densamma för variabeln i båda populationer)
  • Oberoende observationer - varje individ tillhör bara en grupp
  • *Envägs oberoende ANOVA**
  • 3 eller fler nivåer på oberoende variabel
  • Berondevariabel: intervall eller kvotnivå
  • Normalfördelad beroendevariabel
  • Homogena varianser i alla grupper
  • Oberoende observationer - varje individ tillhör bara en grupp

Icke parametriska test

  • *Mann-Whitney U-test**
  • 2 nivåer på beroendevariabel
  • Beroendevariabel: ordinalnivå
  • Fungerar för snedfördelad beroendevariabel
19
Q

P vs I-P test för upprepade mätningar

A

Parametriska test

  • *Paired sample t-test**
  • 2 mättilfällen/nivåer på OV
  • Beroendevariabel: intervall eller kvotnivå
  • Normalfördelade beroendevariabler i båda grupper
  • Homogena populationsvarianser (variansen är densamma för variabeln i båda populationer)
  • *Beroende ANOVA**
  • 3 eller fler mättilfällen/nivåer på OV
  • Beroendevariabel: intervall eller kvotnivå
  • Normalfördelade beroendevariabler
  • Homogena populationsvarianser (inom mättillfällen)
  • Homogena populationskovarianser (korrelation är samma mellan mättillfällen)
  • Sphericity - Homogena varianser för alla skillnader MELLAN nivåerna på OV - Mauchly’s Test of Sphericity (är p-värdet signifikant måste vi förkasta antagandet)

Icke parametriska test

  • *Wilcoxon signed rank t-test**
  • 2 mättilfällen/nivåer på OV
  • Beroendevariabel: ordinalnivå
  • Fungerar för snedfördelad/ej normalfördelad beroendevariabel
  • *McNemar’s test**
  • 2 mättilfällen/nivåer på OV
  • Beroendevariabel: nominalnivå
  • Individer kan flyttas mellan kategorier
20
Q

ANOVA

A
  • Analysis of variance
  • Handlar om att kvantifiera varians MELLAN och INOM grupper. Sedan ställs variationen mellan grupperna mot variansen inom grupperna i Fkvoten
21
Q

Envägs oberoende ANOVA (analysis of variance)

A
  • Testar om fler än två nivåer av en oberoende variabel (nominalnivå) har samma påverkan på en kontinuerlig beroende variabel (intervall eller kvotnivå), eller om det finns en skillnad i effekt mellan åtminstone två av dem
22
Q

Hur man ser effekter av variabler för tvåvägs oberoende ANOVA i linjediagram

A
  • Huvudeffekter: Medelvärdesskillnad för nivåer på OV 1 och OV2 (mellan de olika linjerna och mellan de olika punkterna)
  • Interaktionseffekt: Om de är parallella finns ingen interaktionseffekt, om de har olika lutning förekommer interaktionseffek
23
Q

Tvåvägs oberoende ANOVA

A

Används när man har faktoriell design med TVÅ oberoende variabler på nominalnivå med minst två nivåer var, men fortfarande bara en beroende variabel.

2 Huvudeffekter
- Huvudeffekt av OV1 (ex. metod): Kan medelvärden på BV antas vara samma för nivåerna A och B? (H0 - samma, H1 - inte samma)

  • Huvudeffekt av OV2 (ex. kön): Kan medelvärden på BV antas vara samma för nivåerna M och K? (H0 - samma, H1 - inte samma)

1 Interaktionseffekt
- Effekten av OV1 på BV varierar mellan nivåerna på OV2

Ex: Hur behandlingsmetod påverkar välbefinnande beror på huruvida man är man eller kvinna. (H0 - Ingen interaktion, H1 - Interaktion)

En fördel jämfört med envägs ANOVA är att man får högre power pga. mindre oförklarad/residual varians (SSw) medan den förklarade variansen (SSb) fortfarande är lika stor.

24
Q

Antaganden - Tvåvägs oberoende ANOVA

A
  • Homogena populationsvarianser i alla grupper inom varje OV
  • Normalfördelad BV (är stickprovet stort kan viss snedfördelning tolereras)
  • Oberoende observationer - varje person finns bara i en cell
25
Q

Envägs oberoende ANOVA - att göra om antaganden inte är uppfyllda

A

Ej homogena varianser
- Robust equality of means test som justerar df (t.ex. Welch). Dock ger det lägre power.

Ej normalfördelad beroendevariabel
Är stickproven stora går lite snedfördelning bra men är den tydlig kan du:
- Transformera variabeln ex. logaritmiskt
- Kruskal-Wallis (I-P)

Beroende observationer (ex. upprepad mätning)
- Annan metod: Multilevel model
26
Q

Effektstorlek - ANOVA

A
  • Hur stor andel varians (i procent) totalvarians kan förklaras av varians i den gruppen

Typer av test:
- Eta-två: vanligt mått, enkel beräkning men är biased och tenderar att överskatta effekten (SSb/SSt - maxvärde 1)

  • Omega-två: mindre biased, ger ofta lägre värde än eta-två vid små stickprov
27
Q

Post hoc test - ANOVA

A
  • För alla ANOVA baseras de på parvisa jämförelser mellan grupper och nivåer. Skillnaden mellan de olika statistiska testen handlar främst om hur konservativa de är (risk för typ-1 fel vs. power). Har man svårt att välja kan man göra flera och jämföra resultat.

Till exempel:
- Fishers LSD (vanligast, minst konservativt) - kräver OV på tre nivåer, homogena populationsvarianser, signifikant ANOVA. Är inte dessa uppfyllda ökar risken för typ 1-fel

  • Tukey HSD - lagom konservativ, något lägre power men mindre risk för typ-1 fel
28
Q

F-kvoten

A
  • F-kvoten är det värde som visar förhållandet mellan slumpvis och systematisk variation
  • Ju större F, desto mer systematisk variation och desto mindre inverkan av slumpen. Vid ingen systematisk variation borde F-kvoten bli 1.
  • Beräkna F-kvoten: Dela MSb på MSw
29
Q

Medelkvadratsummor - Mean square (MS)

A
  • MSw (mean square within) - Ett mått på genomsnittlig inomgruppsvariation
  • MSb (mean square between) - Ett mått på genomsnittlig mellangruppsvariation
30
Q

Kvadratsummor - Sums of squares (SS)

A
  • SSb (between) - variation mellan gruppernas medelvärden och totalmedelvärdet.
  • SSw (within) - variation mellan individuella observationer och deras gruppmedelvärden. (kallas ibland SSerror/error)
  • SSt (total) - variation mellan individuella observationer och totalmedelvärdet
31
Q

Beräkning - Tvåvägs oberoende ANOVA

A

Dela upp observationer i celler och beräkna medelvärden för celler, rader och kolumner. Följ ANOVA formler för att räkna ut:

SStot
SSbov1
SSbov2
SSw

Beräkna även SSint
SSint = Sstot - (SSbov1 + SSbov2 + SSw)

Följ ANOVA formler för att slutföra

Frihetsgrader
dfw = antal observationer (N) - antal celler
dfb(ov) = antal nivåer av OV - 1
dfb(int) = antal nivåer av OV1 - 1 * antal nivåer av OV2 - 1

32
Q

Beroende ANOVA

A
  • Testar om fler än två nivåer av en oberoende variabel (nominalnivå, vid upprepad mätning/matchning) har samma påverkan på en kontinuerlig beroende variabel (intervall eller kvotnivå), eller om det finns en skillnad i effekt mellan åtminstone två av dem
  • Oftast högre power vilket beror på att man kan kontrollera för effekten av individ. Felvariansen blir då mindre. Man tar bort den variansen från residualen som beror på individuella skillnader.
33
Q

Beräkning - Beroende ANOVA

A

Ställ upp tabell med rader för varje individ och kolumner för nivåer på OV. Följ ANOVA formler för att beräkna SSb.

  • Beräkna SSw(res)
    FÖR VARJE PERSON:
  • Subtrahera gruppmedelvärdet från alla deras observationer. (det lämnar varians som inte förklaras av grupp).
  • Beräkna medelvärde på residualerna. Ta varje residual minus medelvärdet på residualerna (det lämnar varians som inte kan förklaras av grupp eller individer) och kvadrera.

SEDAN: summera alla resultaten.

Följ ANOVA formler för resultat

Frihetsgrader
dfb = totala antalet grupper - 1
dfw(res) = (antal individer - 1) * (antal grupper-1)

34
Q

Mixed ANOVA

A

När?

  • Flera observationer från varje individ OCH minst en OV som VARIERAR mellan dessa individer
  • BV: intervall eller kvotnivå
  • OV: ex. mättillfälle, grupptillhörighet

Exempel: Depression mäts vid tre tillfällen, innan under och efter intervention.

  • BV: depressionsscore
  • OV1: mättillfälle (innan, under, efter)
  • OV2: metod (KBT, placebo)

Effekter

  • Huvudeffekt av mättillfälle
  • Huvudeffekt av intervention
  • Interaktion mellan mättillfälle och intervention
35
Q

Vanliga felslut - P-värde

A
  • P-värdet anger sannolikheten att nollhypotesen är korrekt
  • Ett signifikant resultat bevisar att alternativhypotesen är korrekt
  • p-värdet säger någonting om sambandets styrka
  • p-värdet säger någonting om hur sambandet ser ut i en annan population än det stickprovet är draget från
36
Q

Power

A
  • Sannolikheten att få ett signifikant resultat givet att nollhypotesen är falsk. Samma sak som (total sannolikhet - beta/typ 2 fel).
  • Önskad power ligger på 0.8 - en 80% chans att upptäcka en effekt som finns där
37
Q

Effektstorleken

A
  • Storleken av SKILLNADEN mellan två grupper
  • Cohens d - standardiserat mått som visar skillnaden mellan två medelvärden. Styrkeriktlinjer är liknande de för r men d kan anta alla värden över 0.
  • Eta och determinationskoefficienten - standardiserat mått som mäter proportionen av varians som förklaras av en viss grupp eller trendlinje
  • För poweruträkning bestäms det utifrån tidigare forskning eller minsta effekt som anses relevant att undersöka.
38
Q

Faktorer som påverkar power

A
  • Alfa-nivån - ju högre alfa desto större power (risk för typ-1 fel ökar)
  • Större sampelstorlek (stort n) - ju större sample desto högre power eftersom stickprovsmedelvärde närmar sig populationsmedelvärde
  • Den sanna effektens storlek - ju större desto större power, se till att den experimentella manipulationen är så effektiv som möjligt för att få så stor effekt som möjligt.
  • Variansen - ha så goda mätinstrument som möjligt för att minska varians och höja power
  • Experimentell design - inomindividesign har högre power än mellanindividsdesign.
  • Parametriska test ger högre power givet uppfyllda antaganden
39
Q

Statistiska fallgropar

A

Samband innebär inte kausalitet - bara för att vi har en statistisk signifikant effekt av en OV på en BV innebär INTE att OV har en kausal effekt på BV.

Extremvärden - kan ha stor effekt på resultaten, speciellt vid parametriska test. Plotta alltid först - vid felmätning/felmatning kan man utesluta annars behålls de.

Post hoc fynd - man gör en massa saker och hittar fynd som inte var med i ens hypotes och jobbar baklänges för att formulera en hypotes (efterhandsförklaringar - teorin är mindre utsatt än vid korrekt hypotesprövning).

Massignifikansproblemet

Små stickprov - större stickprov ger bättre uppskattning av populationen, lättare att uppfylla antaganden, högre power (men ett p-värde är ett p-värde oavsett hur stort stickprovet är). Har du låg power utgör alfa en större del av power (större risk för typ-1 fel).

Restriction of range - begränsad spridning, alltid ett problem om man vill hitta skillnader (eller korrelationer). Se till att du har tillräcklig spridning i dina OV, eller att din manipulation är tillräckligt stark.

Generalisering från gruppnivå till individnivå - vi analyserar grupper för att hitta systematiska mönster -> högre mätosäkerhet för individ än beräknat på grupp. Ju fler variabler vi mäter desto fler undergrupper kan vi studera och desto närmre individen kommer vi. Samband som påvisats på gruppnivå kan inte generaliseras till undergrupper, inte heller till individer.

40
Q

Massignifikansproblemet

A
  • Om man gör flera test tappar man kontroll av alfa.
  • Chansen att göra fel räknas ut genom 1- (1-alfa) upphöjt till antal uträkningar

För att komma runt detta ska du:

  • Begränsa antalet hypotesprövningar (kvalitet inte kvantitet)
  • Planera i förväg och beräkna powern
  • Begränsa post hoc test och var tydlig med det är explorativa fynd
  • Man kan också bonferronikorrigera - nya alfa blir den önskade alfanivån / antal test. OBS! Du får lägre power och ökar risk för typ II fel.
41
Q

Z-poäng

A

Uttrycker observationer som antal standardavvikelser från medelvärdet

I Z-poängstabell utgörs rader och kolumner av Z-poängens decimaler och datan man får är oftast antal procent över den Z-poängen.

42
Q

Pearsons - hypotesprövning

A
  • Det finns tabeller där man med hjälp av df och alfa kan få fram ett värde att jämföra med
  • Om absoluta värdet på observerat r är större än värdet i tabellen kan man förkasta nollhypotesen