Föreläsning 1 - Intro Flashcards
(33 cards)
Population
Alla medlemmar i en viss kategori
Stickprov
en delmängd av populationen
Parameter
En sammanfattande kvantitet/en siffra som beskriver populationen
statistika
en sammanfattande kvantitet/siffra som beskriver stickprovet
deskriptiv statistik vs inferensstatistik
Deskriptiv statistik: sammanfattar stickprovsdata kortfattat med olika statistika. Ex. medelvärde, standardavvikelse, median etc.
Inferensstatistik: använder stickprovsdata för att dra slutsatser om populationen.
Hypotes
En kvalificerad gissning avseende någon kvantifierbar egenskap i populationen
H0
Det är ingen skillnad mellan två grupper/betingelser avseende någon beroende variabel. Alternativt inget samband mellan två variabler i populationen.
H1
Det finns en skillnad mellan grupper/betingelser i populationen avseende beroende variabel. Alternativt det finns en korrelation mellan två variabler i populationen.
Parametrisk statistik
Då det är möjligt att estimera parametrar, dvs populationens medelvärde och standardavvikelse från stickprovet. Förutsätter bland annat:
- Data på kvot eller intervallskala
- Ungefär normalfördelning (om små stickprov)
- Lika/homogen varians mellan grupper
Skalnivåer
- Kvotskala: svarsalternativen är rangordnade med specifika avstånd till varandra och det finns en given nollpunkt.
- Intervallskala: svarsalternativen är rangordnade och har specifika avstånd till varandra, men det finns ingen given nollpunkt.
- Ordinalskala: svarsalternativen är rangordnade men avstånden mellan alternativen kan inte avgöras.
- Nominalskala: svarsalternativen saknar rangordning, räkna antal i olika kategorier.
Skewness
Sned fördelning. Skewness är ett mått som används för att beräkna hur sned fördelningen är i relation till normalfördelning.
- Skewness 0 = normalfördelning
- Negativ skewness = en fördelning med “svansen” åt vänster.
- Postitiv skewness = en fördelning med “svansen” åt höger.
Kurtosis
Kurvans “toppighet”.
- Kurtosis 0 = normalfördelning.
- Positiv kurtosis = toppigare fördelning än normalfördelningen.
- Negativ kurtosis = plattare fördelning än normalfördelningen. Eller då mittenvärdena har lägre frekvens än yttervärdena.
Standardfelet
Ett estimat av avvikelsen mellan medelvärden (om vi hade upprepat testet på många stickprov).
Centrala gränsvärdessatsen
Då stickprovsstorleken (antal stickprov) är tillräckligt stort kommer fördelningen av stickprovsmedelvärden närma sig normalfördelningen oavsett hur de enskilda stickprovens fördelningar ser ut. Även om populationen inte är normalfördelad.
p-värde (Fishers signifikanstestning)
Sannolikheten att erhålla ett resultat som är minst så extremt som det faktiskt erhållna resultatet om H0 vore sann. P är en egenskap hos data.
Tolkning av litet p-värde
Antingen har en osannolik händelse inträffat eller så är H0 falsk. Ju mindre p-värde desto starkare evidens mot H0.
Neyman & Pearsons hypotestestning
En frekventistisk metod. Använder H1 som motpol till H0. En dikotom metod för att välja mellan dessa, utifrån alfanivå.(Involverar inget P-värde?)
Null hypothesis significance testing (NHST)
Idag används en hybrid av Fishers och Neyman-Pearsons modeller. Består av följande steg:
- Presentera p-värden som ett kontinuerligt index mot H0 enligt Fisher
- Tillämpa sedan en dikotom beslutsstrategi enligt Neyman-Pearson: behåll H0 om p > a, förkasta H0 om p< a.
- Om p-värdet är mindre än alfa-nivån har vi ett statistiskt signifikant resultat.
- Slutsats: H0 är sannolikt falsk och alternativhypotesen H1 är sannolikt sann.
Power
Sannolikheten att finna en sann effekt. Ökar med:
- a-nivå (på bekostnad av andel typ I-fel.
- Effektstorleken
- Stickprovsstorleken
Effektstorlek
Svarar på någon av frågorna:
“Hur stor är skillnaden?” alternativt “hur starkt är sambandet?”.
Ickestandardiserade effektstorlekar är beroende av måttenheter (ex. olika värden fås då avstånd mäts i cm eller meter).
Standardiserade effektstorlekar är oberoende av måttenheter (t.ex. skillnader mätt i standardavvikelser) och kan bättre jämföras.
Tre standardiserade effektstorlekar och deras indikationer
Cohens d: för effektstorlek vid t-test.
o 0.2 = small
o 0.5 = medium
o 0.8 = large
Eta2: för skillnader eller interaktioner vid ANOVA
o 0.01 = small
o 0.06 = medium
o 0.14 = large
Pearson’s r: korrelationen mellan två variabler
o 0.1 = small
o 0.3 = medium
o 0.5 = large
Frekventistisk tolkning av sannolikhet:
(Neyman & Pearson). Bygger på idén om objektiva sannolikheter. Definierar sannolikhet som frekvenser. Besvarar frågan: Hur stor andel av upprepade test skulle leda till fel slutsats?
Bayesiansk tolkning av sannolikhet:
Bygger på idén om subjektiva sannolikheter. (FYLL PÅ)
Bayes teorem
Beskriver ett optimalt sätt att dra slutsatser från osäker information, och betingade sannolikheter av typen:
- Vad är sannolikheten för A givet att B inträffat/är sann?