U10 Grundprincipperne i statistisk inferens Flashcards
(14 cards)
Systematiske fejl
Skævheder der ikke er tilfældige (f.eks. selektionsbias).
Stokastiske fejl
Tilfældige variationer i data
Sandsynlighedsfordeling
Beskriver sandsynligheden for forskellige udfald af en stokastisk variabel.
Diskret: Endeligt antal udfald (f.eks. terningkast).
Kontinuert: Uendeligt mange udfald (f.eks. pendlingstid).
Normalfordeling
En symmetrisk, klokkeformet fordeling defineret ved μ (middelværdi) og σ (standardafvigelse).
Standardnormalfordeling (z-fordeling): μ=0, σ=1.
Central Grænseværdisætning
Uanset populationsfordelingen vil stikprøvemålsfordelingen af gennemsnittet være normalfordelt, hvis stikprøven er stor nok.
Konfidensinterval
Et interval, der med en vis sandsynlighed (f.eks. 95%) indeholder den sande populationsparameter
Beregnes som:
stikprøvemål ± 1.96×standardfejl
Standardisering (z-transformation)
Omregning af en normalfordelt variabel til standardnormalfordelingen:
Bruges til at finde sandsynligheder for specifikke værdier.
Populationsfordeling vs. Stikprøvefordeling
Populationsfordeling: Fordelingen af data i hele populationen.
Stikprøvefordeling: Fordelingen af data i en enkelt stikprøve.
Stikprøvemålsfordeling: Fordelingen af et stikprøvemål over mange stikprøver.
Percentiler
Værdier, der angiver, hvor stor en del af dataene der ligger under en given grænse (f.eks. 80. percentil).
Ekstern Validitet
Graden af, hvilken generaliserbarhed resultaterne fra en stikprøve har til populationen.
Multipel Regression
En statistisk metode til at estimere sammenhænge mellem flere variable, mens der kontrolleres for andre faktorer.
R-funktioner (Grundprincipper i statistisk inferens)
pnorm: Beregner sandsynligheden for en værdi i normalfordelingen.
qnorm: Finder værdien for en given percentil.
Identically and independently distributed (i.i.d.)
Hvis stokastiske variable er tilfældigt udtrukket fra samme underliggende population så vil de være uafhængigt og identisk fordelte.
Identisk: Udtrukket fra samme underliggende population.
Uafhængighed: Hvis stikprøvens observationer er uafhængige påvirker hver enkel observation ikke de andre.
Afhængighed: Grupperet data (niveau 1-observationers værdi er ofte afhængige af deres niveau 2-gruppering).
Kan også være samme observation målt flere gange, (hvor observation afhænger af ”sig selv” men på et andet tidspunkt).
T fordeling
Minder om normalfordelingen, men tager højde for større usikkerhed ved lav stikprøvestørrelse 🡪 mere data i halerne (flere ekstreme værdier ved lavt N).