U11 Inferens for gennemsnit og forskelle mellem gennemsnit Flashcards
(22 cards)
Konfidensintervaller
Bruges til at estimere, hvor sandsynligt det er, at et sandpopulationsgennemsnit falder inden for et bestemt interval baseret på stikprøvedata.
Et interval, der med en vis sandsynlighed (f.eks. 95%) indeholder det sande populationsgennemsnit.
Hypotesetests
Bruges til at vurdere, om en påstand om populationen (f.eks. et gennemsnit) kan forkastes eller ej. Dette omfatter nulhypotesen (H₀) og alternativhypotesen (Hₐ).
En metode til at teste en påstand om populationen ved hjælp af stikprøvedata.
Nulhypotese (H₀): Den påstand, der testes (f.eks. μ = 5).
Alternativhypotese (Hₐ): Den modsatte påstand (f.eks. μ ≠ 5 eller μ > 5).
t-fordelingen:
Anvendes i stedet for z-fordelingen, når populationsstandardafvigelsen er ukendt, især ved små stikprøver.
Forskelle mellem gennemsnit
Logikken udvides til at sammenligne to gennemsnit for at afgøre, om der er en signifikant forskel mellem dem.
Statistisk vs. substantiel signifikans
Understreger, at statistisk signifikans ikke altid betyder en praktisk betydningsfuld forskel, især ved store stikprøver.
Statistisk signifikans: En forskel, der ikke sandsynligvis skyldes tilfældigheder (p < α).
Substantiel signifikans: Den praktiske betydning af en forskel, uafhængigt af dens statistiske signifikans.
Gennemsnit (μ og Ȳ)
Populationsgennemsnit (μ) og stikprøvegennemsnit (Ȳ).
Standardfejl
Estimering af usikkerheden i stikprøvegennemsnittet
En-sidet test:
Test, hvor alternativhypotesen kun ser i én retning (f.eks. μ > 5).
To-sidet test
Test, hvor alternativhypotesen er ikke-specifik (f.eks. μ ≠ 5).
z-fordeling:
Normalfordelingen, der bruges, når populationsstandardafvigelsen er kendt eller stikprøven er stor. (anvendes sjældent)
p-værdi:
Sandsynligheden for at observere dataene, hvis nulhypotesen er sand. Lav p-værdi (typisk <0,05) indikerer, at H₀ kan forkastes.
Signifikansniveau (α)
Den grænse, der bruges til at afgøre, om en p-værdi er signifikant (typisk 0,05)
Frihedsgrader (df)
Antallet af uafhængige observationer i stikprøven, typisk n-1 for et gennemsnit
Kausal inferens:
At afgøre, om en variabel direkte påvirker en anden
Overlappende konfidensintervaller:
Hvis intervallerne overlapper, behøver forskellen ikke være statistisk signifikant, men mangel på overlap betyder altid signifikans.
Standardafvigelse (σ og s):
Populationsstandardafvigelse (σ) og stikprøvestandardafvigelse (s).
Systematiske fejl
Fejl, der ikke skyldes tilfældigheder, men f.eks. målefejl eller bias i dataindsamlingen.
Type I-fejl
Falsk positiv: Afvisning af H0, selvom H0 er sand
Type II-fejl
Falsk negativ: Accept af H0, selvom H0 er falsk
Trin i hypotesetest
Indeholder 6 trin for en gyldig test:
1) Vurdering af antagelser: i.i.d og tilstrækkelig stor N
2) Opstilling af nul- og alternativhypoteser
3) Valg af test-statistisk (vi t-test)
4) Valg af kritisk værdi/signifikansniveau: Ofte p < 0.05
5) Dataindsamling og analyse
6) Fortolkning af p-værdi: Forkast eller acceptér H0?
Best Linear Unbiased Estimator (BLUE)
Stikprøvegennemsnittet er BLUE
Matematisk betyder det, at stikprøvegennemsnittet har de mindste kvadrerede afvigelser fra populationsgennemsnittet af alle de mulige estimatorer herfor.
Det betyder altså, at gns. minimerer bias.
Estimator
En matematisk regel eller funktion, som bruges til at estimere (dvs. komme med et bud på) en parameter i populationen.
F.eks. gennemsnittet, hvor ”reglen”/funktionen er summen af alle observationer divideret med antal observationer.