BA & Statistik Flashcards
(44 cards)
Hvad er et konfidensinterval, og hvad bruges det til?
Et konfidensinterval er et interval beregnet ud fra en stikprøve, som med en vis statistisk sikkerhed (fx 95%) forventes at indeholde den sande populationsparameter, typisk middelværdien.
Det bruges til at udtale sig om populationen baseret på et stikprøveestimat og tager højde for usikkerheden i data.
Det gør det muligt at sige fx:
“Vi kan med 95% statistisk konfidens sige, at gennemsnittet ligger mellem 494 og 500.”
Hvad er standardfejl (SE), og hvordan beregnes den?
Standardfejlen er et mål for, hvor præcist stikprøvegennemsnittet estimerer populationsgennemsnittet. Jo mindre SE, jo mere præcis er vores stikprøve.
Formel:
SE = s/√n
Standardfejl (SE) er et mål for usikkerheden i et estimat, typisk et stikprøvegennemsnit. Det fortæller, hvor meget man kan forvente, at stikprøvegennemsnittet varierer fra stikprøve til stikprøve, hvis man gentager forsøget mange gange.
“Standardfejlen angiver, hvor meget et stikprøvegennemsnit kan forventes at variere, hvis man gentog forsøget. Den beregnes som standardafvigelsen divideret med kvadratroden af stikprøvestørrelsen og bruges til at lave konfidensintervaller og hypotesetest.”
Hvordan beregnes et konfidensinterval trin for trin?
- Find stikprøvegennemsnittet (xhat)
- Beregn standardfejlen (SE)
- Find den relevante z- eller t-værdi afhængig af konfidensniveau og stikprøvestørrelse
- Fejlmargin=kritiskværdi×SE
- Konfidensinterval = xhat +- Fejlmargin
Hvad betyder det, at konfidensintervallet er [494 ; 500] med 95% sikkerhed?
Det betyder, at hvis vi gentog forsøget mange gange, ville 95% af de beregnede intervaller indeholde den sande middelværdi.
Det betyder ikke, at der er 95% sandsynlighed for, at den sande middelværdi ligger i netop dette ene interval — den er enten i intervallet eller ikke.
Hvad er forskellen på at bruge z-fordeling og t-fordeling i konfidensintervaller?
Z-fordeling bruges, når populationsstandardafvigelsen er kendt, eller stikprøven er stor (typisk n > 30).
T-fordeling bruges, når populationsstandardafvigelsen er ukendt, og stikprøven er lille (typisk n ≤ 30).
T-fordelingen har tykkere haler for at kompensere for større usikkerhed.
Hvordan påvirkes konfidensintervallets bredde af stikprøvestørrelsen?
Jo større stikprøve, desto mindre standardfejl, og dermed smallere konfidensinterval.
En stor stikprøve giver altså et mere præcist estimat af populationsgennemsnittet.
Hvordan påvirker valg af konfidensniveau (f.eks. 90%, 95%, 99%) konfidensintervallet?
Et højere konfidensniveau (f.eks. 99%) kræver en større kritisk værdi (z eller t), hvilket betyder et bredere interval – altså mere sikkerhed, men mindre præcision.
Et lavere niveau (f.eks. 90%) giver et smallere interval, men mindre sikkerhed.
Hvad kan man sige – og ikke sige – med et konfidensinterval?
Man kan sige:
“Med 95% statistisk sikkerhed ligger populationsgennemsnittet mellem X og Y.”
Man kan ikke sige:
“Der er 95% chance for, at gennemsnittet ligger her.”
Det er en vigtig teoretisk sondring — og en typisk eksamensfælde.
Hvordan hænger konfidensintervaller og usikkerhed sammen?
Et konfidensinterval viser, hvor stor usikkerhed der er omkring stikprøvegennemsnittet som estimat for populationsgennemsnittet.
Jo bredere interval, desto større usikkerhed.
Intervallet er udtryk for et sandsynlighedsbånd omkring gennemsnittet, hvor man med en vis statistisk sikkerhed forventer, at den sande værdi ligger.
Hvorfor er det forkert at sige “Vi er 95% sikre på, at gennemsnittet er X”?
Fordi den sande værdi er fast – det er intervallet, der varierer fra stikprøve til stikprøve.
Det korrekte er at sige:
“Vi kan med 95% statistisk sikkerhed sige, at intervallet indeholder den sande middelværdi.”
Hvad er forskellen på et 90% og et 95% konfidensinterval?
Et 95% interval giver mere sikkerhed, men er bredere end et 90% interval.
90% konfidens → smallere interval → større risiko for at tage fejl
95% konfidens → bredere interval → lavere risiko for fejl
Derfor vælger man ofte 95% som kompromis mellem præcision og sikkerhed.
Hvorfor giver små stikprøver større usikkerhed i konfidensintervallet?
Fordi standardfejlen bliver større ved lav n (SE = s / √n), og det giver et bredere konfidensinterval.
Derudover bruger man t-fordelingen ved små n, som har bredere haler end z-fordelingen og dermed øger fejlmarginen.
Hvornår giver det mening at bruge konfidensinterval i praksis?
Når man ønsker at:
Estimere en ukendt populationsparameter (fx gennemsnit eller andel)
Vise graden af usikkerhed i et stikprøveresultat
Kommunikere, hvad man kan sige med sikkerhed, og hvad man ikke kan
Eksempel: “Vi vurderer, at den gennemsnitlige studietid ligger mellem 2,4 og 3,0 timer pr. uge med 95% konfidens.”
Hvordan bruger man et konfidensinterval aktivt i en analyse?
- Vurdere præcision og usikkerhed
→ Smalle intervaller = præcise estimater
→ Brede intervaller = stor usikkerhed - Tjekke statistisk signifikans
→ Indeholder intervallet ikke 0? → Signifikant effekt
→ Indeholder det 0? → Ingen signifikant effekt - Sammenligne grupper
→ Overlapper intervallerne? → Ingen klar forskel
→ Overlapper de ikke? → Mulig signifikant forskel - Understøtte beslutninger
→ Intervallet viser et sandsynligt spænd – fx for NPS eller effektstørrelse
→ Hjælper med at vælge den mest robuste løsning
Hvad betyder det, hvis to konfidensintervaller overlapper?
Det tyder på, at der ikke nødvendigvis er en signifikant forskel mellem de to grupper.
Men overlap alene er ikke nok til at konkludere — det kræver en egentlig hypotesetest for at være sikker.
Hvordan påvirker outliers et konfidensinterval?
Outliers kan øge standardafvigelsen (s) og dermed gøre intervallet bredere.
Det betyder større usikkerhed og mindre præcision i estimatet.
Derfor er det vigtigt at tjekke datakvaliteten og overveje at fjerne ekstreme værdier, hvis de ikke er meningsfulde.
Hvad er formålet med en hypotesetest?
Formålet med en hypotesetest er at vurdere, om en antagelse om en populationsparameter kan forkastes på baggrund af en stikprøve.
Det bruges, når vi vil teste, om der er en statistisk signifikant forskel mellem fx to gennemsnit, en gennemsnitsværdi og en hypotetisk værdi, eller to andele.
Hvad er en nulhypotese (H₀)?
Nulhypotesen er en antagelse om, at der ikke er nogen effekt, forskel eller ændring.
Det er den hypotese, vi forsøger at afvise.
Eksempel: “Gennemsnittet er 4 timer” eller “Der er ingen forskel i kundetilfredshed”.
Hvad er en alternativ hypotese (Hₐ)?
Den alternative hypotese er det, vi tror, der måske er sandt i stedet for H₀.
Det er den hypotese, vi vil acceptere, hvis vi kan forkaste H₀.
Eksempel: “Gennemsnittet er mindre end 4 timer” eller “Der er en forskel”.
Hvordan fungerer p-værdien i en hypotesetest?
P-værdien er sandsynligheden for at observere et resultat, der er mindst lige så ekstremt som det, vi har fundet, hvis H₀ er sand.
En lav p-værdi (typisk < 0,05) betyder, at det er usandsynligt, at resultatet skyldes tilfældigheder, og vi forkaster H₀.
Hvad er signifikansniveauet (α), og hvad bruges det til?
Signifikansniveauet (α) er den grænse, du på forhånd fastsætter for, hvor stor en risiko du er villig til at acceptere for at begå en type 1-fejl
(dvs. at du forkaster nulhypotesen H₀, selvom den er sand).
Hvad er en teststørrelse (z eller t-værdi)?
Det er en værdi, der beregnes ud fra stikprøvedata og sammenlignes med en teoretisk grænseværdi fra z- eller t-fordelingen.
Den måler hvor mange standardfejl, vi er fra den hypotetiske middelværdi.
Jo større den absolutte værdi, desto stærkere evidens imod H₀.
“En teststørrelse – z- eller t-værdi – måler, hvor langt et stikprøvegennemsnit ligger fra nulhypotesens værdi målt i standardfejl. Den bruges til at vurdere, om afvigelsen er stor nok til at være statistisk signifikant.”
Hvornår bruges en ensidet vs. tosidet hypotesetest?
Ensided test bruges, når vi kun er interesseret i ændringer i én retning (fx “gennemsnittet er faldet”).
Tosidet test bruges, når vi er åbne for ændringer i begge retninger (fx “gennemsnittet er forskelligt”).
Tosidet test er mere konservativ og kræver stærkere evidens.
Hvad er forskellen på deskriptiv og inferentiel statistik i hypotesetest?
Deskriptiv statistik beskriver stikprøven (fx gennemsnit = 2,7).
Inferentiel statistik (hypotesetest) vurderer, om resultatet kan generaliseres til populationen med statistisk sikkerhed.