Using Statistics to Describe Observations Flashcards
(39 cards)
Hvad dækker begrebet centraltendens over?
De statistiske mål der beskriver, hvor midten af et datasæt ligger.
Hvilke tre klassiske mål for centraltendens findes der? (bare nævn dem)
Gennemsnit, median og typetal
Hvad er et typetal?
Typetaller er den værdi, der forekommer flest gange i et datasæt
Hvad kaldes det, hvis en fordeling har to typetal?
En bimodal fordeling
Hvad kaldes det, hvis en fordeling har tre eller flere typetal?
En multimodal fordeling
Hvad er fordelen og ulempen ved at bruge typetal til beskrivelse af et datasæt? (jf. bibel)
+ Typetal påvirkes ikke af outliers
- Kan være problematisk, hvis der er flere værdier med høj frekvens
Hvad er en median?
Den midterste score, når alle scorer i et datasæt er sorteret i rækkefølge efter størrelse
Hvordan findes medianen i et datasæt? (hint: formel)
Medianen i et datasæt findes typisk ved at man bruger en formel, der udregner positionen for tallet.
Hvordan finder man ud af, hvad medianen er, hvis der er to scorer i midten?
Ved at udregne gennemsnittet af de to scorer.
Hvad er fordelen og ulempen ved at bruge medianen til beskrivelse af et datasæt? (jf. bibel)
+ Medianen påvirkes ikke af outliers
- Kan være misvisende i et lille datasæt
Hvad er gennemsnittet?
Den gennemsnitlige score i et datasæt
Hvad er fordelen og ulemperne (3) ved at bruge gennemsnittet til beskrivelse af et datasæt? (jf. bibel)
+ Den medtager alle scorer i et datasæt (modsat typetal og median)
- Den påvirkes nemt af outliers
- Påvirkes af skæve distributioner (skewness)
- Kan kun bruges med interval eller ratio data
Hvad viser “range” (spænd) i et datasæt, og hvad er ulempen?
Range er forskellen mellem højeste og laveste værdi. Det påvirkes meget af outliers, fordi det kun bruger de to yderste værdier.
Hvad karakteriserer normalfordelingen? (visuelt)
En klokkeformet kurve, hvor de fleste scorer ligger omkring midten af fordelingen - jo længere væk fra midten, desto sjældnere er scorerne
Hvilke to hovedmåder, hvorpå en fordeling kan afvige fra normalen, findes der?
1) Mangel på symmetri (skewness)
2) Tæthed i halerne (kurtosis)
Forklar interkvartil range (IQR), samt nedre og øvre kvartil
IQR viser spredningen af de midterste 50 % af observationerne i datasættet.
Nedre kvartil: medianen af den nederste halvdel af datasættet (værdierne under medianen
øvre kvartil: Medianen af den øverste halvdel af datasættet (værdierne over medianen
Hvad betyder det at fordelingerne er skæve (skewed)? Og hvilke to typer findes der? (bare nævn disse)
Det betyder at de mest hyppige scorer er klumpet sammen i den ene ende af skalaen. Den skæve fordeling kan enten være positiv eller negativ.
Hvad kendetegner en fordeling der er positivt skæv (positively skewed)?
“Halen” peger mod højre, hvilket betyder at de fleste værdier ligger i den lave ende.
Hvad er huskereglen for, hvorvidt en fordeling er positivt skæv?
“If the distribution is positively skewed, you are positively screwed” - hvis fordelingen drejer sig om eksamensresultater, idet de fleste så ville have klaret sig dårligt.
Hvad er “deviance” (afvigelse)?
Det er forskellen mellem en observation og gennemsnittet i datasættet.
Hvorfor giver den totale afvigelse altid 0?
Fordi positive og negative afvigelser fra gennemsnittet udligner hinanden.
Hvad er “Sum of Squares” (SS), og hvorfor bruger vi det?
SS er summen af alle afvigelser fra gennemsnittet sat i potens. Vi gør dette for at undgå, at positive og negative afvigelser ophæver hinanden.
Hvorfor er SS ikke egnet til direkte sammenligning?
Fordi værdien afhænger af antallet af observationer i datasættet. Derfor –> varians
Hvad er varians, og hvordan beregnes den?
Varians er den gennemsnitlige afstand scorene har fra gennemsnittet. Man dividerer Sum of Squares med N-1, for at undgå at antal af observationer, skal påvirke spredningen.