Using Statistics to Describe Observations Flashcards

(39 cards)

1
Q

Hvad dækker begrebet centraltendens over?

A

De statistiske mål der beskriver, hvor midten af et datasæt ligger.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvilke tre klassiske mål for centraltendens findes der? (bare nævn dem)

A

Gennemsnit, median og typetal

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hvad er et typetal?

A

Typetaller er den værdi, der forekommer flest gange i et datasæt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hvad kaldes det, hvis en fordeling har to typetal?

A

En bimodal fordeling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hvad kaldes det, hvis en fordeling har tre eller flere typetal?

A

En multimodal fordeling

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hvad er fordelen og ulempen ved at bruge typetal til beskrivelse af et datasæt? (jf. bibel)

A

+ Typetal påvirkes ikke af outliers
- Kan være problematisk, hvis der er flere værdier med høj frekvens

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvad er en median?

A

Den midterste score, når alle scorer i et datasæt er sorteret i rækkefølge efter størrelse

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hvordan findes medianen i et datasæt? (hint: formel)

A

Medianen i et datasæt findes typisk ved at man bruger en formel, der udregner positionen for tallet.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan finder man ud af, hvad medianen er, hvis der er to scorer i midten?

A

Ved at udregne gennemsnittet af de to scorer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvad er fordelen og ulempen ved at bruge medianen til beskrivelse af et datasæt? (jf. bibel)

A

+ Medianen påvirkes ikke af outliers
- Kan være misvisende i et lille datasæt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hvad er gennemsnittet?

A

Den gennemsnitlige score i et datasæt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hvad er fordelen og ulemperne (3) ved at bruge gennemsnittet til beskrivelse af et datasæt? (jf. bibel)

A

+ Den medtager alle scorer i et datasæt (modsat typetal og median)
- Den påvirkes nemt af outliers
- Påvirkes af skæve distributioner (skewness)
- Kan kun bruges med interval eller ratio data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Hvad viser “range” (spænd) i et datasæt, og hvad er ulempen?

A

Range er forskellen mellem højeste og laveste værdi. Det påvirkes meget af outliers, fordi det kun bruger de to yderste værdier.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Hvad karakteriserer normalfordelingen? (visuelt)

A

En klokkeformet kurve, hvor de fleste scorer ligger omkring midten af fordelingen - jo længere væk fra midten, desto sjældnere er scorerne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hvilke to hovedmåder, hvorpå en fordeling kan afvige fra normalen, findes der?

A

1) Mangel på symmetri (skewness)
2) Tæthed i halerne (kurtosis)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Forklar interkvartil range (IQR), samt nedre og øvre kvartil

A

IQR viser spredningen af de midterste 50 % af observationerne i datasættet.

Nedre kvartil: medianen af den nederste halvdel af datasættet (værdierne under medianen

øvre kvartil: Medianen af den øverste halvdel af datasættet (værdierne over medianen

17
Q

Hvad betyder det at fordelingerne er skæve (skewed)? Og hvilke to typer findes der? (bare nævn disse)

A

Det betyder at de mest hyppige scorer er klumpet sammen i den ene ende af skalaen. Den skæve fordeling kan enten være positiv eller negativ.

18
Q

Hvad kendetegner en fordeling der er positivt skæv (positively skewed)?

A

“Halen” peger mod højre, hvilket betyder at de fleste værdier ligger i den lave ende.

19
Q

Hvad er huskereglen for, hvorvidt en fordeling er positivt skæv?

A

“If the distribution is positively skewed, you are positively screwed” - hvis fordelingen drejer sig om eksamensresultater, idet de fleste så ville have klaret sig dårligt.

20
Q

Hvad er “deviance” (afvigelse)?

A

Det er forskellen mellem en observation og gennemsnittet i datasættet.

21
Q

Hvorfor giver den totale afvigelse altid 0?

A

Fordi positive og negative afvigelser fra gennemsnittet udligner hinanden.

22
Q

Hvad er “Sum of Squares” (SS), og hvorfor bruger vi det?

A

SS er summen af alle afvigelser fra gennemsnittet sat i potens. Vi gør dette for at undgå, at positive og negative afvigelser ophæver hinanden.

23
Q

Hvorfor er SS ikke egnet til direkte sammenligning?

A

Fordi værdien afhænger af antallet af observationer i datasættet. Derfor –> varians

24
Q

Hvad er varians, og hvordan beregnes den?

A

Varians er den gennemsnitlige afstand scorene har fra gennemsnittet. Man dividerer Sum of Squares med N-1, for at undgå at antal af observationer, skal påvirke spredningen.

25
Hvad kendetegner en fordeling der er negativt skæv (negatively skewed)?
"Halen" peger mod venstre, og de fleste værdier ligger derfor i den høje ende.
26
Hvad betyder kurtosis, og hvilke to typer findes der? (bare nævn dem)
Begrebet henviser til, i hvor høj grad scorer samler sig ude i enderne af fordelingen ("halerne"). Der findes både positiv kurtosis, kaldet leptokurtic, og negativ kurtosis, kaldet platykurtic.
27
Hvad kendetegner en fordeling med positiv kurtosis (leptokurtic)?
Flere scorer i halerne (outliers) sammenlignet med en normalfordeling. De fremstår spidse og "høje" visuelt.
28
Hvad er standardafvigelse?
Det er kvadratroden af variansen, hvilket giver et mål for spredning i de oprindelige enheder – fx cm i stedet for cm².
29
Hvad betyder det, hvis standardafvigelsen er lille ift. gennemsnittet?
At værdierne i datasættet ligger tæt på gennemsnittet – altså lav spredning.
30
Hvad er en z-score?
Et mål for hvor langt en score ligger fra gennemsnittet, målt i standardafvigelser.
31
Hvad kendetegner en fordeling med negativ kurtosis (platykurtic)?
Færre scorer i halerne (outliers) sammenlignet med en normalfordeling, og fremstår ofte mere flade visuelt.
32
Hvad betyder det, hvis en Z-score er 0?
At scoren er nøjagtigt det samme som gennemsnittet.
33
Hvad betyder en positiv Z-score?
At scoren ligger over gennemsnittet.
34
Hvad er en huskeregel for om en fordeling er hhv. leptokurtic eller platykurtic?
Leptokurtic: Leap (man hopper fra noget højt/spidst) Platykurtic: Plain, platypus, plateau (flad fordeling)
35
Hvad betyder en negativ Z-score?
At scoren ligger under gennemsnittet.
36
Hvad kan man bruge en Z-score til?
Til at finde sandsynligheden for at opnå en bestemt score i en standardiseret fordeling.
37
Hvad er "larger portion" i en Z-score-tabel?
Den største andel af data – typisk andelen under en positiv Z-score. (modsat hvis negativ)
38
Hvad er outliers?
Det er ekstreme scorer der ligger markant højere eller lavere end de fleste andre værdier - og som dermed kan forstyrre gennemsnittet og andre mål.
39
Hvad er "smaller portion" i en Z-score-tabel?
Den mindste andel af data – typisk andelen over en positiv Z-score. (modsat hvis negativ)