Begreber Flashcards
(92 cards)
What is Median
Hvad er median
Middle value of a sorted dataset
Middelværdi af et sorteret datasæt
Altså den midterste værdi. Er der et ulige antal er observationer, er det den midterste observation. Er der derimod et lige antal observationer, skal man tage de to midterste værdier og lægge sammen, og derefter dividerer med 2, denne værdi vil så være medianen.
What is quartiles
Hvad er kvartiler
Kvartiler/quartiles er de observationer, som når datasættet er sorteret, deler datasættet i 4 lige store mængder (25%).
Q1 er de første 25%
Q2 er de næste 25% (50% af observationerne er mindre end Q2)
Q3 er de næste 25% (75% af observationerne er mindre end Q3)
Mean vs median
Gennemsnit vs. Median
Mean (gennemsnit) er fundet ved at lægge alle observationer sammen og dividerer med antallet af værdier (ofte kaldet “n”)
Median er den midterste værdi af et sorteret datasæt. (Er der et lige antal værdier, skal de to midterste værdier lægges sammen og divideres med 2, så har man medianen)
What is Q1, Q2 and Q3
Hvad er Q1, Q2 og Q3
Første kvartil, andet kvartil og tredje kvartil.
Andet kvartil er = median
25% af observationerne er mindre end første kvartil.
50% af observationerne er mindre end andet kvartil. (medianen)
75% af observationerne er mindre end tredje kvartil.
Hvad er prøvekvantiler
procent
What is Outlier
En outlier er en værdi der ligger langt fra resten af datasættet. Den afviger fra de andre værdier.
What is percentile/Percentil
- Percentil fortæller om hvor mange procent der er under de givende datapunkter.
- Dermed vil Q1 (første kvartil) være 25 percentil.
- Eksempel: Et datasæt med 10 værdier:
8.9, 9.4, 9.6, 9.7, 9.8, 9.9, 10.1, 10.3, 10.4, 10,7
Her vil 8.9 have en percentil på 5 (0.05), i og med at det er et lille datasæt, men hvis det bliver større vil dette tal også blive mindre.
Formel:
p = (k-0.5)/n
k er hvad plads hver værdi har i rækkefælgen, så 8.9 har 1, og 9.9 er 6
n er værdierne i alt, dermed 10
What is interquartile range (IQR)
Hvad er interkvartilområdet (IQR)
Det er et mål for statistisk spredning af den midterste halvdel af ens fordeling, og findes ved at trække Q1 fra Q3.
IQR=Q3-Q1
IQR bruges til at finde outliers. Man ganger IQR med 1,5. Værdien man får, skal trækkes fra Q1 og lægges til Q3, dette giver et interval. Har man værdier der ligger uden for intervallet, er disse outliers.
Outlier1= Q1 - (IQR * 1.5)
Outlier2= (IQR * 1.5) + Q3
Værdier når man snakker om percentiles/percentiler.
dx
dp
dx_(12)
dp_(12)
dx = afstanden mellem værdierne for den ønskede percentil og en værdien for en kendt percentil.
dp = Afstand mellem den ønskede percentil og en kendt percentil
dx_(12) = Afstand mellem de udvalgte værdier
dp_(12) = afstand mellem de udvalgte percentiler
What is a boxplot and what does it show
Hvad er et boksplot og hvad viser det
Det er en grafisk repræsentation, der viser fordelingen af et datasæt ved hjælp af fem nøglemålinger:
- Minimum - der ikke er en outlier
- Første kvartil (Q1)
- Median (anden kvartil, Q2)
- Tredje kvartil (Q3)
- Maksimum - der ikke er en outlier
Den viser også eventuelle outlier (som punkter, hvis de er længere væk end IQR*1,5, fra Q1 eller Q3)
Hvad er sum
What is sum
Summen af værdier, er alle værdierne lagt sammen
Hvordan udregnes variansen
Varians udregnes ved at trække gennemsnittet fra summen af de kvadrerede afstande
For Befolkning:
σ² = (x_1- μ)² +…+ (x_N - μ)²) / N
For en prøve:
s² = ((x_1-m)² +…+ (x_n-m)²) / (n-1)
Variance is calculated by subtracting the mean from the sum of the squared distances
What is squared differences
Hvad er kvadrerede afstande
- Skalerede kvadrerede forskelle, er en metode til at sammenligne forskelle mellem observerede værdier (O) og forventede værdier (E) ved at tage højde for variationen i data. Disse forskelle skaleres ved at dividere med de forventede frekvenser for at tage højde for størrelsen af de forventede værdier.
- Den kan bruges i en chi-square test
X²=(O_i-E_i )²/E_i
Hvordan udregnes varians for et datasæt
Varians for et datasæt findes ved at trække gennemsnittet fra de kvadrerede afstande
Hvad er s² (σ²)
Varians (Variance)
σ² er varians for en befolkning (population)
s² er varians for en prøve (sample)
Hvad er s (𝜎)
standardafvigelsen (standard deviation)
𝜎 er standardafvigelsen for en befolkning (population)
s er standardafvigelsen for en prøve (sample)
Hvad fortæller variansen
Varians er hvor spredt et sæt datapunkter er fra gennemsnitsværdien.
En lav varians indikerer, at datapunkterne har en tendens til at være tæt på gennemsnittet. En høj varians tyder på, at datapunkterne er mere spredte.
Hvad fortæller standardafvigelse?
What does the Standard deviation tell?
Standardafvigelse kvantificerer mængden af variation eller spredning i et sæt værdier. Det viser hvor spredt værdierne i et datasæt er fra gennemsnitsværdien. En lav standardafvigelse indikerer, at datapunkterne har en tendens til at være tæt på gennemsnitsværdien, mens en høj standardafvigelse antyder, at datapunkterne er spredt ud over et større område af værdier.
Hvad er z-score
- Standard score
- En z-score er et mål for, hvor mange standardafvigelser en observation eller datapunkt ligger fra gennemsnittet (middelværdien) af datasættet.
- Det er et mål for, hvor langt dine værdier går fra mu (gennemsnit)
- Formel:
z = (x-μ) / σ
Så hvis det giver z=-2, det betyder, at det er to standardafvigelser under gennemsnittet
Skewness
Skævhed
- Skævhed er et mål for asymmetrien i en fordeling af data. Det fortæller os, om dataene er symmetrisk fordelt eller har en tendens til at fordele sig mere mod den ene side af middelværdien.
- Kan give indsigt i, hvorvidt dataene afviger fra normalfordelingen.
- Skævhed = 0: Dataene er symmetriske.
- Skævhed > 0: Dataene er positivt skæve (hale mod højre)
- Skævhed < 0: Dataene er negativ skæve (hale mod venstre
Standard score
- Er z-score
- Det er et mål for, hvor mange standardafvigelser en observation eller datapunkt ligger fra gennemsnittet (middelværdien) af datasættet.
- Det er et mål for, hvor langt dine værdier går fra mu (gennemsnit)
- Formel:
z = (x-μ) / σ
Så hvis det giver z=-2, det betyder, at det er to standardafvigelser under gennemsnittet
Stripchart
Et strip plot, er en grafisk repræsentation, der viser individuelle data punkter langs en akse. Det bruges ofte til at vise fordelingen af et lille sæt af kvantitative data (altså flere data’er).
Gennemsnittet (m) er…
Gennemsnittet af en stikprøve er summen af alle observationerne divideret med antallet af observationer. Det giver en central værdi for dataene,
Standardafvigelse ((s),(σ)) er…
Et mål for mængden af variation eller spredningen af observationerner i en stikprøve. Det angiver, hvor meget observationerne afviger fra gennemsnittet.
En lav standardafvigelse indikerer, at værdierne har en tendens til at være tæt på middelværdien.