Thema 2 Univariate analyse Flashcards
Centrummaat
aangeeft rondom welke waarde de datapunten in deze datareeks zich bevinden; wat het ‘centrum’ van de datareeks is,
Outlier (uitschieter)
een datapunt dat zo extreem is, dat het waarschijnlijk een artefact is van de dataverzameling
Modus
De meest voorkomende waarde
Mediaan
Middelste datapunt in de reeks
Range
Het verschil tussen minimum en maximum (volstaat niet omdat gevoelig is voor outliers)
Interkwartielafstand
Afstand tussen 2 kwartielen (eerst mediaan, dan nieuwe medianen van de 2 kanten. Daar de afstand van) Geeft informatie hoe ver de datapunten van het gemiddelde afliggen
sum of squares (variatie)
Verschil van het gemiddelde. Deze afwijkingen kwadrateren, Je krijgt positief getal dit tel je bij elkaar op.
Variantie oftewel Mean Squares
Variatie delen door het aantal datapunten
Standaarddeviatie (standaardafwijking)
De wortel van de variantie. Zo komt de waarde op dezelfde schaal als de datapunten.
Verdelingsvorm
Hoe de datapunten verdeeld zijn
modaliteit of toppigheid
beschrijft het aantal toppen van de verdeling
unimodaal of eentoppig
verdeling met 1 top
multimodaal of meertoppig
Verdeling met meerdere toppen
bimodale of tweetoppige
verdeling met twee toppen
scheefheid
Een scheve verdeling is een asymmetrische verdeling.
Links scheve verdeling
De top van de verdeling ligt dus aan de rechterkant, en de staart aan de linkerkant
Rechts scheve verdeling
In die verdeling liggen de meeste datapunten juist links van het gemiddelde. Er liggen nu wat minder datapunten vrij ver rechts van het gemiddelde
leptokurte verdeling
bijzonder spitse verdeling
platykurte
Een verdeling die bijzonder plat is
Ander woord voor spitsheid
Kurtosis
kenmerken van een normaalverdeling
De normaalverdeling is unimodaal.
De normaalverdeling is niet scheef (en dus perfect symmetrisch).
De normaalverdeling is niet bijzonder spits of plat.
68% van de datapunten ligt binnen één standaarddeviatie van het gemiddelde (ongeveer tweederde dus).
95% van de datapunten ligt binnen twee standaarddeviaties van het gemiddelde.
99.7% van de datapunten ligt binnen drie standaarddeviaties van het gemiddelde (bijna allemaal dus).
standaardisering
Deze omrekening naar z-scores,
Density plot
Lijn in plaats van histogram. Oppervlakte altijd 1
Q-Q-plot
In deze grafiek worden kwantielen geplot. Kwantielen zijn een soort ‘breekpunten’ om een datareeks in gelijke delen te splitsen. De mediaan is dus een voorbeeld van een kwantiel: