Thema 3 Flashcards
(49 cards)
Wat is een datareeks?
als bij meerdere mensen (of op meerdere momenten) dezelfde operationalisatie wordt afgenomen (bijvoorbeeld een IQ-test), vormt de reeks datapunten die deze operationalisatie oplevert (bijvoorbeeld IQ-scores) een datareeks. Een datareeks is een verzameling van een of meer datapunten van dezelfde operationalisatie.
Wat zijn beschrijvingsmaten?
getallen die kenmerken van een datareeks en dus van een variabele beschrijven: centrummaten, spreidingsmaten en verdelingsmaten.
Wat zijn centrummaten en 3 gangbare manieren?
maten die een indicatie geven van de centrale tendentie van een datareeks, oftewel, waar de meeste datapunten in de datareeks zich bevinden. In deze cursus worden het gemiddelde, de mediaan en de modus besproken.
De meest gangbare manier om datapunten samen te vatten.
- Gemiddelde: Alles optellen en delen
- Mediaan: Middelste datapunt in een datareeks
- Modus: De meest voorkomende
Het gemiddelde
Formeel wordt het gemiddelde berekend door alle getallen op te tellen en te delen door het aantal bij elkaar opgetelde getallen
Wat zijn Outliers?
ook wel uitschieter of uitbijter genoemd, is een extreem datapunt.
Vaak is zo een extreme waarde een indicatie dat er een fout in de data zit. Er zijn echter ook outliers die bij de data horen, sommige deelnemers scoren nu eenmaal hoog of laag
Side note: De beslissing om outliers wel of niet mee te nemen in analyses heeft belangrijke gevolgen voor de resultaten. In bovenstaand voorbeeld heb je gezien dat een outlier het gemiddelde erg naar zich toetrekt. Er zijn ook centrummaten die minder gevoelig zijn voor outliers, met name de modus en de mediaan. Deze maten kunnen dus informatief zijn om data te beschrijven die een of meer outliers bevatten.
Wat is de modus?
De modus is gedefinieerd als de meest voorkomende waarde in de datareeks.
De modus is vooral informatief bij een beperkt aantal mogelijke waarden of bij een grote hoeveelheid datapunten.
Wat is de meidaan?
is simpelweg het middelste datapunt in de datareeks.
Side note: Om een goed beeld van een datareeks te geven is het daarom noodzakelijk om naast een centrummaat ook de spreiding van de datapunten te rapporteren. Om dit te beschrijven zijn spreidingsmaten nodig.
De eenvoudigste spreidingsmaat is de range, wat is dit?
ook wel het bereik, van een variabele.
Dit is simpelweg het verschil tussen het maximum en het minimum.
Maar de range is zeer gevoelig is voor outliers en volstaat daarom vaak niet om een goed beeld van de spreiding van de datapunten te geven.
Wat is de spreidingsmaatI nterkwartielafstand (IQR)?
De interkwartielafstand (in het Engels de interquartile range, oftewel IQR) is eigenlijk voor spreidingsmaten wat de mediaan is voor centrummaten.
Data wordt gesorteerd van laag naar hoog. Daarna in 4 kwartielen verdeeld.
Na 25% = Q1 (eerste kwartiel)
Na 50% = Q2 (Tweede kwartiel)
Na 75%= Q3 (derde kwartiel)
Interkwatielafstand = Q3 - Q1
Hoe bereken je het kwadraat
Getal x getal
Wat is de Variatie, oftewel sum of squares?
- Data punt van het gemiddelde afwijkt. (datepunt - gemiddelde)
- afwijkingen te kwadrateren ( Getal x getal)
- Kwadraten bij elkaar optellen
= de sum of squares
Wat is de Variatie, oftewel sum of squares?
- Data punt van het gemiddelde afwijkt. (datepunt - gemiddelde)
- afwijkingen te kwadrateren ( Getal x getal)
- Kwadraten bij elkaar optellen
= de sum of squares
Wat is de nadeel van de sum of squares (SS)?
Het nadeel van de variatie is dat deze steeds groter wordt naarmate er datapunten bijkomen. Het betreft namelijk een som, waarbij steeds meer waarden bij elkaar opgeteld worden. Dat is onhandig, want de spreiding wordt niet noodzakelijk ook meer. Er kunnen namelijk datapunten bijkomen die heel dicht bij het gemiddelde liggen en toch wordt de variatie dan groter.
Wat is de Variantie oftewel mean squares?
Sum of Squares (afwijking gemiddeld, kwadraat optellen) : (Aantal opservaties - 1) = de mean squares (MS)
Waarom is de mean sSquares (MS) informatiever dan de Sum of Squares (SS)?
De variantie oftewel mean sSquares (MS) houdt rekening met het aantal datapunten en is daarom informatiever dan de Sum of Squares
Wat zijn vrijheidsgraden?
De noemer van deze formule, n−1, noemen we het aantal vrijheidsgraden van deze datareeks. Vrijheidsgraden, oftewel degrees of freedom (df) in het Engels, drukken uit hoeveel datapunten in een datareeks vrij kunnen variëren zonder dat de berekende statistiek verandert. Voor het gemiddelde van een datareeks zijn het aantal vrijheidsgraden n-1. Dat wil zeggen dat je in een datareeks alle datapunten behalve één willekeurige kunt veranderen. Dit ene datapunt moet een bepaalde waarde hebben om hetzelfde gemiddelde te behouden.
N = Aantal observaties
Side note: Stel je hebt een datareeks van vier observaties met een gemiddelde van 2,5. Dit betekent dat je 4-1 = 3 vrijheidsgraden hebt. Je kunt dus drie observaties willekeurig kiezen, de vierde wordt altijd bepaald. Je kiest voor de eerste drie observaties de waardes 1 2 3. De vierde observatie moet 4 zijn om op een gemiddelde van 2,5 uit te komen.
Stel je kiest voor de eerste drie observaties 0 0 0. De vierde observatie moet dan 10 zijn om het een gemiddelde van 2,5 te behouden. Dit kun je zo vaak herhalen als je wilt. Je kunt bijvoorbeeld de willekeurige waarden kiezen 28, 389 en 964. De vierde observatie moet dan -1371 zijn om op een gemiddelde van 2,5 uit te komen.
Wat geven vrijheidsgraden aan?
Het aantal vrijheidsgraden geeft aan hoeveel van deze datapunten er vrij kunnen veranderen zonder de essentie van de datareeks aan te tasten. Het aantal vrijheidsgraden verandert afhankelijk van hoeveel parameters de datareeks beschrijven. Hoe meer parameters je berekent, hoe minder waarden je willekeurig kunt aanpassen. Ingewikkelde statistische berekeningen vereisen daarom meer observaties.
De meest gebruikte spreidingsmaat is de standaardafwijking oftewel de standaarddeviatie (SD), hoe bereken je dit?
De standaardafwijking is de wortel van de variantie (mean squares) en geeft de gemiddelde afwijking van het gemiddelde weer (‘the mean distance to the mean’) Door de wortel te trekken van de mean squares is de standaarddeviatie op dezelfde schaal als het gemiddelde en daardoor makkelijker te interpreteren.
SD= MS -
Een onderzoeker berekent de standaarddeviatie, de variantie en de sum of squares. Welke van deze drie is het grootst?
De sum of squares is de variatie. De variatie is de variantie voordat deze is gecorrigeerd voor het aantal datapunten. De variatie is dus altijd groter dan de variantie. De standaarddeviatie is de wortel van de variantie en dus altijd de kleinste van de drie.
Wat is de standaardafwijking oftewel de standaarddeviatie (SD)
is de wortel van de variantie (mean squares) en geeft de gemiddelde afwijking van het gemiddelde weer (‘the mean distance to the mean’). Door de wortel te trekken van de mean squares is de standaarddeviatie op dezelfde schaal als het gemiddelde en daardoor makkelijker te interpreteren.
Wat beschrijft de verdelingsvorm?
beschrijft de manier waarop de datapunten in een datareeks zich tot elkaar en het gemiddelde verhouden
De manier waarop de datapunten om het gemiddelde heen liggen