Verkennen van data Flashcards
(62 cards)
Wat is het verschil tussen een steekproefverdeling en een steekproevenverdeling?
Steekproefverdeling (sample distribution): is de verdeling van individuele data binnen één specifieke steekproef. Bijvoorbeeld: als je 30 studenten ondervraagt over hun slaappatroon, dan is de verdeling van die 30 scores je steekproefverdeling.
Steekproevenverdeling (sampling distribution): is de kansverdeling van een steekproefgrootheid (zoals het gemiddelde) over alle mogelijke steekproeven van dezelfde grootte. Het is een theoretische verdeling.
➤ Voorbeeld: Als je 1000 steekproeven van telkens 30 studenten neemt, en je berekent telkens het gemiddelde, dan is de verdeling van al die gemiddelden je steekproevenverdeling.
Waarom is een steekproefgrootheid een toevalsvariabele?
Omdat je steekproef afhankelijk is van toeval: elke keer dat je een steekproef trekt, krijg je misschien andere mensen, en dus ook andere uitkomsten. Daardoor is het gemiddelde of de proportie uit die steekproef (de steekproefgrootheid) niet vast, maar veranderlijk – een toevalsvariabele met een verdeling (de steekproevenverdeling).
Wat gebeurt er met de steekproevenverdeling van het gemiddelde als de steekproefgrootte 𝑛 toeneemt?
Volgens de centrale limietstelling zal de steekproevenverdeling van het gemiddelde steeds meer op een normale verdeling gaan lijken
Bovendien wordt de spreiding (standaardfout) kleiner, dus de schatting van 𝜇 wordt preciezer.
Wat kun je zeggen over de standaardfout als 𝑛 groter wordt? Wat is het gevolg voor hypothesetoetsen?
Als 𝑛 groter wordt, daalt de SE.
Gevolg: je verdeling wordt smaller → kleine verschillen tussen 𝑋 en 𝜇 kunnen sneller significant worden omdat de toets “strenger” wordt. Kleine verschillen zijn dan beter detecteerbaar.
Wat gebeurt er met een grafiek als de standaardafwijking toeneemt?
De grafiek wordt breder en platter (meer spreiding).
Het betekent dat je meer variatie krijgt in de steekproefgrootheden → het wordt lastiger om een significant verschil te detecteren.
Bootstrapping wordt toegepast op een dataset van steekproefgemiddelden. Wat leer je hieruit?
Bootstrapping laat toe om de verdeling van een steekproefgrootheid te simuleren zonder eindeloos veel steekproeven uit de populatie te nemen.
Je kunt er een steekproevenverdeling mee benaderen.
Je krijgt zo betrouwbaarheidsintervallen en inzicht in de variabiliteit van je schattingen.
Wat is Listwise Deletion?
Listwise deletion betekent dat alle data van een respondent (case) uit de analyse wordt verwijderd als er één of meerdere ontbrekende waarden zijn bij de variabelen die je gebruikt in je analyse.
Voordelen en nadelen van likewise deletion?
➕ Voordelen:
Eenvoudig toe te passen
Vaak standaard ingesteld in software zoals SPSS
➖ Nadelen:
Sterke reductie in steekproefgrootte, zeker problematisch bij kleine steekproeven.
Kan leiden tot bias, zeker als de data niet toevallig (nonrandom) ontbreken.
🧠 Voorbeeld: Als een onderzoeker data verzamelt van 30 deelnemers in Antarctica en er zijn bij 5 personen enkele missende EEG-metingen, dan kan het zijn dat door listwise deletion uiteindelijk maar 2 deelnemers overblijven in de analyse. Dat is statistisch niet meer bruikbaar.
Verwaarloosbare missing data
Verwaarloosbare missing data zijn toevallig of onvermijdelijk en vereisen géén remediëring. Je hoeft er dus meestal niets aan te doen, tenzij het patroon toch verdacht is.
Reden 1 voor verwaarloosbare MD
Individuen die niet in de steekproef zitten
Er ontbreken data omdat je die mensen niet getest hebt.
- Denk aan mensen die niet opdagen, weigeren, of waar het niet tot deelname kwam.
Oplossing: Meer mensen gaan testen – niet zelf fictieve data gaan verzinnen!
Voorbeeld: Je wil 100 mensen bevragen, maar slechts 87 vullen de vragenlijst volledig in. De 13 die niet meedoen zijn geen “missing data” in je analyse, maar reflecteren gewoon dat je steekproef niet volledig is.
Reden 2 voor verwaarloosbare MD
Skip-patronen / branching
Bij sommige vragenlijsten wordt, afhankelijk van het antwoord op een eerdere vraag, een deel van de vragen overgeslagen.
Dit is opzettelijk en maakt deel uit van het design.
✏️ Voorbeeld: “Rookt u?” → Nee → “Ga naar vraag 10”. Vraag 5 t.e.m. 9 zijn dan legitiem niet ingevuld.
Reden 3 voor verwaarloosbare MD
Censored data (afgebroken of niet beschikbaar)
Bij longitudinale studies kan het zijn dat iemand tijdens het onderzoek wegvalt (bv. door overlijden, verhuis, of afhaken).
Die data ontbreken om een praktische of externe reden.
✏️ Voorbeeld: In een 5-jaar durende studie naar levenskwaliteit bij kankerpatiënten overlijdt iemand in jaar 3. Dan ontbreken de laatste twee jaar aan data = censored.
Wat is het probleem met Missing Data?
Statistische power daalt door kleinere N.
Interpretaties kunnen fout zijn als de ontbrekende data systematisch zijn (non-random).
Bias ontstaat als bepaalde groepen ondervertegenwoordigd zijn in de data.
Types Missing Data (stap 3 in de analyse)
MCAR (Missing Completely At Random): geen verband met enige variabele.
MAR (Missing At Random): wel verband met andere variabelen, maar niet met de missende zelf.
MNAR (Missing Not At Random): oorzaak hangt samen met de ontbrekende waarde zelf (bijv. hoge inkomens verzwijgen hun loon).
Wat doe je met Missing Data?
Verwaarloosbare MD: Geen actie, tenzij omvang té groot is
Gekende, niet-verwaarloosbare MD: Rapporteren, eventueel imputatie toepassen
Onbekende MD: Analyse uitvoeren (t-test, correlatie, visueel), remedie nodig
Welke van onderstaande vormen van missing data is een voorbeeld van verwaarloosbare missing data?
A. Een respondent weigert te antwoorden op een gevoelige vraag
B. Een respondent overlijdt tijdens een longitudinale studie
C. Een vragenlijst bevat skip-logica die bepaalde vragen overslaat
D. Inkomensdata ontbreken voornamelijk bij de hoogste inkomens
Juist antwoord: C
Waarom is het bij verwaarloosbare missing data niet nodig om te remediëren? Geef een voorbeeld.
Bij verwaarloosbare missing data is het ontbreken van data verklaarbaar door het design (zoals skip-patronen) of externe factoren zoals censored data. Deze zijn dus geen indicatie van een probleem met de data. Voorbeeld: als iemand aangeeft niet te roken, hoeven vervolgvragen over rookgedrag niet ingevuld te worden.
Welke oplossing past het best bij de situatie waarin data ontbreken omdat sommige mensen nooit bevraagd zijn?
A. Imputatie
B. Meer mensen testen
C. Listwise deletion
D. Variabelen verwijderen
Juist antwoord: B Meer mensen testen
-> Je moet simpelweg je steekproef vergroten.
Wat is imputatie?
= ontbrekende data aanvullen met geschatte waarden.
❗Belangrijk: altijd transparant rapporteren in je verslag dat je imputatie hebt toegepast!
Hoe omgaan met MD in praktijk? stap 1
Stap 1: Soort missing data bepalen
→ Vraag je af: Waarom zijn de data er niet?
Verwaarloosbaar (geen actie nodig):
Niet-verwaarloosbaar (bekend):
- Codeerfouten
- Niet ingevulde vragen
- Weigering op gevoelige items
Niet-verwaarloosbaar (onbekend):
- Geen duidelijke reden, vermoedelijk gerelateerd aan respondent zelf
Hoe omgaan met MD in praktijk? stap 2
Stap 2: Hoeveel data is missing?
<10% per case: weinig impact → remedies mogelijk
> 10% of veel variabelen/cases: grondig analyseren
Hoe omgaan met MD in praktijk? stap 3
Stap 3: Is het toeval of systematisch?
→ Welke missing data mechanismen zijn er?
MCAR (completely at random): alles is willekeurig → oké
MAR (at random, afhankelijk van andere variabelen): vaak → oké met imputatie
MNAR (not at random, systematisch): problematisch! → opletten met bias
Hoe onderzoeken?
- Visuele inspectie
- T-toetsen / correlaties tussen cases met vs. zonder missing
- Runs Test / Chi² test voor randomness
Hoe omgaan met MD in praktijk? stap 3
Stap 4: Wat doe je ermee (remedies)?
→ Afhankelijk van de aard van de MD
- MCAR of MAR ✅ Imputatie
- MNAR ⚠️ Opletten: bias mogelijk
- Kleine hoeveelheid MD ❓ Geen actie of eenvoudige imputatie
- Veel MD (random) 🔄 Imputatie of model-gebaseerde aanpak
- Listwise Deletion? ❌ Enkel als laatste optie bij kleine MD
Wat is een correcte uitspraak over outliers?
A. Ze moeten altijd verwijderd worden uit de data
B. Ze zijn altijd het gevolg van een invoerfout
C. Ze kunnen legitieme waarnemingen zijn met grote invloed op de analyse
D. Ze maken alle statistische analyses ongeldig
→ Correct antwoord: C