Verkennen van data Flashcards

(62 cards)

1
Q

Wat is het verschil tussen een steekproefverdeling en een steekproevenverdeling?

A

Steekproefverdeling (sample distribution): is de verdeling van individuele data binnen één specifieke steekproef. Bijvoorbeeld: als je 30 studenten ondervraagt over hun slaappatroon, dan is de verdeling van die 30 scores je steekproefverdeling.

Steekproevenverdeling (sampling distribution): is de kansverdeling van een steekproefgrootheid (zoals het gemiddelde) over alle mogelijke steekproeven van dezelfde grootte. Het is een theoretische verdeling.
➤ Voorbeeld: Als je 1000 steekproeven van telkens 30 studenten neemt, en je berekent telkens het gemiddelde, dan is de verdeling van al die gemiddelden je steekproevenverdeling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Waarom is een steekproefgrootheid een toevalsvariabele?

A

Omdat je steekproef afhankelijk is van toeval: elke keer dat je een steekproef trekt, krijg je misschien andere mensen, en dus ook andere uitkomsten. Daardoor is het gemiddelde of de proportie uit die steekproef (de steekproefgrootheid) niet vast, maar veranderlijk – een toevalsvariabele met een verdeling (de steekproevenverdeling).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wat gebeurt er met de steekproevenverdeling van het gemiddelde als de steekproefgrootte 𝑛 toeneemt?

A

Volgens de centrale limietstelling zal de steekproevenverdeling van het gemiddelde steeds meer op een normale verdeling gaan lijken

Bovendien wordt de spreiding (standaardfout) kleiner, dus de schatting van 𝜇 wordt preciezer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat kun je zeggen over de standaardfout als 𝑛 groter wordt? Wat is het gevolg voor hypothesetoetsen?

A

Als 𝑛 groter wordt, daalt de SE.
Gevolg: je verdeling wordt smaller → kleine verschillen tussen 𝑋 en 𝜇 kunnen sneller significant worden omdat de toets “strenger” wordt. Kleine verschillen zijn dan beter detecteerbaar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat gebeurt er met een grafiek als de standaardafwijking toeneemt?

A

De grafiek wordt breder en platter (meer spreiding).

Het betekent dat je meer variatie krijgt in de steekproefgrootheden → het wordt lastiger om een significant verschil te detecteren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Bootstrapping wordt toegepast op een dataset van steekproefgemiddelden. Wat leer je hieruit?

A

Bootstrapping laat toe om de verdeling van een steekproefgrootheid te simuleren zonder eindeloos veel steekproeven uit de populatie te nemen.

Je kunt er een steekproevenverdeling mee benaderen.

Je krijgt zo betrouwbaarheidsintervallen en inzicht in de variabiliteit van je schattingen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat is Listwise Deletion?

A

Listwise deletion betekent dat alle data van een respondent (case) uit de analyse wordt verwijderd als er één of meerdere ontbrekende waarden zijn bij de variabelen die je gebruikt in je analyse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Voordelen en nadelen van likewise deletion?

A

➕ Voordelen:
Eenvoudig toe te passen

Vaak standaard ingesteld in software zoals SPSS

➖ Nadelen:
Sterke reductie in steekproefgrootte, zeker problematisch bij kleine steekproeven.

Kan leiden tot bias, zeker als de data niet toevallig (nonrandom) ontbreken.

🧠 Voorbeeld: Als een onderzoeker data verzamelt van 30 deelnemers in Antarctica en er zijn bij 5 personen enkele missende EEG-metingen, dan kan het zijn dat door listwise deletion uiteindelijk maar 2 deelnemers overblijven in de analyse. Dat is statistisch niet meer bruikbaar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Verwaarloosbare missing data

A

Verwaarloosbare missing data zijn toevallig of onvermijdelijk en vereisen géén remediëring. Je hoeft er dus meestal niets aan te doen, tenzij het patroon toch verdacht is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Reden 1 voor verwaarloosbare MD

A

Individuen die niet in de steekproef zitten
Er ontbreken data omdat je die mensen niet getest hebt.

  • Denk aan mensen die niet opdagen, weigeren, of waar het niet tot deelname kwam.

Oplossing: Meer mensen gaan testen – niet zelf fictieve data gaan verzinnen!

Voorbeeld: Je wil 100 mensen bevragen, maar slechts 87 vullen de vragenlijst volledig in. De 13 die niet meedoen zijn geen “missing data” in je analyse, maar reflecteren gewoon dat je steekproef niet volledig is.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Reden 2 voor verwaarloosbare MD

A

Skip-patronen / branching
Bij sommige vragenlijsten wordt, afhankelijk van het antwoord op een eerdere vraag, een deel van de vragen overgeslagen.

Dit is opzettelijk en maakt deel uit van het design.

✏️ Voorbeeld: “Rookt u?” → Nee → “Ga naar vraag 10”. Vraag 5 t.e.m. 9 zijn dan legitiem niet ingevuld.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Reden 3 voor verwaarloosbare MD

A

Censored data (afgebroken of niet beschikbaar)
Bij longitudinale studies kan het zijn dat iemand tijdens het onderzoek wegvalt (bv. door overlijden, verhuis, of afhaken).

Die data ontbreken om een praktische of externe reden.

✏️ Voorbeeld: In een 5-jaar durende studie naar levenskwaliteit bij kankerpatiënten overlijdt iemand in jaar 3. Dan ontbreken de laatste twee jaar aan data = censored.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is het probleem met Missing Data?

A

Statistische power daalt door kleinere N.

Interpretaties kunnen fout zijn als de ontbrekende data systematisch zijn (non-random).

Bias ontstaat als bepaalde groepen ondervertegenwoordigd zijn in de data.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Types Missing Data (stap 3 in de analyse)

A

MCAR (Missing Completely At Random): geen verband met enige variabele.

MAR (Missing At Random): wel verband met andere variabelen, maar niet met de missende zelf.

MNAR (Missing Not At Random): oorzaak hangt samen met de ontbrekende waarde zelf (bijv. hoge inkomens verzwijgen hun loon).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat doe je met Missing Data?

A

Verwaarloosbare MD: Geen actie, tenzij omvang té groot is

Gekende, niet-verwaarloosbare MD: Rapporteren, eventueel imputatie toepassen
Onbekende MD: Analyse uitvoeren (t-test, correlatie, visueel), remedie nodig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Welke van onderstaande vormen van missing data is een voorbeeld van verwaarloosbare missing data?

A

A. Een respondent weigert te antwoorden op een gevoelige vraag
B. Een respondent overlijdt tijdens een longitudinale studie
C. Een vragenlijst bevat skip-logica die bepaalde vragen overslaat
D. Inkomensdata ontbreken voornamelijk bij de hoogste inkomens

Juist antwoord: C

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Waarom is het bij verwaarloosbare missing data niet nodig om te remediëren? Geef een voorbeeld.

A

Bij verwaarloosbare missing data is het ontbreken van data verklaarbaar door het design (zoals skip-patronen) of externe factoren zoals censored data. Deze zijn dus geen indicatie van een probleem met de data. Voorbeeld: als iemand aangeeft niet te roken, hoeven vervolgvragen over rookgedrag niet ingevuld te worden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Welke oplossing past het best bij de situatie waarin data ontbreken omdat sommige mensen nooit bevraagd zijn?

A

A. Imputatie
B. Meer mensen testen
C. Listwise deletion
D. Variabelen verwijderen

Juist antwoord: B Meer mensen testen
-> Je moet simpelweg je steekproef vergroten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Wat is imputatie?

A

= ontbrekende data aanvullen met geschatte waarden.
❗Belangrijk: altijd transparant rapporteren in je verslag dat je imputatie hebt toegepast!

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Hoe omgaan met MD in praktijk? stap 1

A

Stap 1: Soort missing data bepalen
→ Vraag je af: Waarom zijn de data er niet?
Verwaarloosbaar (geen actie nodig):

Niet-verwaarloosbaar (bekend):
- Codeerfouten
- Niet ingevulde vragen
- Weigering op gevoelige items

Niet-verwaarloosbaar (onbekend):
- Geen duidelijke reden, vermoedelijk gerelateerd aan respondent zelf

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Hoe omgaan met MD in praktijk? stap 2

A

Stap 2: Hoeveel data is missing?
<10% per case: weinig impact → remedies mogelijk

> 10% of veel variabelen/cases: grondig analyseren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Hoe omgaan met MD in praktijk? stap 3

A

Stap 3: Is het toeval of systematisch?
→ Welke missing data mechanismen zijn er?

MCAR (completely at random): alles is willekeurig → oké

MAR (at random, afhankelijk van andere variabelen): vaak → oké met imputatie

MNAR (not at random, systematisch): problematisch! → opletten met bias

Hoe onderzoeken?

  • Visuele inspectie
  • T-toetsen / correlaties tussen cases met vs. zonder missing
  • Runs Test / Chi² test voor randomness
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Hoe omgaan met MD in praktijk? stap 3

A

Stap 4: Wat doe je ermee (remedies)?
→ Afhankelijk van de aard van de MD
- MCAR of MAR ✅ Imputatie

  • MNAR ⚠️ Opletten: bias mogelijk
  • Kleine hoeveelheid MD ❓ Geen actie of eenvoudige imputatie
  • Veel MD (random) 🔄 Imputatie of model-gebaseerde aanpak
  • Listwise Deletion? ❌ Enkel als laatste optie bij kleine MD
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Wat is een correcte uitspraak over outliers?

A

A. Ze moeten altijd verwijderd worden uit de data
B. Ze zijn altijd het gevolg van een invoerfout
C. Ze kunnen legitieme waarnemingen zijn met grote invloed op de analyse
D. Ze maken alle statistische analyses ongeldig

→ Correct antwoord: C

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Welke methode is het meest geschikt voor het detecteren van multivariate outliers?
A. Histogram B. Boxplot C. Mahalanobis Distance D. Z-score > 2.5 → Correct antwoord: C
26
Wanneer kan het verantwoord zijn om een outlier niet te verwijderen?
A. Als het een coderingsfout is B. Als de outlier een reële representatie is van een subgroep binnen je populatie C. Als het de resultaten in jouw voordeel verandert D. Als er minder dan 30 respondenten zijn → Correct antwoord: B
27
Leg uit wat een sensitiviteitsanalyse is in de context van outliers.
Een sensitiviteitsanalyse onderzoekt wat de impact is op de resultaten wanneer je een outlier verwijdert of behoudt. Je vergelijkt dus de output van je analyse met en zonder de outlier om te zien hoe gevoelig je resultaten zijn voor deze waarneming.
28
Welke uitspraak over de Kolmogorov-Smirnov test is correct?
A. Deze test meet skewness rechtstreeks B. De nulhypothese stelt dat de verdeling niet normaal is C. Bij grote steekproeven detecteert de test zelfs kleine afwijkingen van normaliteit D. De test wordt enkel gebruikt bij N > 200 → Correct antwoord: C
29
Welke van onderstaande grafieken toont of data normaal verdeeld is?
A. Boxplot B. Histogram C. Normal Q-Q plot D. Scatterplot → Correct antwoord: C
30
Wanneer mag je parametische toetsen zoals ANOVA gebruiken ondanks schending van normaliteit?
A. Als je outliers hebt B. Als je N > 200 is en de toets robuust is C. Als je Q-Q plot perfect recht is D. Als de data MCAR is → Correct antwoord: B
31
Beschrijf het verschil tussen skewness en kurtosis.
Skewness meet de asymmetrie van een verdeling (links- of rechts-scheef), terwijl kurtosis de gepiektheid of platheid meet in vergelijking met een normale verdeling. Beide moeten ongeveer 0 zijn bij een normale verdeling.
32
Welke vorm van missing data is het moeilijkst te corrigeren?
A. MCAR B. MAR C. MNAR D. MCAR en MAR zijn even moeilijk → Correct antwoord: C
33
10. Wat is een correcte uitspraak over imputatie?
A. Je mag het enkel gebruiken bij MCAR B. Het is een manier om systematische fouten op te lossen C. Het vult ontbrekende waarden aan met geschatte waarden D. Het is gelijk aan listwise deletion → Correct antwoord: C
34
Leg uit wanneer je voor multiple imputation zou kiezen i.p.v. gemiddelde-invulling.
Multiple imputation is geschikter als er veel missende waarden zijn of als de ontbrekende data MAR is. Het houdt rekening met de onzekerheid van de schattingen door meerdere datasets te creëren, terwijl gemiddelde-invulling variabiliteit onderschat en bias kan veroorzaken.
35
Welke combinatie gebruik je best om te beoordelen of een variabele normaal verdeeld is?
A. Boxplot, histogram, scatterplot B. Q-Q plot, skewness, kurtosis C. T-toets en Levene’s test D. Histogram, modus, mediaan → Correct antwoord: B
36
2. Welke uitspraak klopt NIET over de Kolmogorov-Smirnov test?
A. Het is gevoelig aan steekproefgrootte B. De nulhypothese stelt dat de verdeling normaal is C. Het geeft betrouwbare info bij grote N (> 200) D. Een significante waarde betekent dat de verdeling afwijkt van normaliteit → Correct antwoord: C
37
Welke grafieken gebruik je om normaliteit van de data te beoordelen? Wat toon je hiermee?
Histogram → frequentieverdeling (visuele indruk) Normal P-P plot → cumulatieve verdelingen vergelijken Normal Q-Q plot → kwantielen vergelijken met normaalverdeling Skewness & kurtosis → kwantitatieve afwijking van normaalverdeling
38
Wat zijn residuals?
Residuals zijn het verschil tussen de geobserveerde waarde (wat je meet) en de voorspelde waarde (wat je model voorspelt). In regressie: Residual = Geobserveerde Y – Voorspelde Y Waarom belangrijk? Als residuals niet normaal verdeeld zijn, heb je systematische fouten in je model (dus je model mist iets, bv. een patroon of groep).
39
Wat betekent homoscedasticiteit in regressieanalyse?
A. De gemiddelden van de groepen zijn gelijk B. De variantie van de afhankelijke variabele is constant over de onafhankelijke variabele C. De fout is normaal verdeeld D. Er zijn geen outliers → Correct antwoord: B
40
Welke uitspraak klopt over heteroscedasticiteit?
A. Het wijst op gelijke spreiding B. Het maakt een model robuuster C. Het schaadt de betrouwbaarheid van voorspellingen D. Het is altijd te wijten aan missing data → Correct antwoord: C
41
Hoe zou je grafisch homoscedasticiteit kunnen beoordelen?
Residual plot (scatterplot van residuals tegen voorspelde waarden): bij homoscedasticiteit zie je een willekeurig patroon, zonder waaiervorm.
42
Waarom is homoscedasticiteit belangrijk?
Als variantie ongelijk is (heteroscedasticiteit), kunnen schattingen van standaardfouten fout zijn → foutieve p-waarden → foutieve conclusies. Vooral belangrijk bij regressie & ANOVA.
43
Waarom kan ANOVA soms toch gebruikt worden, ook al zijn de assumpties niet volledig voldaan?
A. Omdat het altijd betrouwbaar is B. Omdat het minder gevoelig is aan skewness bij grote steekproeven C. Omdat het geen variantie vergelijkt D. Omdat het enkel op rangorden werkt → Correct antwoord: B
44
8. Leg uit waarom ANOVA als ‘robuust’ beschouwd kan worden. In welke situaties mag je het toch gebruiken?
Bij voldoende grote N (> 200) werkt ANOVA redelijk goed, zelfs als residuals licht afwijken van normaliteit. Hoofdeffecten zijn vaak robuuster dan interactie-effecten. Sensitiviteitsanalyse kan helpen om te zien of uitkomsten veranderen bij alternatieve aannames.
45
Wat is Mahalanobis Distance?
Meet hoe ver een observatie ligt van het multivariate centrum (gemiddelde) van alle data. Houdt rekening met correlaties tussen variabelen (anders dan z-score). Hoe groter de afstand, hoe meer kans dat het om een multivariate outlier gaat.
46
Waarom kan een log-transformatie leiden tot een overtreding van de assumptie van homoscedasticiteit? Geef een voorbeeld.
Een log-transformatie verkleint grotere waarden en vergroot kleinere verschillen, waardoor de spreiding meer gelijk wordt. Maar als je bijvoorbeeld data hebt waarbij waarden al redelijk homogeen zijn, kan een log-transformatie de spreiding juist schever maken — dus meer heteroscedastisch. Voorbeeld: Stel je hebt inkomen in euro’s bij een populatie waarbij iedereen tussen de €20.000 en €30.000 verdient → weinig spreiding. Als je dit log-transformeert, worden de verschillen kunstmatig vergroot aan de onderkant, wat kan leiden tot ongelijke varianties tussen groepen.
47
Wat is het verschil in interpretatie tussen een ruwe reactietijd en een getransformeerde (log of inverse) reactietijd?
Ruwe reactietijd (RT): wordt geïnterpreteerd in milliseconden of seconden — hoe langer de tijd, hoe trager de reactie. Log(RT): verandert de schaal, waarbij extreme RT’s worden afgezwakt; interpretatie is minder intuïtief → verandering in log-seconden. Inverse(RT): keert het perspectief om — hoe hoger de waarde, hoe sneller de reactie → dit representeert reactiesnelheid in plaats van reactietijd. Transformeren verandert dus de betekenis van je variabele, niet alleen de verdeling.
48
Wat betekent het als je bij een ANOVA een niet-significant resultaat krijgt, maar na transformatie wel een significant verschil vindt? Wat zegt dit over je data?
Dit wijst erop dat je oorspronkelijke data de assumptie van homoscedasticiteit (gelijke variantie) hebben geschonden, waardoor de F-waarde niet betrouwbaar was. Na de transformatie (bijv. log) is de variantie over groepen gelijker → je model voldoet aan de assumpties → je krijgt een correct berekende F-waarde → je vindt nu wel een significant verschil. Dus: het initiële niet-significante resultaat was fout-negatief, veroorzaakt door overtreding van assumpties.
49
Beschrijf een situatie waarin het niet gepast is om data te transformeren, ondanks dat de assumpties geschonden zijn.
Wanneer de inhoudelijke interpretatie zwaarder weegt dan de statistische assumpties, kan transformatie ongepast zijn. Voorbeeld: Bij het meten van klinische drempelwaarden, zoals bloeddruk of depressiescores, wil je de echte schaal behouden voor interpretatie en communicatie. → Log(150 mmHg) betekent niets voor een arts. → Ook in beleidscontexten zijn de ruwe waarden vaak betekenisvoller dan getransformeerde. Je kiest er dan voor om robuuste of niet-parametrische alternatieven te gebruiken in plaats van te transformeren.
50
Waarom data transformeren?
Doel: Voldoen aan assumpties voor parametrische analyses zoals ANOVA of regressie: Normaliteit: data moet normaal verdeeld zijn (zeker residuals). Homoscedasticiteit: gelijke spreiding (variantie) in alle condities/groepen. Lineariteit: verband tussen voorspeller en afhankelijke variabele moet lineair zijn. Door data te transformeren (bv. log, wortel, kwadraat), worden verdelingen “symmetrischer” (minder scheef) en kan de variantie gelijker worden verdeeld over groepen → betere validiteit van je testresultaten.
51
Wat betekenen typische transformaties?
Log-transformatie (log(x)) → goed bij positieve skew (staart rechts). Helpt om grote waarden te “drukken”. Worteltransformatie (√x) → mildere correctie voor skew. Inverse transformatie (1/x) → keert grote waarden volledig om. Kwadrateren (x²) → gebruiken bij negatieve skew (staart links). Z-transformatie of centrering (x – μ) → maakt variabelen interpreteerbaar t.o.v. het gemiddelde. 🔁 “Ladder of powers” → je kiest een transformatie o.b.v. de richting en ernst van de skewness.
52
Nadelen tranformaties
Interpretatie moeilijker (bijv. log-RT is niet meer reactietijd maar reactiesnelheid). Theoretisch betekenisverlies: bv. wat betekent RT⁵ psychologisch? Assumpties kunnen net geschonden worden: bv. log-transformatie reduceert skew, maar kan homoscedasticiteit schenden als spreiding ongelijkmatig getransformeerd wordt.
53
Wat is het belangrijkste gevolg van het negeren van homoscedasticiteit bij een ANOVA?
A. Je krijgt foutieve gemiddelden B. De F-waarde wordt overschat of onderschat C. Je mist outliers D. De data wordt niet normaal verdeeld Antwoord: B
54
Wat doet een log-log regressiemodel?
A. Meet het verschil in gemiddelden B. Berekent elasticiteit tussen X en Y C. Schat odds-ratio’s D. Detecteert outliers Antwoord: B
55
Voordeel van log-transormaties
Ze kunnen kleine spreidingen groter maken
56
Welke van de volgende transformaties wordt gebruikt wanneer zowel de afhankelijke als onafhankelijke variabele worden gelogd, en wat beschrijft dit dan?
A) Lineair-log model – effect van een procentuele verandering in X op absolute Y B) Log-lineair model – effect van een procentuele verandering in Y op X C) Log-log model – elasticiteit: procentuele verandering in Y bij procentuele verandering in X D) Mean-centering – log-transformatie waarbij het gemiddelde wordt afgetrokken Antwoord: C
57
Welke assumpties kan een datatransformatie proberen te corrigeren?
A) Normaliteit, lineariteit, onafhankelijkheid B) Normaliteit, homoscedasticiteit, lineariteit C) Multicollineariteit, causaliteit, residuen D) Homoscedasticiteit, autocorrelatie, effectgrootte Antwoord: B
58
Wat is het effect van mean-centrering op de interpretatie van data?
A) Alle waarden worden gestandaardiseerd naar z-scores B) De data worden gedeeld door het gemiddelde C) De data worden getransformeerd naar procentuele verandering D) De data worden uitgedrukt als afwijkingen t.o.v. het gemiddelde Antwoord: D
59
Wat is multicoliniariteit?
Het betekent dat de onafhankelijke variabelen sterk met elkaar samenhangen. Daardoor wordt het moeilijk om het effect van elke variabele afzonderlijk te beoordelen. Multicollineariteit kan problematisch zijn omdat het de nauwkeurigheid en interpretatie van de regressieanalyse kan beïnvloeden.
60
Leg uit wat het verschil is tussen een log-lineair en een log-log model.
Log-lineair model: Hierbij neem je de logarithme van de afhankelijke variabele (Y), maar laat je de onafhankelijke variabele (X) ongemoeid. Interpretatie: een verandering van één eenheid in X leidt tot een procentuele verandering in Y. → Dit wordt vaak gebruikt als je veranderingen in Y relatief zijn, maar X op een gewone schaal blijft. Voorbeeld: log(inkomen) voorspellen op basis van jaren ervaring → elke extra jaar ervaring leidt tot een % stijging in inkomen. Log-log model: Hierbij neem je de log van zowel Y als X. Interpretatie: een procentuele verandering in X leidt tot een procentuele verandering in Y → dit is wat men noemt elasticiteit. Wordt veel gebruikt in economie of gedragsmodellen. Voorbeeld: log(uitgaven) als functie van log(inkomen) → een stijging van 10% in inkomen leidt tot bv. 6% stijging in uitgaven. Kort samengevat: Log-lineair: 1 eenheid verandering in X = % verandering in Y Log-log: % verandering in X = % verandering in Y
61
Wat is het doel van mean-centrering in regressiemodellen? Geef ook een situatie waarin dit nuttig is.
Doel van mean-centering: Je trekt het gemiddelde af van elke waarde van een variabele, zodat de nieuwe gemiddelde waarde nul is. Dit behoudt de spreiding en onderlinge relaties, maar maakt de interpretatie stabieler en overzichtelijker, zeker in interactiemodellen of bij multicollineariteit. Belangrijkste voordelen: Vermindert multicollineariteit tussen een predictor en een interactieterm. Maakt het intercept (snijpunt) in regressie interpreteerbaar: het wordt de verwachte waarde van Y wanneer X op gemiddeld niveau staat. Voorbeeldsituatie: Stel je onderzoekt het effect van stressniveau en leeftijd op prestatie, en je voegt een interactie toe tussen stress en leeftijd. → Zonder mean-centering zal er sterke correlatie ontstaan tussen de hoofdtermen en hun interactie, wat regressiecoëfficiënten instabiel maakt. → Na mean-centering zijn de predictoren “deviaties t.o.v. het gemiddelde”, en de interactie is statistisch veel robuuster.
62
Waarom is het belangrijk om assumpties te controleren alvorens data te transformeren? Geef een concreet voorbeeld van een mislukte transformatie.
Waarom controleren? Omdat transformaties de interpretatie van data veranderen en niet altijd nodig zijn. Als je transformeert zonder te checken of het echt nodig is, kan je je analyses verkeerd aanpassen en onjuiste conclusies trekken. Mislukte transformatie – voorbeeld: Stel je meet satisfactie op een 5-puntsschaal (Likert) en je besluit dit te log-transformeren om “normaliteit” te bekomen. → Probleem: log-transformatie op discrete, gelimiteerde data (1–5) is niet zinvol, want: Het verandert het meetniveau zonder echte betekenis De data zijn niet continu of positief-schaalmatig Interpretatie van log(1) = 0, log(2) ≈ 0.3 etc. is niet intuïtief noch correct → Je bent dus beter af met een ordinale analyse of niet-parametrische test.