Meervoudige regressie Flashcards

(41 cards)

1
Q

Leg uit waarom regressieanalyse niet geschikt is om causaliteit aan te tonen. Geef ook een concreet voorbeeld.

A

Regressie toont enkel statistische samenhang tussen variabelen. Het zegt niets over oorzakelijkheid omdat er externe, niet-gemeten variabelen kunnen zijn (confounders), en de richting van het effect kan onduidelijk zijn.

Voorbeeld: Een regressie toont aan dat ijsverkoop samenhangt met het aantal verdrinkingen. Maar ijsverkoop veroorzaakt geen verdrinkingen — warm weer is de onderliggende factor.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Verschil tussen verklaren en voorspellen?

A

Verklaren: je probeert te begrijpen waarom iets gebeurt (theoretisch inzicht).

Voorspellen: je wil weten wat er zal gebeuren op basis van gegevens, zonder nood aan inzicht in het mechanisme.
Voorbeeld: Je kan examenresultaten voorspellen op basis van studietijd, zonder exact te weten waarom meer studeren helpt (verklaring).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Waarom voorzichtig met categorische OV’s zoals geslacht?

A

Categorische variabelen zoals geslacht hebben geen numerieke schaal. Ze worden daarom omgezet in dummyvariabelen (bv. man = 0, vrouw = 1). De interpretatie van de regressiecoëfficiënt moet dan gebeuren t.o.v. een referentiecategorie.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

b1 = 0 → interpretatie?

A

Als b1 = 0, verandert de AV niet wanneer de OV verandert. Er is dan geen lineair verband tussen de twee variabelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Waarom wordt bij een dichotome afhankelijke variabele (zoals geslaagd/niet geslaagd) geen lineaire regressie gebruikt? Wat wordt er dan toegepast en waarom?

A

Lineaire regressie veronderstelt dat de AV een continue schaal heeft. Bij een dichotome AV (bv. geslaagd/niet geslaagd), zijn er slechts twee waarden. Daarom gebruik je logistische regressie, een transformatie van een bepaalde variabele om een lineaire model daarop te kunnen schatten

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Een student beweert: “Als de regressiecoëfficiënt b1 positief is, dan is er een causaal verband tussen de OV en AV.” Wat klopt er niet aan deze uitspraak? Leg uit.

A

Fout! Een positieve b1 wijst enkel op een positieve samenhang, niet op causaliteit. Er kunnen externe factoren zijn die zowel de OV als AV beïnvloeden, of de richting van het effect is onduidelijk.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Leg uit wat er bedoeld wordt met: ‘Wanneer x = 0, dan bepaalt b0 de waarde van ŷ’. Geef ook aan in welke situaties het interpreteren van b0 niet zinvol is.

A

b0 is het intercept, de waarde van ŷ wanneer x = 0.
Dit is enkel zinvol wanneer x = 0 een realistische waarde is.
Voorbeeld: bij leeftijd als OV is x = 0 (dus pasgeborene) misschien zinvol, maar bij “aantal diploma’s” kan x = 0 (geen diploma) een zeldzaam of niet-relevant datapunt zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Wat is het voordeel van een meervoudige regressieanalyse t.o.v. een enkelvoudige regressie? Geef een concreet voorbeeld waarin dit voordeel duidelijk wordt.

A

Je kunt meerdere OV’s tegelijk opnemen, wat toelaat om de unieke bijdrage van elke variabele te isoleren terwijl je controleert voor andere factoren.
Voorbeeld: je onderzoekt de invloed van zowel inkomen als opleiding op uitgaven. Zo zie je het effect van inkomen terwijl opleiding constant is gehouden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

In een meervoudig regressiemodel worden inkomen, opleiding en geslacht opgenomen als OV’s. Wat betekent het dat het effect van inkomen ‘gecontroleerd’ is voor de andere variabelen?

A

In meervoudige regressie betekent dit dat het effect van bv. inkomen wordt berekend terwijl opleiding en geslacht constant worden gehouden. Je meet dus het unieke effect van inkomen, zonder verstoring door de andere OV’s.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Leg uit wat het principe van parsimonie betekent binnen regressieanalyse. Waarom is het belangrijk om dit principe toe te passen bij modelselectie?

A

Het parsimonie-principe stelt dat je een model moet gebruiken dat met zo weinig mogelijk predictoren zoveel mogelijk variabiliteit verklaart
Een model met té veel predictoren wordt complex, moeilijk interpreteerbaar en kan slecht generaliseren naar nieuwe data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Wat betekent overfitting in regressieanalyse? hoe kun je het vermijden?

A

Overfitting treedt op wanneer een regressiemodel teveel predictoren bevat.
Je kan het vermijden door:

Parsimonie toe te passen

Alleen predictoren in het model op te nemen die theoretisch of empirisch relevant zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Een student zegt: “Als ik al 10% van de variantie in angst kan verklaren met gezinssituatie, is dat voldoende en hoef ik geen andere predictoren toe te voegen.”
Beoordeel deze uitspraak kritisch.

A

Deze uitspraak is onjuist. 10% verklaarde variantie betekent dat 90% van de variabiliteit nog onverklaard blijft. Meervoudige regressie laat toe om andere relevante predictoren toe te voegen (bv. sociale steun, SES, genetische factoren), waardoor de totale verklaarde variantie stijgt en de residuen afnemen.
→ Dit leidt tot een nauwkeuriger model.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Wat is een residu in regressieanalyse? Waarom proberen we de som van de gekwadrateerde residuen te minimaliseren?

A

Een residu is het verschil tussen de geobserveerde waarde van de AV (𝑦ᵢ) en de voorspelde waarde op basis van het regressiemodel (ŷᵢ): 𝑒ᵢ = 𝑦ᵢ - ŷᵢ
Door de som van de gekwadrateerde residuen te minimaliseren (OLS-methode), vinden we de beste fit van het model voor de data. Kwadrateren voorkomt dat positieve en negatieve afwijkingen elkaar opheffen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Leg uit waarom de vrijheidsgraden bij het schatten van de foutvariantie gelijk zijn aan n – (p + 1) in een regressiemodel.

A

In regressie worden p + 1 parameters geschat: p regressiecoëfficiënten + 1 intercept. Elke geschatte parameter “kost” een vrijheidsgraad.
Dus:
Totale steekproefgrootte (n) – aantal geschatte parameters (p + 1) = vrijheidsgraden
Deze vrijheidsgraden gebruik je om een onpartijdige schatter van de variantie (σ²) te verkrijgen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is het verschil tussen een populatieregressievergelijking en een regressievergelijking op basis van een steekproef?

A

Populatieregressievergelijking:
μᵧ = β₀ + β₁X₁ + … + βₚXₚ → bevat onbekende parameters (β) en standaardafwijking σ

Steekproefmodel:
ŷ = b₀ + b₁x₁ + … + bₚxₚ → schattingen van de populatieparameters op basis van gegevens
We gebruiken de steekproef om uitspraken te doen over de populatie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Wat zegt een kleinere waarde van σ² (de variantie van de residuen) over de kwaliteit van een regressiemodel?

A

Een kleinere σ² betekent dat de geobserveerde waarden dichter bij de regressielijn liggen → betere fit, minder voorspelfout. Het model voorspelt dus nauwkeuriger.
Let op: Een lage σ² betekent niet automatisch dat het model goed is – het kan ook komen door overfitting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Stel je voor dat je angst wil voorspellen met drie variabelen: stressniveau, sociale steun en slaappatroon. Je model verklaart 80% van de variantie.
Wat zegt dit over je model en over het principe van parsimonie?

A

Een model dat met slechts drie variabelen 80% van de variantie verklaart, is sterk én parsimonieus. Je verklaart veel met weinig → eenvoudig, interpreteerbaar en krachtig model.

18
Q

Wat wordt er precies getoetst met een t-toets in het kader van een regressieanalyse?

A

A. Of de afhankelijke variabele normaal verdeeld is
B. Of de regressiecoëfficiënt significant verschilt van 0
C. Of het model significant beter is dan een leeg model
D. Of de variantie van de fouttermen constant is
✅ Correct antwoord: B
📝 Verklaring: De t-toets in regressie analyse test of de regressiecoëfficiënt βi significant verschilt van nul (H₀: βi = 0). Zo ja, dan levert predictor Xi een significante bijdrage aan het model.

19
Q

Wat betekent het als de t-waarde voor een regressiecoëfficiënt erg hoog is? En wat zegt dit over de p-waarde?

A

Een hoge t-waarde (in absolute zin) betekent dat de geschatte waarde van de regressiecoëfficiënt (𝑏𝑖) veel groter is dan de standaardfout ervan (SEbi). Dit leidt tot een lage p-waarde, wat wijst op een significant effect: de kans dat zo’n waarde onder H₀ (βi = 0) optreedt, is klein.

20
Q

Wat is de rol van de F-toets in een meervoudige regressieanalyse?

A

A. Toetsen of er autocorrelatie is
B. Toetsen of ten minste één van de regressiecoëfficiënten (βi ≠ 0 voor i ≠ 0) significant is
C. Toetsen of het betrouwbaarheidsinterval van de afhankelijke variabele correct is
D. Toetsen of de residuen normaal verdeeld zijn

✅ Correct antwoord: B
📝 Verklaring: De F-toets in meervoudige regressie is een omnibus test die toetst of het model als geheel iets voorspelt: of ten minste één van de regressiecoëfficiënten verschilt van 0.

21
Q

Wat betekent een R² van 0.72 in een regressieanalyse?

A

Dit betekent dat 72% van de variantie in de afhankelijke variabele verklaard wordt door het regressiemodel. Het is een maat voor de fit van het model, hoe goed het model de gegevens verklaart.

22
Q

Waarom zou men bij een post-hoc analyse na een ANOVA geen nieuwe ANOVA’s uitvoeren?

A

A. Omdat ANOVA enkel werkt voor 2 groepen
B. Omdat ANOVA niet geschikt is voor nominale variabelen
C. Omdat ANOVA de kans op een type I-fout verhoogt bij herhaalde testen
D. Omdat men dan geen p-waarden kan berekenen

✅ Correct antwoord: C
📝 Verklaring: Herhaalde ANOVA’s of t-toetsen zonder correctie kunnen leiden tot een verhoogde type I-fout (vals-positieve bevindingen). Daarom worden post-hoc correcties (bv. Bonferroni) toegepast bij meerdere vergelijkingen.

23
Q

Leg uit waarom de F-waarde in een ANOVA bij regressie ook wel een ‘signal-to-noise ratio’ wordt genoemd.

A

De F-waarde vergelijkt de variantie verklaard door het model (het signaal) met de onverklaarde variantie (de ruis/error).
Hoe hoger de verhouding (F > 1), hoe beter het model de data verklaart ten opzichte van wat niet verklaard wordt.

24
Q

Wat geldt in een enkelvoudige regressieanalyse met één predictor?

A

A. De F-toets is altijd groter dan de t-toets
B. De F-toets en de tweezijdige t-toets leveren identieke p-waarden op
C. De F-toets mag alleen gebruikt worden bij nominale variabelen
D. De t-toets is overbodig als je een F-toets doet

✅ Correct antwoord: B
📝 Verklaring: In het geval van één predictor geldt dat de F-toets (1 vrijheidsgraad in de teller) gelijk is aan de kwadraat van de t-toets, dus leveren ze dezelfde p-waarde op.

25
Waarom is het belangrijk om betrouwbaarheidsintervallen rond regressiecoëfficiënten te berekenen?
Omdat betrouwbaarheidsintervallen aangeven in welk bereik de ware populatiewaarde van βi waarschijnlijk ligt. Als het interval nul niet bevat, wijst dit op een significant effect. Het biedt meer informatie dan alleen de p-waarde, zoals de precisie van de schatting.
26
Waarom rapporteert SPSS zowel de t-toets per predictor als een F-toets voor het geheel van het regressiemodel?
De t-toets evalueert de significantie van individuele predictoren (H₀: βi = 0), terwijl de F-toets de significantie van het volledige model evalueert (H₀: alle βi = 0). De F-toets is dus een omnibus test, terwijl de t-toets meer fijnmazig is.
27
Wat is de correcte interpretatie van R² in een meervoudige regressieanalyse?
A. Het percentage voorspelde observaties in het model B. De proportie verklaarde variantie in de afhankelijke variabele C. De gemiddelde fout van het model D. Het aantal significante predictoren in het model ✅ Correct antwoord: B 📝 R² staat voor de proportie van de variantie in Y die verklaard wordt door de set van voorspellers.
28
Waarom kan R² misleidend zijn bij kleine steekproeven of bij veel voorspellers?
A. Omdat R² daalt wanneer je meer predictoren toevoegt B. Omdat R² geen rekening houdt met het aantal observaties of predictoren C. Omdat R² alleen werkt bij lineaire modellen D. Omdat R² de normaliteit van residuen vereist ✅ Correct antwoord: B 📝 R² stijgt automatisch als je predictors toevoegt, zelfs als ze irrelevante variantie verklaren — daarom is adjusted R² nodig.
29
Wanneer gebruik je adjusted R² i.p.v. gewone R²?
A. Enkel wanneer het model lineair is B. Wanneer je correlaties tussen predictoren wil controleren C. Bij modelvergelijking met verschillend aantal voorspellers en/of observaties D. Als de F-waarde niet significant is ✅ Correct antwoord: C 📝 Adjusted R² corrigeert voor het aantal predictoren en steekproefgrootte, dus het is nuttig bij modelvergelijking.
30
Wat betekent het als de adjusted R² kleiner is dan de gewone R²
A. Het model is onbetrouwbaar B. Er is waarschijnlijk sprake van overfitting C. De predictoren zijn multicollineair D. De dependent variable is niet normaal verdeeld ✅ Correct antwoord: B 📝 Een kleinere adjusted R² wijst vaak op overfitting: het model verklaart schijnbaar veel, maar dit is deels toeval.
31
R² kan nooit afnemen als je een voorspeller toevoegt aan je model.
✅ Waar 📝 R² kan alleen gelijk blijven of stijgen, zelfs als de toegevoegde predictor geen echte waarde heeft.
32
Adjusted R² is altijd een betere maatstaf dan gewone R², ongeacht de context.
❌ Onwaar 📝 Adjusted R² is beter voor modelvergelijking, maar als je gewoon de fit van één model wil beschrijven, is gewone R² prima.
33
Normaliteit van de residuen is een vereiste voor regressieanalyse.
✅ Waar 📝 De voorwaarde van normaliteit geldt voor de residuen, niet voor de ruwe variabelen zelf.
34
Waarom is het rapporteren van enkel de p-waarde in regressieanalyse onvoldoende?
Een p-waarde zegt enkel iets over de kans dat een effect optreedt onder de nulhypothese, maar niets over de grootte van het effect. R² (en vooral adjusted R²) geeft aan hoeveel variantie verklaard wordt — dit is cruciaal om te weten of een statistisch significant effect ook praktisch relevant is.
35
Geef een concreet voorbeeld van overfitting in regressie. Hoe zou adjusted R² dit aan het licht kunnen brengen?
Bijvoorbeeld: je hebt 10 predictoren in je model, maar slechts 12 observaties. Je R² is dan misschien 0.98, wat fantastisch lijkt. Echter, je adjusted R² zal veel lager zijn (bijv. 0.30), omdat het model te complex is en waarschijnlijk ruis mee modelleert. Dit wijst op overfitting: een te goed passende lijn voor de trainingsdata, maar slechte generaliseerbaarheid.
36
Wat is het belangrijkste verschil tussen een correlatie en een enkelvoudige regressieanalyse?
A. Correlatie gebruikt gestandaardiseerde scores, regressie niet B. Correlatie meet oorzaak-gevolgrelaties, regressie niet C. Correlatie kijkt naar de sterkte van een lineair verband, regressie voorspelt een afhankelijke variabele D. Er is geen verschil; het zijn synoniemen ✅ Antwoord: C 🧠 Uitleg: Een correlatie zegt hoe sterk twee variabelen samenhangen; regressie voorspelt één variabele op basis van een andere.
37
Wat betekent het als een regressiecoëfficiënt niet significant is, maar de variantie die deze variabele verklaart niet nul is?
Het betekent dat de variabele wel enige invloed heeft op de afhankelijke variabele, maar dat deze invloed statistisch gezien te klein is om met voldoende zekerheid te stellen dat hij niet op toeval berust. We spreken dan soms van een marginaal of rand-significant effect.
38
Wat betekent een significante F-waarde in een regressiemodel?
A. Geen van de voorspellers verklaart de afhankelijke variabele B. Alle voorspellers zijn significant C. Ten minste één voorspeller verklaart significant variantie in de afhankelijke variabele D. De standaarddeviatie van de fout is nul ✅ Antwoord: C 🧠 Uitleg: Een significante F-waarde (uit de ANOVA-tabel) betekent dat het model als geheel beter voorspelt dan een model zonder voorspellers — met andere woorden: minstens één voorspeller is significant.
39
Welke waarden wijzen op een acceptabele mate van multicollineariteit volgens VIF en Tolerantie?
A. VIF > 10 en Tolerantie < 0.1 B. VIF < 2 en Tolerantie > 0.5 C. VIF = 0 en Tolerantie = 1 D. VIF = 1 en Tolerantie = 0 ✅ Antwoord: B 🧠 Uitleg: VIF’s < 2 en Tolerantie > 0.5 duiden op weinig tot geen multicollineariteit.
40
Wat gebeurt er meestal met de adjusted R² wanneer je een zwakke predictor toevoegt aan je regressiemodel?
A. Het stijgt altijd B. Het daalt of blijft ongeveer gelijk C. Het verdubbelt D. Het verandert niet ✅ Antwoord: B 🧠 Uitleg: Adjusted R² “straft” voor onnodige voorspellers, dus bij het toevoegen van zwakke voorspellers daalt of blijft adjusted R² ongeveer gelijk.
41
Wat is een correct gevolg van multicollineariteit in regressieanalyse?
A. Het verhoogt de verklaarde variantie ten onrechte B. Het vermindert de correlatie tussen variabelen C. Het zorgt ervoor dat VIF daalt D. Het maakt het regressiemodel causaler ✅ Antwoord: A 🧠 Uitleg: Multicollineariteit zorgt voor redundantie tussen voorspellers, wat tot een kunstmatige verhoging van R² kan leiden en interpretatie moeilijker maakt.