Meervoudige regressie Flashcards
(41 cards)
Leg uit waarom regressieanalyse niet geschikt is om causaliteit aan te tonen. Geef ook een concreet voorbeeld.
Regressie toont enkel statistische samenhang tussen variabelen. Het zegt niets over oorzakelijkheid omdat er externe, niet-gemeten variabelen kunnen zijn (confounders), en de richting van het effect kan onduidelijk zijn.
Voorbeeld: Een regressie toont aan dat ijsverkoop samenhangt met het aantal verdrinkingen. Maar ijsverkoop veroorzaakt geen verdrinkingen — warm weer is de onderliggende factor.
Verschil tussen verklaren en voorspellen?
Verklaren: je probeert te begrijpen waarom iets gebeurt (theoretisch inzicht).
Voorspellen: je wil weten wat er zal gebeuren op basis van gegevens, zonder nood aan inzicht in het mechanisme.
Voorbeeld: Je kan examenresultaten voorspellen op basis van studietijd, zonder exact te weten waarom meer studeren helpt (verklaring).
Waarom voorzichtig met categorische OV’s zoals geslacht?
Categorische variabelen zoals geslacht hebben geen numerieke schaal. Ze worden daarom omgezet in dummyvariabelen (bv. man = 0, vrouw = 1). De interpretatie van de regressiecoëfficiënt moet dan gebeuren t.o.v. een referentiecategorie.
b1 = 0 → interpretatie?
Als b1 = 0, verandert de AV niet wanneer de OV verandert. Er is dan geen lineair verband tussen de twee variabelen.
Waarom wordt bij een dichotome afhankelijke variabele (zoals geslaagd/niet geslaagd) geen lineaire regressie gebruikt? Wat wordt er dan toegepast en waarom?
Lineaire regressie veronderstelt dat de AV een continue schaal heeft. Bij een dichotome AV (bv. geslaagd/niet geslaagd), zijn er slechts twee waarden. Daarom gebruik je logistische regressie, een transformatie van een bepaalde variabele om een lineaire model daarop te kunnen schatten
Een student beweert: “Als de regressiecoëfficiënt b1 positief is, dan is er een causaal verband tussen de OV en AV.” Wat klopt er niet aan deze uitspraak? Leg uit.
Fout! Een positieve b1 wijst enkel op een positieve samenhang, niet op causaliteit. Er kunnen externe factoren zijn die zowel de OV als AV beïnvloeden, of de richting van het effect is onduidelijk.
Leg uit wat er bedoeld wordt met: ‘Wanneer x = 0, dan bepaalt b0 de waarde van ŷ’. Geef ook aan in welke situaties het interpreteren van b0 niet zinvol is.
b0 is het intercept, de waarde van ŷ wanneer x = 0.
Dit is enkel zinvol wanneer x = 0 een realistische waarde is.
Voorbeeld: bij leeftijd als OV is x = 0 (dus pasgeborene) misschien zinvol, maar bij “aantal diploma’s” kan x = 0 (geen diploma) een zeldzaam of niet-relevant datapunt zijn.
Wat is het voordeel van een meervoudige regressieanalyse t.o.v. een enkelvoudige regressie? Geef een concreet voorbeeld waarin dit voordeel duidelijk wordt.
Je kunt meerdere OV’s tegelijk opnemen, wat toelaat om de unieke bijdrage van elke variabele te isoleren terwijl je controleert voor andere factoren.
Voorbeeld: je onderzoekt de invloed van zowel inkomen als opleiding op uitgaven. Zo zie je het effect van inkomen terwijl opleiding constant is gehouden.
In een meervoudig regressiemodel worden inkomen, opleiding en geslacht opgenomen als OV’s. Wat betekent het dat het effect van inkomen ‘gecontroleerd’ is voor de andere variabelen?
In meervoudige regressie betekent dit dat het effect van bv. inkomen wordt berekend terwijl opleiding en geslacht constant worden gehouden. Je meet dus het unieke effect van inkomen, zonder verstoring door de andere OV’s.
Leg uit wat het principe van parsimonie betekent binnen regressieanalyse. Waarom is het belangrijk om dit principe toe te passen bij modelselectie?
Het parsimonie-principe stelt dat je een model moet gebruiken dat met zo weinig mogelijk predictoren zoveel mogelijk variabiliteit verklaart
Een model met té veel predictoren wordt complex, moeilijk interpreteerbaar en kan slecht generaliseren naar nieuwe data
Wat betekent overfitting in regressieanalyse? hoe kun je het vermijden?
Overfitting treedt op wanneer een regressiemodel teveel predictoren bevat.
Je kan het vermijden door:
Parsimonie toe te passen
Alleen predictoren in het model op te nemen die theoretisch of empirisch relevant zijn
Een student zegt: “Als ik al 10% van de variantie in angst kan verklaren met gezinssituatie, is dat voldoende en hoef ik geen andere predictoren toe te voegen.”
Beoordeel deze uitspraak kritisch.
Deze uitspraak is onjuist. 10% verklaarde variantie betekent dat 90% van de variabiliteit nog onverklaard blijft. Meervoudige regressie laat toe om andere relevante predictoren toe te voegen (bv. sociale steun, SES, genetische factoren), waardoor de totale verklaarde variantie stijgt en de residuen afnemen.
→ Dit leidt tot een nauwkeuriger model.
Wat is een residu in regressieanalyse? Waarom proberen we de som van de gekwadrateerde residuen te minimaliseren?
Een residu is het verschil tussen de geobserveerde waarde van de AV (𝑦ᵢ) en de voorspelde waarde op basis van het regressiemodel (ŷᵢ): 𝑒ᵢ = 𝑦ᵢ - ŷᵢ
Door de som van de gekwadrateerde residuen te minimaliseren (OLS-methode), vinden we de beste fit van het model voor de data. Kwadrateren voorkomt dat positieve en negatieve afwijkingen elkaar opheffen.
Leg uit waarom de vrijheidsgraden bij het schatten van de foutvariantie gelijk zijn aan n – (p + 1) in een regressiemodel.
In regressie worden p + 1 parameters geschat: p regressiecoëfficiënten + 1 intercept. Elke geschatte parameter “kost” een vrijheidsgraad.
Dus:
Totale steekproefgrootte (n) – aantal geschatte parameters (p + 1) = vrijheidsgraden
Deze vrijheidsgraden gebruik je om een onpartijdige schatter van de variantie (σ²) te verkrijgen.
Wat is het verschil tussen een populatieregressievergelijking en een regressievergelijking op basis van een steekproef?
Populatieregressievergelijking:
μᵧ = β₀ + β₁X₁ + … + βₚXₚ → bevat onbekende parameters (β) en standaardafwijking σ
Steekproefmodel:
ŷ = b₀ + b₁x₁ + … + bₚxₚ → schattingen van de populatieparameters op basis van gegevens
We gebruiken de steekproef om uitspraken te doen over de populatie
Wat zegt een kleinere waarde van σ² (de variantie van de residuen) over de kwaliteit van een regressiemodel?
Een kleinere σ² betekent dat de geobserveerde waarden dichter bij de regressielijn liggen → betere fit, minder voorspelfout. Het model voorspelt dus nauwkeuriger.
Let op: Een lage σ² betekent niet automatisch dat het model goed is – het kan ook komen door overfitting.
Stel je voor dat je angst wil voorspellen met drie variabelen: stressniveau, sociale steun en slaappatroon. Je model verklaart 80% van de variantie.
Wat zegt dit over je model en over het principe van parsimonie?
Een model dat met slechts drie variabelen 80% van de variantie verklaart, is sterk én parsimonieus. Je verklaart veel met weinig → eenvoudig, interpreteerbaar en krachtig model.
Wat wordt er precies getoetst met een t-toets in het kader van een regressieanalyse?
A. Of de afhankelijke variabele normaal verdeeld is
B. Of de regressiecoëfficiënt significant verschilt van 0
C. Of het model significant beter is dan een leeg model
D. Of de variantie van de fouttermen constant is
✅ Correct antwoord: B
📝 Verklaring: De t-toets in regressie analyse test of de regressiecoëfficiënt βi significant verschilt van nul (H₀: βi = 0). Zo ja, dan levert predictor Xi een significante bijdrage aan het model.
Wat betekent het als de t-waarde voor een regressiecoëfficiënt erg hoog is? En wat zegt dit over de p-waarde?
Een hoge t-waarde (in absolute zin) betekent dat de geschatte waarde van de regressiecoëfficiënt (𝑏𝑖) veel groter is dan de standaardfout ervan (SEbi). Dit leidt tot een lage p-waarde, wat wijst op een significant effect: de kans dat zo’n waarde onder H₀ (βi = 0) optreedt, is klein.
Wat is de rol van de F-toets in een meervoudige regressieanalyse?
A. Toetsen of er autocorrelatie is
B. Toetsen of ten minste één van de regressiecoëfficiënten (βi ≠ 0 voor i ≠ 0) significant is
C. Toetsen of het betrouwbaarheidsinterval van de afhankelijke variabele correct is
D. Toetsen of de residuen normaal verdeeld zijn
✅ Correct antwoord: B
📝 Verklaring: De F-toets in meervoudige regressie is een omnibus test die toetst of het model als geheel iets voorspelt: of ten minste één van de regressiecoëfficiënten verschilt van 0.
Wat betekent een R² van 0.72 in een regressieanalyse?
Dit betekent dat 72% van de variantie in de afhankelijke variabele verklaard wordt door het regressiemodel. Het is een maat voor de fit van het model, hoe goed het model de gegevens verklaart.
Waarom zou men bij een post-hoc analyse na een ANOVA geen nieuwe ANOVA’s uitvoeren?
A. Omdat ANOVA enkel werkt voor 2 groepen
B. Omdat ANOVA niet geschikt is voor nominale variabelen
C. Omdat ANOVA de kans op een type I-fout verhoogt bij herhaalde testen
D. Omdat men dan geen p-waarden kan berekenen
✅ Correct antwoord: C
📝 Verklaring: Herhaalde ANOVA’s of t-toetsen zonder correctie kunnen leiden tot een verhoogde type I-fout (vals-positieve bevindingen). Daarom worden post-hoc correcties (bv. Bonferroni) toegepast bij meerdere vergelijkingen.
Leg uit waarom de F-waarde in een ANOVA bij regressie ook wel een ‘signal-to-noise ratio’ wordt genoemd.
De F-waarde vergelijkt de variantie verklaard door het model (het signaal) met de onverklaarde variantie (de ruis/error).
Hoe hoger de verhouding (F > 1), hoe beter het model de data verklaart ten opzichte van wat niet verklaard wordt.
Wat geldt in een enkelvoudige regressieanalyse met één predictor?
A. De F-toets is altijd groter dan de t-toets
B. De F-toets en de tweezijdige t-toets leveren identieke p-waarden op
C. De F-toets mag alleen gebruikt worden bij nominale variabelen
D. De t-toets is overbodig als je een F-toets doet
✅ Correct antwoord: B
📝 Verklaring: In het geval van één predictor geldt dat de F-toets (1 vrijheidsgraad in de teller) gelijk is aan de kwadraat van de t-toets, dus leveren ze dezelfde p-waarde op.