multiple regressie Flashcards
(32 cards)
onderzoeksdoelen multiple regressie
- Beschrijven lineaire relaties tussen variabelen (regressiemodel).
- Toetsen hypothesen over relaties (significantie). Lijkt het ook relevant en significant te zijn als je kennis hebt over een kenmerk?
- Kwantificeren van relaties (effectgrootte). : hoe groot is het effect? Soms is er wel een associatie maar is het heel minimaal en kleine effectgrootte, waardoor je er in de praktijk weinig aan hebt.
- Kwalificeren van relaties (klein, middelmatig, groot effect).
- Beoordelen relevantie relaties (subjectief). : Soms is kleine verbetering relevant als iemand ziek is bv, maar soms is het niet relevant en heeft het alleen zin als er een groot effect is.
- Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting).
onderzoeksvraag multiple regressie
Kunnen we iemands waarde op een kenmerk voorspellen met kennis over andere kenmerken?
Y
afhankelijke variabele (dependent)
- Kenmerk gemeten op minimaal interval meetniveau.: of nominaal niveau
x
onafhankelijke variabele (predictoren)
- Kenmerk gemeten op minimaal interval meetniveau.
- Categorische kenmerk met twee categorieën; nominaal meetniveau met twee categorieën noemen we dichotoom.
- Categorisch kenmerk met meer dan twee categorieën; nominaal/ordinaal meetniveau wordt omgezet in dummyvariabelen.
BO
intercept (constant)
B1
regressiecoëfficiënt (slope)
E
E = voorspellingsfout (error of residual)
toetsingsgrootheid verklaarde variantie R2
F-toets: bepaalt of de verklaarde variantie significant is (p < .05). F bepaalt het aandeel verklaarde en onverklaarde variantie in het model. Formule F- toets:
Mean Sum of squares / Residuele Sum of Squares.
toetsingsgrootheid regressiecoëfficiënten B
T-toets: richtingscoëfficiënt B omgerekend naar een T- waarde.
Formule T-waarde: T=(M1-M2)/SE
effectgrootte
R2 0.01 Klein
R2 0.09 Medium
R2 0.25 Groot
waar staat BO voor
de waarde van Y als X gelijk is aan 0
waar staat B1 voor
het verschil van waarde in Y wanneer X1 groter wordt. Dus de verandering in y als x1 groter wordt.
wat zijn de assumpties bij multiple regressie
- De participanten zijn aselect gekozen en scoren onafhankelijk van elkaar
- De variabelen meten een begrip op interval/ ratio meetniveau (uitzondering: dummy’s)
- Er is een lineaire relatie tussen de variabelen
- Er zijn geen
uitschieters - Homoscedasticiteit: per X-waarde is de spreiding in Y-scores gelijk
- Per X-waarde zijn de Y-scores normaal verdeeld
- Multicollineariteit: Er mag geen hoge correlatie zijn tussen de onafhankelijke variabelen
Variantie
beschrijving
Y = b0 + b1∙X + error
Voorspelling:
Ŷ = b0 + b1∙X
dichotoom
ja of nee, man of vrouw etc. het betekend wel of niet aanwezig.
wat is het padmodel van multiple regressie
- een afhankelijke variabele (Y)
- één of meerdere onafhankelijke variabelen (minimaal interval)
- één of meerdere onafhankelijke variabelen (dichotoom)
- E: de meetfouten, de errors,
waarom kijk je naar een histrogram
Je kijkt naar een histogram om te kijken of er spreiding is en of er sprake is van een normaalverdelling en een belcurve.
Je kijkt hiernaar om te kijken of er uberhaubt iets te verklaren valt.
kleinste kwadraten criterium
best passende rechte lijn. Dit is de lijn waarbij de voorspellingsfout zo klein mogelijk is. Dit doe je door het kleine kwadraten criterium te nemen.
Je rekent de voorspellingsfout uit, de voorspellingsfout is de afstand tussen de geobserveerde waarde en de voorspelde waarde.
wat betekent een positive error
dit zijn errors boven de lijn, dus een onderschatting van het model
wat betekend een negatieve error
onder de lijn, overschatting van het model
goodness- of-fit
Beste model? Met goodness of fit ga je kijken hoe goed het model past.
- Het model (regressielijn) met kleinste residuele kwadratensom. Hoe goed is dat dan?
R square (ΔR2)
R square (ΔR2) geeft het percentage verklaarde variantie aan in de steekproef.