Les 2 - Regressie analyse Flashcards
(17 cards)
doel van een regressie - analyse
Voorspellen of verklaren van een afhankelijke variabele (AV -> verklaarde variabele want geen causaliteit) op basis van één (of meerdere) onafhankelijke variabelen (OV verklarende variabelen) op basis van een lineair model
ŷ
= afhankelijke variabele
x
onafhankelijke var
b1
regressiecoëfficiënt = slope
= de gemiddelde toe/afname van de afhankelijke variabele
wanneer de onafhankelijke variabele 1 eenheid stijgt
b0
= constante = intercept
= de waarde van de afhankelijke variabele wanneer de onafhankelijke variabele = 0
enkelvoudige regressie - idee
Voor elke vaste waarde van x varieert y normaal rond y met standaardafwijking
meervoudige regressie - idee
voor elke specifieke verzameling van waarden van x=(x1 x2 … xp) varieert y normaal rond y met standaardafwijking
waarde van determinatiecoëfficiënt
Indien die hoog is dan zal (1- R21) klein worden en de variantie in de schatter stijgen, waardoor de precisie ervan daalt!
interpretatie R^2
R² is de fractie van de variantie in de verklaarde variabele y die wordt verklaard door de verklarende variabelen x1, x2, …, xp
of
R² is de proportionele reductie van de fout bij de voorspelling van y ahv de regressievergelijking tov de fout gemaakt zonder kennis van de regressievergelijking
nadelen R^2
- Overschat bij kleine N (bvb. 2 waarnemingen; R2 =1)
- R2 stijgt bij toenemend aantal OV, zelfs bij toevoeging irrelevante OV
- Steekproefspecifiek
adjusted R^2
- voor modelvergelijking (modellen met verschillende aantallen p en n)
- kan dalen als p stijgt, interpretatie idem
Om na te gaan of meervoudige regressiemodel geschikt is voor de data:
- Residuen uitzetten tegenover voorspelde waarden
- Residuen ook uitzetten tegenover elke verklaarde variabele
Tolerantie
proportie variantie van een OV die NIET kan verklaard worden door de andere OV zo groot mogelijk (min = 0.5)!
Logistische regressie
AV (verklaarde variabele) is categorisch eindig aantal categorieën (nominaal/ordinaal)
logistische regressie - binair
verklaarde variabele is dichotoom (e.g., ja/nee, man/vrouw, geslaagd/niet geslaagd)
logistische regressie - multinominaal
verklaarde variabele heeft meer dan 2 niveaus (e.g., soort behandeling, studierichting, opleidingsniveau)
Interpretatie odds
- de kansverhouding (of odds) dat een bejaarde in deze groep lijdt aan dementie bedraagt ongeveer 1 tegen 3
- de kansverhouding (odds) dat een bejaarde in deze groep NIET lijdt aan dementie bedraagt ongeveer 3 tegen 1