Wat is (multi) collineariteit?
= sterke samenhang tussen twee of meer X-variabelen
Wat is het gevolg van collineariteit? (lineaire regressieanalyse)
gevolg: standaardfouten van coefficienten worden erg groot (zie formule). Dit wil je niet, want de standaardfouten bepalen hoe nauwkeurig je de coeficienten kan meten en de uitkomsten van de T toets
Bij (multi)collineariteit is er niet genoeg onafhankelijke variantie in Xj om het effect van Xj op Y nauwkeurig te kunnen bepalen.
Gevolgen multicollineariteit voor hypothese-toetsing: (lineaire regressie)
T-toets: 0 hypothese wordt minder snel verworpen omdat Se(bj) heel groot wordt (zie formuleblad)
F- toets: niks
Hoe kan je multicollineariteit opsporen?
Hoe kan je multicollineariteit oplossen?
Wat is een dummyvariabele?
Ofwel: variabelen die alleen de waarden 0 of 1 hebben
Welke twee soorten dummyvariabelen?
o Verschuiving (verandering van het snijpunt met de Y-as): Zkosten = b0 + b1HVER + b2Lft + b3*Gesl + ε
o Interactie (verandering van de richtingscoëfficiënt): Zkosten = b0 + b1HVER + b2Lft + b3Gesl + b4Lft*Gesl + ε
Stappenplan toetsen:
1: 0 hypothese en Ha
2: toetsingsgrootheid
3: kritieke grens
4: conclusie
Stappenplan toetsen meervoudige lineriare regressie?
T toets:
Bij een nulhypothese neem je voor beta altijd 0, deze weet je niet maar door deze toets neem je aan dat het 0 is.
Hele model:
1) H0: Beta1 = beta 2 ect
Ha Beta 1 is niet gelijk aan B2 ect
2)
3 toetsen:
- afzonderlijke x variabele : T toets
- gehele model: F-toets, via ANOVA tabel
- toets voor groep van X-variabelen: F-toets, via ANOVA tabel
3: Kritieke grens berekenen
4: Conclusie:
Gevonden waarde < Kritieke grens : H0 aannemen
Gevonden waarde > Kritieke grens: H0 verwerpen.
Dus:
Wat is het doel van een lineaire regressie-analyse?
Dus: Zijn één of meer onafhankelijke variabelen significant van invloed op de afhankelijke variabele?
Voorwaarde lineaire regressie-analyse?
Wat is een confounder?
variabele waar je eigenlijk niet in geïnteresseerd bent maar als je hem niet meeneemt gooit het heel je model door de war.
Wat is een mediator?
..
Wat is een variantieanalyse?
Uitbreiding t-toets voor twee onafhankelijke groepen, je kijkt naar meer dan twee groepen
Variantieanalyse is verschillenanalyse (analyse van verschillen onder groepen)
Variantie als maat voor spreiding rondom gemiddelde
Variantie is de standaardafwijking in het kwadraat
Voorbeelden onderzoeksvraag:
Bestaan er verschillen in het aantal operaties bij rughernia’s tussen Friesland, Zuid-Holland en Limburg?
Zijn er verschillen in het aantal consulten tussen artsen die worden betaald volgens een systeem van ‘fee-for-service’, salaris en ‘capitation’?
Verschillen vijf koffietentjes van elkaar in termen van de gemiddelde leeftijd van klanten?
Zijn er verschillen in genezingsduur tussen groepen patiënten die medicijn A, B, C en D hebben gekregen?
Waarom zou je een variantieanalyse willen uitvoeren?
Doel: uitspraak doen over de vraag of de gemiddelden van een zekere variabele Y in meer dan 2 populaties aan elkaar gelijk zouden kunnen zijn.
Probleem: populatiegemiddelden zijn onbekend
–> Oplossing: analyse van verschillen (=variantie!) van Y in steekproeven uit de afzonderlijke populaties
Wanneer mag je een variantieanalyse toepassen?
>2 groepen vergelijken
Y is een kwantitatieve variabele (minimaal intervalniveau) met ratio of interval, cijfermatig: bijv. genezingsduur
De factor is een kwalitatieve variabele (nominaal meetniveau): bijv. medicijn A, B en C
3 voorwaarden:
1. (Populaties zijn normaal verdeeld) (standaardafwijking rond het gemiddelde, maar je concludeert wat je moet concluderen)
2. (Steekproeven hebben gelijk aantal waarnemingen) (gelijke verdeling van mensen over de subgroepen)
3. Populaties hebben gelijke variantie (harde voorwaarde anders is de F-toets onbetrouwbaar)
Vuistregel: Grootste standaardafwijking is niet meer dan 2x de kleinste standaardafwijking
Welke meetniveaus zijn er en voorbeelden:
Nominaal: medicijn a/b/c (of geboorteplaats / gender)
Ordinaal: Laag SES/gemm / hoog SES
interval: toetsscores bv
Ratio: lengte, gewicht leeftijd
Waarom zou je een enkelvoudige lineaire regressieanalyse willen uitvoeren?
enkelvoudig: 1 x variabele
Vb onderzoeksvragen:
– Wat is de relatie tussen de tijd die studenten besteden aan studeren en tentamencijfers?
– Is de consumptie van rood vlees kankerverwekkend?
– Is sociaaleconomische status een goede voorspeller van zorgkosten?
– Wat is het effect van ziekenhuisfusies op prijzen?
Wanneer kan je een lineaire regressieanalyse toepassen?
Variabele Y = afhankelijke variabele = te verklaren variabele
- Meetniveau: continu (interval/ratio: kwantitatief, bv. zorgkosten)
Variabelen X1 t/m Xp = onafhankelijke variabele = verklarende variabele (stop je in je regressiemodel)
- Meetniveau: continu (interval/ratio, bv. leeftijd) of categoriaal (nominaal/ordinaal, bv. sociaal economische status, opleidingsniveau, geslacht, ja/nee chronische ziekte) (kan alles zijn)
Voorwaarden:
1. Lineariteit: er moet een lineair verband zijn tussen X en Y
2. Homoskedasticiteit: constante variantie van de residuen (Sd2): spreiding residuen moet gelijk zijn voor elke X-waarde
3. Normaliteit: de residuen zijn normaal verdeeld, geen uitschieters bij de X-variabele
De nauwkeurigheid van schatting van b hangt af van:
Wat is de zuivere schatter bij lineaire regressie?
In een ‘Residual plot’ worden de residuen afgezet tegen de; ….
Voorspelde waarden.
Hoe zien verschillende variabele er in SPSS uit bij lineaire regressie? (mbt kwadraatsommen)
KS(totaal) = KS(regressie) + KS (residu)
Ks(regressie) = Model: SSM (sum of squares)
KS (residu) = Error: SSE. (sum of squares).
Hoe berekenen: Yi – Ῡ = Ŷi – Ῡ + Yi – Ŷi
GKS(regressi) = model: mean square
GKS (residu) = Error : mean square
Wat is interpoleren?
voorspelling voor bepaalde waarde van X die binnen je steekproef valt.