Hoofdstuk 10 Flashcards

Toetsen voor het verband tussen meer dan twee variabelen - regressieanalyse (73 cards)

1
Q

Definitie

Regressietechniek

A

Een techniek om de waarde van een criteriumvariabele te voorspellen op basis van een of meerdere predictorvariabelen.

Criteriumvariabele = AV, predictorvariabele = OV

p285

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Toetsingssituatie

Enkelvoudige regressieanalyse

A

Wat is de invloed van 1 OV op 1 AV?

p286

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Voorwaarden

Enkelvoudige regressieanalyse

A
  • AV = intervalniveau.
  • Observaties van AV zijn onafhankelijk van elkaar.
  • OV = interval of dichotoom (nominaal buiten beschouwing).
  • Residuen = normaal verdeeld.
  • Residuen gemiddelde = 0.
  • Residuen correleren niet onderling.
  • Lineair verband tussen X en Y.
  • Homoscedasticiteit

Onafhankelijke observatie: observ. v. A geen invloed op observ. v. B

p287

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hypotheses

Enkelvoudige regressieanalyse

A

Volledig model:
* Tweezijdig: H0: = 0

Per predictor:
* Tweezijdig: H0: β(n) = 0

Predictor kan in theorie eenzijdig, maar in praktijk altijd tweezijdig.

p287-288

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Formule

Enkelvoudige regressievergelijking

A

Y(i) = b(0) + b(1)X(i) + ε(i)

Waarbij i = een individuele observatie. Haakjes zijn subscript

p286, p288, p290. De uitgewerkte versie van de simpele formule uit het middelbaar: Y = a + bX

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Waarvoor staat dit symbool?

Y

A

De criteriumvariabele in een regressieanalyse.

p286

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Waarvoor staat dit symbool?

b(0)

Haakjes zijn subscript. In simpele formules geformuleerd als “a

A

Een constante. De intercept in een regressieanalyse.

p289-290

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Waarvoor staat dit symbool?

β

Contextafhankelijk!

A

β-waarde.

p288, p

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Definitie

β-waarde

A

De gestandaardiseerde b-waarde.

p289, p

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Waarvoor staat dit symbool?

β(n)

A

De gestandaardiseerde b-waarde op populatieniveau.

p289

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Definitie

Intercept

A

De waarde van y wanneer x=0. Het punt waar de lijn de y-as snijdt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Waarvoor staat dit symbool?

b(1)

Haakjes zijn subscript. In simpele formules geformuleerd als “b

A

b-coëfficiënt

p293

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Formule

b(1)

Haakjes zijn subscript

A

r(XY) * [s(Y) / s(X)]

Haakjes zijn subscript, dus “van”. Bvb r(XY) is de r van X en Y

p293

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Definitie

Helling

A

Een constante. Geeft aan hoe de y-waarde verandert voor elke eenheidstoename van X. Het gewicht van de predictorvariabele.

p293

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Definitie

Residu

A

Geeft aan hoe goed het regressiemodel de werkelijke gegevens verklaart. Het verschil tussen de geobserveerde waarde en de voorspelde waarde van een regressiemodel.

p289-290

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Waarvoor staat dit symbool?

d

A

Een residu in een regressiemodel.

Niet te verwarren met Cohen’s d

p290

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Waarvoor staat dit symbool?

ε

A

Foutenterm

p290

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Formule

bij enkelvoudige regressie

Bij meervoudige regressie ingewikkelder, niet te kennen.

A

SS(M) / SS(T)

Haakjes zijn subscript. Niet te verwarren met SS(m)

p92

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Waarvoor staat dit symbool?

SS(M)

Haakjes zijn subscript. Niet te verwarren met SS(m)

A

De kwadratensom (sum of squares) van het gehele regressiemodel. Het verschil tussen de scores voorspeld door het model en de gemiddelde score van Y.

p292

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Waarvoor staat dit symbool?

SS(T)

Haakjes zijn subscript

A

De totale kwadratensom (sum of squares). Het verschil tussen de geobserveerde scores van Y en de gemiddelde score van Y.

p292

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Toetsingsgrootheid

Enkelvoudige regressieanalyse (model)

A

F

Zelfde als meervoudig.

p292

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Formule

F-waarde voor het gehele model bij een enkelvoudige regressieanalyse

A

MS(M) / MS(R)

Haakjes zijn subscript. Niet te verwarren met MS(m)

p292

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Waarvoor staat dit symbool?

MS(M)

Haakjes zijn subscript. Niet te verwarren met MS(m)

A

Variantie (mean square) van het gehele regressiemodel.

p292

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Waarvoor staat dit symbool?

MS(R)

Haakjes zijn subscript

A

Foutenvariantie (mean square) van een regressiemodel.

p292

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
# Toetsingsgrootheid Enkelvoudige regressieanalyse (predictor) | Toont aan of de predictor nuttig is.
*t* | Zelfde als meervoudig, denk ik, check ## Footnote p293
26
# Formule *t*-waarde om significantie van de predictor *b(1)* te bepalen.
[*b(o)* - *b(e)*] / *SE(b)* = *b(o)* / *SE(b)* | Haakjes zijn subscript ## Footnote p293
27
# Leg uit [*b(o)* - *b(e)*] / *SE(b)* = *b(o)* / *SE(b)* | Haakjes zijn subscript
*b(o)* = 0 | Haakjes zijn subscript ## Footnote p293
28
# Waarvoor staat dit symbool? *b(o)* | Haakjes zijn subscript
Geobserveerde b-waarde, berekend vanuit de steekproef. ## Footnote p293
29
# Waarvoor staat dit symbool? *b(e)* | Haakjes zijn subscript
Verwachte b-waarde onder de H0, = 0. ## Footnote p293
30
# Waarvoor staat dit symbool? *SE(b)* | Haakjes zijn subscript
De standaardfout van de verdeling van alle mogelijke *b*-waarden. | Net zoals *SE(x̄)* de steekproevenverdeling van het gemiddelde is. ## Footnote p293
31
# Formule Vrijheidsgraden bij de *t*-toets voor de predictor van een regressieanalyse
* *df(1)* = *p* * *df(2)* = *n* - *p* - 1 | *p* ≠ *p*-waarde! *p* = aantal predictoren. ## Footnote p293-294
32
# Beslissingsregels overschrijdingskansen Enkelvoudige regressieanalyse
H0 verwerpen indien * Model: *P(D)(F)* ≤ *α* * Predictor: *P(D)(t(b))* ≤ *α* | Haakjes zijn subscript. ## Footnote p294. Zelfde als meervoudig.
33
# Beslissingsregels kritieke waarden Enkelvoudige regressieanalyse
H0 verwerpen indien: * Model: *F* ≥ *F(kritiek)* * Predictor: *t(x̄)* ≤ *-t(kritiek)* OF *t(x̄)* ≥ *t(kritiek)* | Haakjes zijn subscript ## Footnote p294. Zelfde als meervoudig.
34
# Componenten Residuen zijn normaal verdeeld
* Gemiddelde fout ≈ 0. * Overschattingen ≈ onderschattingen. * Veel kleine residuen, weinig grote residuen. ## Footnote p295
35
Hoe de normaliteit van residuen nagaan?
Q-Q Plot ## Footnote p295
36
# Definitie Quantile-quantile (QQ) plot | Kwantiel-kwantielplot
Een grafisch hulpmiddel dat wordt gebruikt om te beoordelen of een dataset een bepaalde verdeling volgt (meestal de normale verdeling). Vergelijkt de geobserveerde kwantielen van de data met de theoretische kwantielen van een gekozen verdeling. Een grafische voorstelling van de cumulatieve probabiliteit van de residuen.
37
Hoe de autocorrelatie van residuen nagaan? | Auto = onderling
Durbin-Watson test. ## Footnote p296
38
# Werking Durbin-Watson test
Levert een waarde van 0 tot 4 op. * 2 = ideaal. * 1 of 3 = ok. * 0 of 4 = no very gud. ## Footnote p296
39
# Waarvoor staat dit symbool? *DW*
Durbin-Watson statistiek ## Footnote p296
40
# Leg uit Waarom is autocorrelatie van residuen een probleem?
Als de residuen systematisch verdeeld zijn, is het model niet in staat alle systematiek in data te vatten. Er wordt dus een stuk te verklaren variantie niet verklaard. Dat suggereerd dat er belangrijke predictoren ontbreken in het model. ## Footnote p295-296
41
# Definitie Outlier/uitbijter
Uitslagen die extreem ver verwijderd zijn van de overige waarden van een verdeling. Kunnen berusten op een waarnemingsfout, en vertekenen mogelijk het rekenkundig gemiddelde. ## Footnote p297
42
Methoden om outliers op te sporen
* Visueel (scatterplots). * Cook's distance. * Gestandaardiseerde residuen. ## Footnote p297-298
43
# Definitie Cook's distance
Een maat van 0 tot oneindig die aangeeft hoe sterk een individueel datapunt (case) de schattingen van een regressiemodel beïnvloedt. Het meet de impact van een waarneming op de regressiecoëfficiënten door de verandering in het model te berekenen wanneer dat specifieke punt wordt verwijderd. | Voor outliers zoals Cronbach's *α* voor interne betrouwbaarheid is. ## Footnote p297
44
# Interpretatie Cook's distance
* Prima: [0;.49] * Misschien eens naar kijken: [.50;.99] * Te grote invloed: ≥1 ## Footnote p297
45
# Definitie Gestandaardiseerde residuen
Een methode om outliers op te sporen (= zeer grote *d*) door alle residuen standaardiseren (-> *z*-scores) en een grenswaarde aan te houden, waarboven of onder de residuen (die dus outliers zijn) aan te pakken. ## Footnote p297-298
46
# Interpretatie Gestandaardiseerde residuen
*z(d)* > 3 OF *z(d)* < -3 | Haakjes staan voor subscript ## Footnote p298
47
# Effectgrootte Enkelvoudige regressieanalyse
* *R²* * *b* * *β* | Zelfde als meervoudig. ## Footnote p307
48
# Rapportering Enkelvoudige regressieanalyse
1. Vermeld test. 2. Criterium 3. Predictor. 4. Significantie 5. *R²*, 6. *F* 7. *p*. 8. Verwijs naar tabel met coëfficiënten. 8. Outlier-criteria. 9. Outliers. 10. Interpretatie verband (suggereerd andere factoren?). 11. *DW* + interpretatie (suggereerd andere factoren?). ## Footnote p307-308
49
# Toetsingssituatie Meervoudige regressieanalyse | Multiple regressie
Wat is de invloed van meerdere OV op 1 AV? ## Footnote p309
50
# Voorwaarden Meervoudige regressieanalyse | Multiple regressie
* AV = intervalniveau. * Observaties van AV zijn onafhankelijk van elkaar. * OV = interval of dichotoom (nominaal buiten beschouwing). * Residuen = normaal verdeeld. * Residuen gemiddelde = 0. * Residuen correleren niet onderling. * Lineair verband tussen X en Y. * Homoscedasticiteit * Geen (multi)collineariteit | Onafhankelijke observatie: observ. v. A geen invloed op observ. v. B ## Footnote p309-310
51
# Definitie Collineariteit
Een situatie in een regressiemodel waarin twee OV sterk gecorreleerd zijn met elkaar. Dit betekent dat ze overlappende informatie bevatten. ## Footnote p315-316
52
# Definitie Multicollineariteit
Een situatie in een regressiemodel waarin meer dan twee OV sterk gecorreleerd zijn met elkaar. Dit betekent dat ze overlappende informatie bevatten. | Bvb zowel de WAIS score als de COVAT score, te gelijkaardig. ## Footnote p315-316
53
Gevolgen van (multi)collineariteit
* Onbetrouwbare schatting van *b*-waarden -> -> *t*-waarden dalen -> minder snel significantie. * Onnodige uitbreiding van het model (predictors opgenomen zonder zinvolle bijdrage). ## Footnote p316
54
# Soorten Methoden om (multi)collineariteit op te sporen
* Tolerance * VIF * Collineariteit: onderlinge correlatie. ## Footnote p316
55
# Definitie Tolerance
Een waarde die proportioneel (0 tot 1) de unieke bijdrage van een predictor aan de regressieanalyse weergeeft. ## Footnote p316
56
# Interpretatie Tolerance
Hoe hoger, hoe meer unieke bijdrage van de OV. <.20 wijst op (multi)collineariteit. Weergegeven als standardized estimate in Jamovi. Kan je vaak ook zien aan hoge *p*. ## Footnote p316
57
# Definitie Variance Inflation Factor (VIF)
Een maat die aangeeft in hoeverre een OV gecorreleerd is met een andere OV in een regressiemodel. Gebruikt om (multi)collineariteit op te sporen. ## Footnote p316
58
# Interpretatie Variance Inflation Factor (VIF)
1 / *tolerance* Hoe hoger, hoe problematischer betreffende (multi)collineariteit. VIF van een OV > 5 -> wijst op (multi)collineariteit. Gemiddelde VIF over alle predictoren heen beter < 1. ## Footnote p316
59
# Hypotheses Meervoudige regressieanalyse | Multiple regressie
Volledig model: * Tweezijdig: H0: *R²* = 0 Per predictor: * Tweezijdig: H0: *β(n)* = 0 | Predictor kan in theorie eenzijdig, maar in praktijk altijd tweezijdig. ## Footnote p310. Zelfde als enkelvoudig.
60
# Formule Meervoudige regressievergelijking
*Y(i)* = *b(0)* + *b(1)X(i1)* + *b(2)X(i2)* + ... + *b(n)X(n)* + *ε(i)* | Waarbij *i* = een individuele observatie. Haakjes zijn subscript ## Footnote p310. Uitbreiding van de enkelvoudige regressievergelijking
61
# Toetsingsgrootheid Meervoudige regressieanalyse (model) | Multiple regressie
*F* | Zelfde als enkelvoudig.
62
# Toetsingsgrootheid Meervoudige regressieanalyse (predictor) | Toont aan of de predictor nuttig is.
*t* | Zelfde als enkelvoudig (denk ik, check)
63
# Soorten Methoden om predictoren toe te voegen
* Hiërarchisch. * Stapsgewijs. ## Footnote p313
64
# Definitie Hiërarchisch predictoren toevoegen
Onderzoeker kiest. 1. Tegelijk bekende predictoren (uit eerder onderzoek). 2. Een of meer andere predictoren. 3. Significant? -> meer predictoren. Als geen eerder onderzoek, gewoon alles in een keer. Onderbouw dat wel! ## Footnote p313-314
65
# Definitie Stapsgewijs predictoren toevoegen
Computer kiest op basis van correlatie met criteriumvariabele. Riskeert blindelings predictoren te verwijderen zonder theoretische overwegingen. ## Footnote p314
66
# Soorten Stapsgewijs predictoren toevoegen
* Forward. * Backward. ## Footnote p314
67
# Definitie Forward stapsgewijs predictoren toevoegen
1. 1 enkele predictor met sterkte r. 2. Hele analyse. 3. Tweede sterkte predictor. 4. Hele analyse. 5. Etc... 6. Zolang het model beter wordt, blijven toevoegen. ## Footnote p314
68
# Definitie Backward stapsgewijs predictoren toevoegen
1. Alle predictoren toevoegen. 2. Hele analyse. 3. Welke niet significant? -> verwijderen. 4. Hele analyse. 5. Etc... totdat enkel significante predictoren overblijven. ## Footnote p314
69
# Beslissingsregels overschrijdingskansen Meervoudige regressieanalyse | Multiple regressie
H0 verwerpen indien * Model: *P(D)(F)* ≤ *α* * Predictor: *P(D)(t(b))* ≤ *α* | Haakjes zijn subscript. ## Footnote p314. Zelfde als enkelvoudig.
70
# Beslissingsregels kritieke waarden Meervoudige regressieanalyse | Multiple regressie
H0 verwerpen indien: * Model: *F* ≥ *F(kritiek)* * Predictor: *t(x̄)* ≤ *-t(kritiek)* OF *t(x̄)* ≥ *t(kritiek)* | Haakjes zijn subscript ## Footnote p315. Zelfde als enkelvoudig
71
# Stappen Meervoudige regressieanalyse | Multiple regressie
1. Eerste analyse met alle cases en predictoren. 2. Controle outliers. 3. Outliers? -> verwijder -> nieuwe analyse. 4. Assumptiecontrole (normaliteit, autocorrelatie, multicollineariteit). 5. Normaliteit/autocorrelatie grof geschonden? -> geen analyse mogelijk. 6. (Multi)collineariteit? -> verwijder predictoren -> nieuwe analyse. 7. Predictoren controle. 8. Niet-significante predictoren verwijderen -> nieuwe analyse.
72
# Effectgrootte Meervoudige regressieanalyse | Multiple regressie
* *R²* * *b* * *β* | Zelfde als enkelvoudig. ## Footnote p324
73
# Rapportering Meervoudige regressieanalyse | Multiple regressie
1. Vermeld test. 2. Criterium 3. Predictoren. 4. Significantie 5. *R²*, 6. *F* 7. *p*. 8. Verwijs naar tabel met coëfficiënten. 9. Niet significante predictoren verwijdert -> ander model. 10. Significantie 11. *R²*, 12. *F* 13. *p*. 14. Outlier-criteria. 15. Outliers. 16. Interpretatie verband (suggereerd andere factoren?). 11. *DW* + interpretatie. ## Footnote p324-325