Lineaire regressie Flashcards
(28 cards)
1
Q
hypothese testen
A
- nulhypothese
- H0 = er is geen verschil tussen X & Y
- H1 = er is wel verschil tussen X & Y
- statistische toest = voldoende bewijs vinden om H0 te verwerpen of te behouden
- verwerpen indien p-waarde < alfa - fouten
- type 1 fout = alfa = kans dat H0 verwopen wordt maar juist is
- type 2 fout = beta = kans dat H0 behouden wordt maar fout is
2
Q
cohorte & cross-sectionele studies
A
- cohorte studie
- vertrekken bij gezonde populatie
- incidentie = mensen die ziekte oplopen
- longitudinale follow-up
–> prospectief > retrospectief door bias van herinneringen - cross-sectioneel
- prevalentie = vertrekken van gezonde & zieke populatie
- geen longitudinale follow-up
3
Q
algemeen lineaire regressie
A
- gebruik
- cohorte = voorspellen van uitkomstmaat op basis van 1 of meer factoren
- cross-sectioneel = beschrijven van verband tussen uitkomst maat & andere factoren
- rekening houden met storende variabelen - voorwaarden
- lineariteit = moet niet beste verband zijn maar aanvaardbaar
- onafhankelijke observaties
- residuen moeten normaal verdeeld zijn met gemiddelde 0 & constante variantie = homoskedasticiteit
4
Q
lineair regressiemodel
A
- Y = B0 + B1X + e
- Y = afhankelijke uitkomst variabele die continu moet zijn
- X = onafhankelijke variabele(n) die continu of categorisch kunnen zijn
- B = regressiecoëfficiënten
–> verandering van Y bij 1 eenheid verandering van X
- B0 = intercept als X = 0 is, maar is vaak niet relevant
- e = residuen = foutenmarge - correlatie
- Pearson of Spearman
- hoe sterk lineair verband is
- indien alle punten op exact 1 lijn liggen = 1 of -1
5
Q
SS
A
- SS sum of squares
- som van kwadraten van verschillen
- verschillen tussen regressie lijn & effectieve waardes
- zegt iets over de kwaliteit van het model - SST total sum of squares
- totale variabiliteit van de afhankelijke variabele = hoeveel verschilt de variabele van het gemiddelde
- verschil tussen gemiddelde & effectieve waarde van afhankelijke variabele - SSR sum of squared regression
- hoeveelheid variatie verklaard door regressie model
- verschil tussen gemiddelde & regressie lijn - SSE sum of squared errors
- hoeveelheid varaitie niet door model verklaard
- verschil tussen effectieve waarde & regressie lijn - samengevat
- total varaitie = SST = SSR+SSE
- variatie verklaard door model = SSR
- variatie niet in model = SSE
6
Q
ANOVA-tabel
A
- SSR regression
- SS = gemiddelde - regressie lijn
- df = m
- MS mean square = SSR/m = MSR - SSE error
- SS = regressielijn - effectieve waarde
- df = n-m-1
- MS = SSE/n-m-1 = MSE - total
- SS = gemiddelde - effectieve waarde
- df = n-1 - n & m
- n = aantal data punten
–> hangt samen met power = type II fout
- m = aantal onafh vanariabelen
7
Q
berekeningen vanuit ANOVA tabel
A
- F-waarde ≈ T-score
- F = MSR / MSE
- hieruit p-waarde berekenen
- hoger = beter - p-waarde
- kans dat F-waarde of extremer wordt verkregen
- indien H0 waar is
- lage waarde = onder 0.05 = nulhypothese verwerpen
8
Q
determinatie coëfficiënt
A
- determinatie coëfficient R²
- R² = 1 - SSE/SST
- R² = 0-1 of % van variatie dat door model kan verklaard worden
- hoger = beter bij data passen - nagelkerke R²
- straf bij meer variabelen
- correctie voor altijd hoger % van verklaring te hebben
9
Q
categorische variabelen bij lineaire regressie
A
- voorwaarden voor categorische variabelen
- dichotoom = 2 opties
- met 0 & 1 geprogrammeerd - dummy coding
- voor categorische variabelen met 2+ categoriën
- aantal categoriën - 1 variabelen aanmaken
- 1 categorie overlaten = referentie vategorie - referentie categorie
- zal geen p-waarde & interval krijgen
- test tov. deze waarde
–> ondere groepen zouden onderling wel significant kunnen zijn maar niet getest = post-hoc
10
Q
modelkwaliteit van lineaire regressie
A
- ANOVA-tabel & P-waarde
- determinatie coëfficiënt = R²
- vervulde voorwaarden
- residuenanalyse
- klinische relevantie
11
Q
meervoudige regressie
A
- Y = B0 + B1X1 + B2X2
- meerdere B-coëfficienten
–> kan ook bij enkelvoudige regressie met dummy-coding
- nood aan correctie voor confounders
–> in oplossing zeggen: gecorrigeerd voor
- effect van andere - voorstelling
- 2 regressie lijnen bij categorische variabele
- verband met continue blijft hetzelfde
- enkel +- verschil door categorie
–> verband zou ander kunnen zijn = interactie-effect
- lijn tussen beide = gecorrigerde associatie
–> indien geslacht gecorrigeerd wordt maar niet opgenomen wordt
12
Q
variabelen selecteren
A
- theoretisch model = DAG
- multicollineariteit
- significantie van het model
13
Q
DAG
A
- directed acyclic graph
- directed = elke lijn heeft een pijl
- acyclic = bij het volgen van de pijlen kan men niet terug naar het zelfde punt komen
- gebaseerd op theoretische kader
- geeft relatie tussen variabelen weer
- zelf kunnen tekenen = causaliteits anamnese - willeurige groepen verdeling
- alles wat naar de onafhankelijke variabele leidt mag gescrapt worden
–> niet echt doen = tekenen als stippelijn
- wordt in dit model niet opgenomen door toewijzing
14
Q
type verbindingen binnen DAG model
A
- collider
- Y & Z komen samen op X
- onstaan van omgekeerde associatie bij kijken naar subset X
–> voor een lagere Y zal Z hoger moeten zijn om zelfde X te bekomen
- corrigeren door collider niet op te nemen in analyze - confounder
- X gaat naar Y & Z
- variabele kan ervoor zorgen dat Y & Z verbonden zijn maar dit is niet het geval
–> groter effect tussen Y & Z dan dat effectief is
- corrigeren door confounder op te nemen in analyze - mediator
- ontvangt pijl van onafhankelijke variabele & geeft pijl aan afhankelijke variabele
- onrechtstreekse invloed van X op Y
15
Q
multicolineariteit
A
- inhoud
- 2 of meer variabelen die zelfde variatie verklaren
- 1/2 schrappen - gevolgen
- probleem bij betrouwbaarheidsintervallen
–> zekerheid voor 1 variabele berekenen = andere variabele die gelijkaardig is wordt heel onzeker
- model wordt instabiel = andere resultaten
16
Q
berekening van multicolineariteit
A
- tolerance
- % van variatie dat niet kan verklaard worden door andere variabele
- multicollineariteit indien waarde dichter bij 0 - VIF variance inflation factor
- mate dat variatie van coëfficient vergroot door correlatie met andere
- omgekeerd evenredig met tolerance
- hoge waarde wijst op multicollineariteit
- VIF = 1 / (1-R²) - waarde van R²
- hoge waarde = X wordt bepaalt door andere X
- VIF = hoog
- tolerance = laag
–> lage waarde = omgekeerd - cut-offs
- VIF > 10
- tolerance < 0.1
17
Q
interactie effect
A
- moderatie analyses
- kan bij alle soorten variabelen
- continue variabele = voorspeller
- categorische variabele = moderator
- beide regressielijnen lopen niet evenwijdig
- vb: snellere daling van levenskwaliteit bij mannen dan bij vrouwen - formules
- Y = B0 + B1X1 + B2X2 + B3X1X2 + e
- herschrijven voor betere interpretatie van B3:
- Y = B0 + B2X2 + (B1 + B3X2)X2 + e
- B3 maakt relatie van B1 sterker of zwakker = verschil in relatie
- B3 = verschil in rico’s - invloed op analyse
- bij lineaire regressie = verbanden opmaken
- bij interactie = door lijnen die uitelkaar lopen voorspellingen kunnen maken
–> aantonen dat in toekomst lijnen verder zullen afdwalen
18
Q
selectie van model met interactie
A
- voorwaarden
- residuen normaal verdeeld
- homoscadisticiteit = constante variantie van residuen
- lineair verband - selectie van model
- R² zo hoog mogelijk
- geweten confounders = altijd opnemen
- significantie van variabelen - interacties in model
- significantie van interacties is belangerijk
- geen interpretatie meer mogelijk van main-effecten
19
Q
stappen van test
A
- formuleren van onderzoeksvraag & hypothese
- beschrijvende statistiek
- grafische voorstelling
- bouwen van regressiemodel
- nagaan van voorwaarden
- schrijven van conclusie
20
Q
stap 1 van test
A
- formuleren van onderzoeksvraag & hypothesen
- onderzoeksvraag = kernvraag die beantwoord moet worden
- opstellen van H0 & H1 = H0-is altijd in de vorm dat het geen wat je test niet zo is
–> er is GEEN interactie effect
- bepalen voor test = hypothese nauwkeurig toesten - opstellen van DAG uit onderzoeksvraag
- regressievergelijking met variabelen
- interpretatie = welke coëfficienten zijn van belang voor het testen van interactie
21
Q
stap 2 van test
A
= beschrijvende statistiek
- continue variabelen
- gemiddelde & mediaan
- standaarddeviatie
- minimum & maximum waarden
- door descriptive statistics -> descriptives - categorische variabele
- frequentie & proportie
- door descriptive statistics -> frequencies en enkel frequency table aanvragen - outliers
- extreem hoge of extreem lage waarde
- door meetfouten, bezondere omstandigheden of variabele met bezondere verdeling
- verwijderen enkel met nodige voorzichtigheid
22
Q
stap 3 van test
A
= grafische voorstelling
- univariatie grafische voorstelling
- categroisch = barplot of taartdiagram
- continu = boxplot of histogram - multivariate grafische voorstelling met 2
- continu x continu = scatterplot
- coninu x categorisch = boxplot - multivariate grafische voorstelling met 3
- coninu x categorisch x categorisch = boxplot met filter
- continu x continu x continu = 1 variabele dichotomiseren
23
Q
regressie model voor continue variabele
A
- lineaire regressie
- analyze -> general lineair models -> univariate
- selecteren van afhankelijk = dependent
- selecteren van onafhankelijk categorisch = fixed factors
- selecteren van onafhanklijk continu = covariates - model bouwen
- model -> build terms
- onafhankelijke variabelen appart in model steken als MAIN EFFECTS
- onafhankelijke variabelen samen in model steken als INTERACTION
24
Q
extra aanduiden bij univariaat model
A
- save
- ongestandaardiseerde voorspelde waarden
- gestandaardiseerde residuen - EM estimated marginal means
- X1*X2 opnemen
- compaire simple main effect aanduiden
- LSD(none)
- zal gemiddelde per groep berekenen - options
- descriptive statistics
- parameters estamites
- homogeneity tests
- residual plots
- modified Breusch-Pagan test
25
regressie model voor dichtome variabele
1. logistische regressie
- afhankelijke variabele is categorisch dichotoom
- analyze -> regression -> binary logistic
- selecteren van afhankelijk = dependent
- selecteren van onafhanklijk = covariates
26
outcome van stap 4 in volgorde
1. corrected models
- H0 = het model verklaart geen variantie
- determinatiecoëfficiënt gelijk is aan 0
--> interpreteren onder tabel
- indien p < 0,05 dan pas rest van uitkomst interpreteren
2. regressievergelijking opstellen
- tabel parameter estimates
- enkel interactie effect opnemen indien p < 0,05
3. regressie vergelijking voor elke groep opstellen
4. EMMEANS = gemiddelde verschillen tussen groepen vaststellen
27
stap 5 van test
nagaan van voorwaarden
= eigenlijk doen door aanduiden van extra-test bij test
1. lineariteit
- tussen continu onafhankelijk & afhankelijk
- scatterplot met bissectrische
- automatisch voldaan indien enkel categorisch
2. homoscedasticiteit
- variantie van residuen gelijk voor verschillende X-waarden
--> indien niet zo = heteroscadicticiteit
- levene test
- bij test = options -> residual plots
- of scatterplot van de redisuen tov. predicted
3. normale verdeling van residuen
- univariate histogram
- verdeling tonen = rechts boven curve klikken
4. multi-collineariteit
- analyze -> regression -> lineair -> statistiscs -> collinearity diagnostics
28
stap 6 van test
= uitschrijven van resultaten
1. raporteren van schattingen
- regressiecoëfficiënten
- standaardfouten
- gemiddeldes per groep = EMMEANS
- p-waarden
- R²
2. interpretatie = wat willen coëficiënten in context van onderzoeksvraag zeggen
3. conclusie = testen van resultaten voor hypothese