Lineaire regressie Flashcards

(28 cards)

1
Q

hypothese testen

A
  1. nulhypothese
    - H0 = er is geen verschil tussen X & Y
    - H1 = er is wel verschil tussen X & Y
    - statistische toest = voldoende bewijs vinden om H0 te verwerpen of te behouden
    - verwerpen indien p-waarde < alfa
  2. fouten
    - type 1 fout = alfa = kans dat H0 verwopen wordt maar juist is
    - type 2 fout = beta = kans dat H0 behouden wordt maar fout is
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

cohorte & cross-sectionele studies

A
  1. cohorte studie
    - vertrekken bij gezonde populatie
    - incidentie = mensen die ziekte oplopen
    - longitudinale follow-up
    –> prospectief > retrospectief door bias van herinneringen
  2. cross-sectioneel
    - prevalentie = vertrekken van gezonde & zieke populatie
    - geen longitudinale follow-up
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

algemeen lineaire regressie

A
  1. gebruik
    - cohorte = voorspellen van uitkomstmaat op basis van 1 of meer factoren
    - cross-sectioneel = beschrijven van verband tussen uitkomst maat & andere factoren
    - rekening houden met storende variabelen
  2. voorwaarden
    - lineariteit = moet niet beste verband zijn maar aanvaardbaar
    - onafhankelijke observaties
    - residuen moeten normaal verdeeld zijn met gemiddelde 0 & constante variantie = homoskedasticiteit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

lineair regressiemodel

A
  1. Y = B0 + B1X + e
    - Y = afhankelijke uitkomst variabele die continu moet zijn
    - X = onafhankelijke variabele(n) die continu of categorisch kunnen zijn
    - B = regressiecoëfficiënten
    –> verandering van Y bij 1 eenheid verandering van X
    - B0 = intercept als X = 0 is, maar is vaak niet relevant
    - e = residuen = foutenmarge
  2. correlatie
    - Pearson of Spearman
    - hoe sterk lineair verband is
    - indien alle punten op exact 1 lijn liggen = 1 of -1
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

SS

A
  1. SS sum of squares
    - som van kwadraten van verschillen
    - verschillen tussen regressie lijn & effectieve waardes
    - zegt iets over de kwaliteit van het model
  2. SST total sum of squares
    - totale variabiliteit van de afhankelijke variabele = hoeveel verschilt de variabele van het gemiddelde
    - verschil tussen gemiddelde & effectieve waarde van afhankelijke variabele
  3. SSR sum of squared regression
    - hoeveelheid variatie verklaard door regressie model
    - verschil tussen gemiddelde & regressie lijn
  4. SSE sum of squared errors
    - hoeveelheid varaitie niet door model verklaard
    - verschil tussen effectieve waarde & regressie lijn
  5. samengevat
    - total varaitie = SST = SSR+SSE
    - variatie verklaard door model = SSR
    - variatie niet in model = SSE
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

ANOVA-tabel

A
  1. SSR regression
    - SS = gemiddelde - regressie lijn
    - df = m
    - MS mean square = SSR/m = MSR
  2. SSE error
    - SS = regressielijn - effectieve waarde
    - df = n-m-1
    - MS = SSE/n-m-1 = MSE
  3. total
    - SS = gemiddelde - effectieve waarde
    - df = n-1
  4. n & m
    - n = aantal data punten
    –> hangt samen met power = type II fout
    - m = aantal onafh vanariabelen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

berekeningen vanuit ANOVA tabel

A
  1. F-waarde ≈ T-score
    - F = MSR / MSE
    - hieruit p-waarde berekenen
    - hoger = beter
  2. p-waarde
    - kans dat F-waarde of extremer wordt verkregen
    - indien H0 waar is
    - lage waarde = onder 0.05 = nulhypothese verwerpen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

determinatie coëfficiënt

A
  1. determinatie coëfficient R²
    - R² = 1 - SSE/SST
    - R² = 0-1 of % van variatie dat door model kan verklaard worden
    - hoger = beter bij data passen
  2. nagelkerke R²
    - straf bij meer variabelen
    - correctie voor altijd hoger % van verklaring te hebben
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

categorische variabelen bij lineaire regressie

A
  1. voorwaarden voor categorische variabelen
    - dichotoom = 2 opties
    - met 0 & 1 geprogrammeerd
  2. dummy coding
    - voor categorische variabelen met 2+ categoriën
    - aantal categoriën - 1 variabelen aanmaken
    - 1 categorie overlaten = referentie vategorie
  3. referentie categorie
    - zal geen p-waarde & interval krijgen
    - test tov. deze waarde
    –> ondere groepen zouden onderling wel significant kunnen zijn maar niet getest = post-hoc
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

modelkwaliteit van lineaire regressie

A
  1. ANOVA-tabel & P-waarde
  2. determinatie coëfficiënt = R²
  3. vervulde voorwaarden
  4. residuenanalyse
  5. klinische relevantie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

meervoudige regressie

A
  1. Y = B0 + B1X1 + B2X2
    - meerdere B-coëfficienten
    –> kan ook bij enkelvoudige regressie met dummy-coding
    - nood aan correctie voor confounders
    –> in oplossing zeggen: gecorrigeerd voor
    - effect van andere
  2. voorstelling
    - 2 regressie lijnen bij categorische variabele
    - verband met continue blijft hetzelfde
    - enkel +- verschil door categorie
    –> verband zou ander kunnen zijn = interactie-effect
    - lijn tussen beide = gecorrigerde associatie
    –> indien geslacht gecorrigeerd wordt maar niet opgenomen wordt
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

variabelen selecteren

A
  1. theoretisch model = DAG
  2. multicollineariteit
  3. significantie van het model
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

DAG

A
  1. directed acyclic graph
    - directed = elke lijn heeft een pijl
    - acyclic = bij het volgen van de pijlen kan men niet terug naar het zelfde punt komen
    - gebaseerd op theoretische kader
    - geeft relatie tussen variabelen weer
    - zelf kunnen tekenen = causaliteits anamnese
  2. willeurige groepen verdeling
    - alles wat naar de onafhankelijke variabele leidt mag gescrapt worden
    –> niet echt doen = tekenen als stippelijn
    - wordt in dit model niet opgenomen door toewijzing
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

type verbindingen binnen DAG model

A
  1. collider
    - Y & Z komen samen op X
    - onstaan van omgekeerde associatie bij kijken naar subset X
    –> voor een lagere Y zal Z hoger moeten zijn om zelfde X te bekomen
    - corrigeren door collider niet op te nemen in analyze
  2. confounder
    - X gaat naar Y & Z
    - variabele kan ervoor zorgen dat Y & Z verbonden zijn maar dit is niet het geval
    –> groter effect tussen Y & Z dan dat effectief is
    - corrigeren door confounder op te nemen in analyze
  3. mediator
    - ontvangt pijl van onafhankelijke variabele & geeft pijl aan afhankelijke variabele
    - onrechtstreekse invloed van X op Y
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

multicolineariteit

A
  1. inhoud
    - 2 of meer variabelen die zelfde variatie verklaren
    - 1/2 schrappen
  2. gevolgen
    - probleem bij betrouwbaarheidsintervallen
    –> zekerheid voor 1 variabele berekenen = andere variabele die gelijkaardig is wordt heel onzeker
    - model wordt instabiel = andere resultaten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

berekening van multicolineariteit

A
  1. tolerance
    - % van variatie dat niet kan verklaard worden door andere variabele
    - multicollineariteit indien waarde dichter bij 0
  2. VIF variance inflation factor
    - mate dat variatie van coëfficient vergroot door correlatie met andere
    - omgekeerd evenredig met tolerance
    - hoge waarde wijst op multicollineariteit
    - VIF = 1 / (1-R²)
  3. waarde van R²
    - hoge waarde = X wordt bepaalt door andere X
    - VIF = hoog
    - tolerance = laag
    –> lage waarde = omgekeerd
  4. cut-offs
    - VIF > 10
    - tolerance < 0.1
17
Q

interactie effect

A
  1. moderatie analyses
    - kan bij alle soorten variabelen
    - continue variabele = voorspeller
    - categorische variabele = moderator
    - beide regressielijnen lopen niet evenwijdig
    - vb: snellere daling van levenskwaliteit bij mannen dan bij vrouwen
  2. formules
    - Y = B0 + B1X1 + B2X2 + B3X1X2 + e
    - herschrijven voor betere interpretatie van B3:
    - Y = B0 + B2X2 + (B1 + B3X2)X2 + e
    - B3 maakt relatie van B1 sterker of zwakker = verschil in relatie
    - B3 = verschil in rico’s
  3. invloed op analyse
    - bij lineaire regressie = verbanden opmaken
    - bij interactie = door lijnen die uitelkaar lopen voorspellingen kunnen maken
    –> aantonen dat in toekomst lijnen verder zullen afdwalen
18
Q

selectie van model met interactie

A
  1. voorwaarden
    - residuen normaal verdeeld
    - homoscadisticiteit = constante variantie van residuen
    - lineair verband
  2. selectie van model
    - R² zo hoog mogelijk
    - geweten confounders = altijd opnemen
    - significantie van variabelen
  3. interacties in model
    - significantie van interacties is belangerijk
    - geen interpretatie meer mogelijk van main-effecten
19
Q

stappen van test

A
  1. formuleren van onderzoeksvraag & hypothese
  2. beschrijvende statistiek
  3. grafische voorstelling
  4. bouwen van regressiemodel
  5. nagaan van voorwaarden
  6. schrijven van conclusie
20
Q

stap 1 van test

A
  1. formuleren van onderzoeksvraag & hypothesen
    - onderzoeksvraag = kernvraag die beantwoord moet worden
    - opstellen van H0 & H1 = H0-is altijd in de vorm dat het geen wat je test niet zo is
    –> er is GEEN interactie effect
    - bepalen voor test = hypothese nauwkeurig toesten
  2. opstellen van DAG uit onderzoeksvraag
  3. regressievergelijking met variabelen
  4. interpretatie = welke coëfficienten zijn van belang voor het testen van interactie
21
Q

stap 2 van test

A

= beschrijvende statistiek

  1. continue variabelen
    - gemiddelde & mediaan
    - standaarddeviatie
    - minimum & maximum waarden
    - door descriptive statistics -> descriptives
  2. categorische variabele
    - frequentie & proportie
    - door descriptive statistics -> frequencies en enkel frequency table aanvragen
  3. outliers
    - extreem hoge of extreem lage waarde
    - door meetfouten, bezondere omstandigheden of variabele met bezondere verdeling
    - verwijderen enkel met nodige voorzichtigheid
22
Q

stap 3 van test

A

= grafische voorstelling

  1. univariatie grafische voorstelling
    - categroisch = barplot of taartdiagram
    - continu = boxplot of histogram
  2. multivariate grafische voorstelling met 2
    - continu x continu = scatterplot
    - coninu x categorisch = boxplot
  3. multivariate grafische voorstelling met 3
    - coninu x categorisch x categorisch = boxplot met filter
    - continu x continu x continu = 1 variabele dichotomiseren
23
Q

regressie model voor continue variabele

A
  1. lineaire regressie
    - analyze -> general lineair models -> univariate
    - selecteren van afhankelijk = dependent
    - selecteren van onafhankelijk categorisch = fixed factors
    - selecteren van onafhanklijk continu = covariates
  2. model bouwen
    - model -> build terms
    - onafhankelijke variabelen appart in model steken als MAIN EFFECTS
    - onafhankelijke variabelen samen in model steken als INTERACTION
24
Q

extra aanduiden bij univariaat model

A
  1. save
    - ongestandaardiseerde voorspelde waarden
    - gestandaardiseerde residuen
  2. EM estimated marginal means
    - X1*X2 opnemen
    - compaire simple main effect aanduiden
    - LSD(none)
    - zal gemiddelde per groep berekenen
  3. options
    - descriptive statistics
    - parameters estamites
    - homogeneity tests
    - residual plots
    - modified Breusch-Pagan test
25
regressie model voor dichtome variabele
1. logistische regressie - afhankelijke variabele is categorisch dichotoom - analyze -> regression -> binary logistic - selecteren van afhankelijk = dependent - selecteren van onafhanklijk = covariates
26
outcome van stap 4 in volgorde
1. corrected models - H0 = het model verklaart geen variantie - determinatiecoëfficiënt gelijk is aan 0 --> interpreteren onder tabel - indien p < 0,05 dan pas rest van uitkomst interpreteren 2. regressievergelijking opstellen - tabel parameter estimates - enkel interactie effect opnemen indien p < 0,05 3. regressie vergelijking voor elke groep opstellen 4. EMMEANS = gemiddelde verschillen tussen groepen vaststellen
27
stap 5 van test
nagaan van voorwaarden = eigenlijk doen door aanduiden van extra-test bij test 1. lineariteit - tussen continu onafhankelijk & afhankelijk - scatterplot met bissectrische - automatisch voldaan indien enkel categorisch 2. homoscedasticiteit - variantie van residuen gelijk voor verschillende X-waarden --> indien niet zo = heteroscadicticiteit - levene test - bij test = options -> residual plots - of scatterplot van de redisuen tov. predicted 3. normale verdeling van residuen - univariate histogram - verdeling tonen = rechts boven curve klikken 4. multi-collineariteit - analyze -> regression -> lineair -> statistiscs -> collinearity diagnostics
28
stap 6 van test
= uitschrijven van resultaten 1. raporteren van schattingen - regressiecoëfficiënten - standaardfouten - gemiddeldes per groep = EMMEANS - p-waarden - R² 2. interpretatie = wat willen coëficiënten in context van onderzoeksvraag zeggen 3. conclusie = testen van resultaten voor hypothese