Longitudinaal Flashcards
(24 cards)
begin van longitudinale studie
- spreiding
- bij gerandomiseerd zou alle startpunten samen moeten liggen
- vaak niet het geval = heeft niks met bestudeerd effect te maken
- 2 opties voor dit probleem - klassieke regressie
- gewone statistiek uitvoeren
- initieël verschil toch toeschrijven aan bestudeerd effect
- slechts enkele punten in de tijd bekijken
- wilxocon of gepaarde T-test - betere regressie
- regressie met interactie-effecten
- onafhankelijksheidsvoorwaarde niet voldaan = correctie nodig
attrition
- MCAR missing completely at random
- reden is niet gerelateerd aan geobserveerde of niet-geobserveerde data
- volledig willekeurig
- bijna nooit het geval
- listwise deletion = negeren van uitval - MAR missing at random
- reden is gerelateerd aan andere geobserveerde data
–> maar niet van de ontbrekende waarde zelf = niet kunnen verklaren
- multiple imputation = benaderen van gegevens via beschikbare variabelen
–> zal dichter tegen werkelijkheid liggen dan listwise deletion - MNAR missing not at random
- direct gerelateerd aan de niet-geobserveerde informatie
- moeilijkste oplossing = sensitiviteitsanalyses
–> robustheid van resultaten nagaan
voor & nadelen van longitudinale data
- voordelen
- toegang to veranderingen binnen individuen over tijd
- mogelijkheid causale relaties verder bestuderen
- vermogen om tijdgerelateerde patronen te ontdekken
–> trends & seizoengebonden variaties - nadelen
- attrition = uitval van deelnemers
- complexere analyse door correlatie tussen herhaalde metingen binnen zelfde subjecten
correlatie
- probleem
- typische regressie verondersteld onafhankelijkheid tussen observaties
- long = geclusterde data - clusters
- vanaf vermoeden correlatie
- subgroep van 1 persoon of groter
- clusters bewegen in zelfde patroon over tijd heen = correlatie - soorten clusters
- longitudinale data = 1 persoon
- cross-sectionele = subgroepen
matrix van correlatie
- matrix voorstelling van correlatie
- verschillende methodes voor correlatie in kaart te brengen
- op X & Y staan de tijdsmomenten
- diagonaal zal 1 zijn want volledig zelfde waarde - verschillende methodes
- klassieke regressie = niet-diagonaal zal 0 zijn (geen correlatie)
- EC = zelfde correlatie tussen verschillende tijdsmomenten
- AR1 = correlatie is hoger bij dichter gelegen tijdsmomenten
- statistiek door repeated measures anova = vergelijking van gepaarde groepen
verschil klassiek model & gemengde modellen
- voorbeeld
- noice expoisure tov. hearing impairment
- in verschillende zones = platteland tot stedelijk = confounder - klassiek
- onderverdeling negeren
- foute regressie
- we hebben geen idee wat hoge waarden in platteland doen & omgekeerd - mixed models = clusteren
- geen onafhankelijke data = zelfde patronen
- gelijkaardig aan meervoudige regressie
random vs fixed effects
- fixed effects
- interpretatie zoals klassieke regressie
- te schatten effect op data
- gekend gemiddeld verschil ≈ regressievergelijking - random effects
- onvoorspelbare effecten op data
- we begrijpen wel dat er een mogelijk effect is
- effecten worden willekeurig beschouwt
- afwijkingen van gekend gemiddeld verschil ≈foutenmarge van regressievergelijking - mixed effects model
- klassieke methode van modellering longitudinale data
- combinatie van fixed & random effects
- beter dan repeated measures anova
verschil mixed models & repeated measures anova
- repeated measures anova
- assumptie van correlatie
- 10 observaties per parameter nodig = heel snel heel grote steekproef nodig - mixed models
- geen schatting van correlatie
- maar 1 parameter
random intercept model
- Y = B0 + B1X1 + b0i + eji
- constante B0
- B1 = afwijking geassocieerd met X1
- zelfde rico voor ieder persoon maar verschuiving voor ieder persoon appart
- opsplitsing van totale fout = random effects - b0i
- voor elk subgroep = persoon een intercept
- afijking van subject tov. globale gemiddelde
–> verschil van individuele regressielijn tov. globale regressielijn
- combinatie van B0 & B1 - residuele fout Eji
- afwijking van j-de score
- tov. gemiddelde van individu
verschil lineaire regressie & andere analyses
- lineaire regressie
- werk via OLS ordinairy LEAST squares = kwadratensom
- afstand geobserveerde data & regressielijn zo KLEIN mogelijk maken
- determinatie coëfficient - andere analyses = mixed models & logistische regressie
- MLE MAXIMUM likelihood estimation
- welke parameters zijn het MEEST waarschijnlijk bij de data
- regressie-analyse oplossing OLS = MLE
- nieuwe determinatie coëfficient = L likelihood - L likelihood
- AIC Akaike Information Criterion
- AIC = pentalty aan aantal factoren ≈ nagelkerke
- AIC = 2k - 2ln(L)
–> lager is beter
interpretatie van test
- eerste tabel ≈ interpretatie zoals lineaire regressie
- estimates of covariantie parameters
- covariantie binnen cluster/individu
- gelijkaardig aan correlatie maar niet gestandaardiseerd = -1 of +1
- indien significant = correlatie tussen scores opeenvolgend aan elkaar
- positief = zit altijd boven de algemene regressielijn
- negatief = wisselt af tussen boven & onder lijn - rediuele variantie
- resterende covariantie bij residuele fout = nog kijken naar andere factors
correlatie binnen zelfde cluster
- ICC intraclass correlation
- % van variantie die verklaard wordt
- door covariantie van algemene regressielijn
- B0 / B0 + b0i
- opsplitsing van totale fout = resterende variantie rond nieuwe lijn
in sps = estimates of covariance parameters
redisual / residual + intercept
data verzameling van mixed models
- breed formaat = klassiek
- bij gepaarde toesten
- herhaalde metingen staan naast elkaar
- meting 1, 2, … zijn apparte variabelen - lang formaat
- bij regressie-analyses
- herhaalde metingen zijn categorisch verdeeld
- parameter hoeveelste meting = categorisch
- parameter uitkomst = continu
- in SPSS omzetten
generalized models
- algemeen
- uitbreiding naar niet-normaal verdeelde afhankelijke variabele
- binomiaal = logistische regressie
- Poisson = telling - f(Y) = B0 + B1X1 + B2X2 + … + e
- aanpassing van formule aan linker zijde
- f(Y) = logit link functions
- uitkomst maat wordt in functie gegoten
logistische regressie
- gebruik
- binaire variabele = 0 of 1
- probleem lineaire regressie = rechte die waardes onder 0 of boven 1 geeft
- logit functie = S-vormig met afgevlakt aan 0 & 1 - ln(p/1-p) = B0 + B1X1 + B2X2 + … + e
- gebruik van logit link function f(Y)
- logit (p) = ln (p/1-p)
- p = kans dat Y = 1
- 1-p = kans dat Y = 0
- ook log-odds genoemd - waardes forceren
- waardes op S-vormig deel = tussen 0 & 1
- toch een waarde moeten toeschrijven
- cut-off = 0,5
logit functie
- ln(p/1-p) = B0 + B1X1 + B2X2 + … + e
- B nog steeds kunnen interpreteren
- als OR odds ratio ≠ directe kans
–> niet zeggen kans is x keer hoger maar de ODDS zijn x keer hoger - OR berekening
- manier 1 = odds(niet) / odds(wel)
- manier 2 = e^B
- kan nooit negatief zijn
- referentie = 1 = geen associatie
evaluatie van het logistische model
- schattingen = AIC op basis van likelihood
- predicitieve capaciteit
- sensitiviteit
- specificiteit
- accuraatheid
- ROC-analyze
sensitiviteit & specificiteit
- sensitiviteit
- enkel in positieve groep kijken = wie wordt opgespoord
- TPR true positive rate
- TP/(TP+ FN) - specificiteit
- enkel in negatieve groep kijken = wie wordt opgespoord
- TNR true negatieve rate
- TN/(TN+FP) - accuraatheid
- (TP+TN) / totaal
- kan vertekend beeld geven bij grote aantallen
–> gedreven naar categorie die het meest voorkomt
ROC-analyze
ROC = recieving operating curve
- grafiek
- Y-as = sensitiviteit
- X-as = 1-specificiteit - per cut off plotten op grafiek = beste bepalen
- lage cut-off = veel vals positieven = slechte specificiteit
- hoge cut-off = veel vals negatieven = slechte sensitiviteit - analyze
- beide hoeken verbinden = verbind lijn
- AUC = area under the curve
- AUC van verbind lijn = 0,5 - goede ROC-curve
- boven de verbind lijn
- grotere AUC als de verbind lijn
- best = zichter bij linker bovenhoek = grotere AUC
uitbreiding logistische regressie
- interacties = ln(p/1-p) = B0 + B1X1 + B2X2 + B3X2X3 + e
- random intercept = ln(p/1-p) = B0 + B1X1 + B2X2 + B0 + e
- combinatie = ln(p/1-p) = B0 + B1X1 + B2X2 + B3X2X3 + B0 + e
grafische voorstellingen bij longitudinale data
- beschrijvende statistiek
- alles per meting
- split cases of select cases - spaghetti-plot
- graphs -> chart builder
- line -> multiple lines
- x-as = tijd
- y-as = score
- color = id of groep bij veel id’s
- statistic = value
- mogelijkheid van betrouwbaarheids interval ook aan te zetten - andere line-plot kan ook
model opbouwen in SPS
- analyze
- mixed models
- lineair
- aanduiden
- subjects = ID
- data moet in lang formaat zijn - continue
- dependent value = score
- factor = categorische variabele
- covariate = continue variabele - extra
- fixed = vaste effecten = tijd, groep & combinatie
–> LAAT OP FACTORIAL STAAN
- random = include intercept per ID
- statistics = eerste 1,3 & 4e
- estimated marginal means = kan voor main effects & interactie
–> enkel interactie kunnen
- save = predicted values & residuals
interpretatie van uitkomst
- information criteria = verschillende modellen vergelijken
- estimates of fixed effects = regressie model opstellen
- covariance parameters
- covariantie van data binnen subjecten
- covariantie van data binnen residuelen
- ICC berekenen = subjecten/(subjecten+residuelen) - EMMEANS = gemiddelde tussen groepen
controleren van voorwaarden
- lineariteit = scatterplot tussen afhankelijk & onafhankelijk continu
- collineariteit = regression
- homoskesasticiteit = scatterplot residuen tov. predicted
- normale verdeling
- ICC = zie covariance