HC6 Flashcards

(22 cards)

1
Q

Wat is diagnostiek?

A

De assumpties die we toetsen om de betrouwbaarheid van de resultaten en mogelijkheid tot generaliseren te beoordelen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Wat zijn de assumpties die we toetsen om de betrouwbaarheid van de resultaten en mogelijkheid tot generaliseren te beoordelen?

A
  • Lineaire relatie tussen X en Y
  • Onafhankelijke residuen
  • Residuen zijn homoscedastisch
  • Residuen zijn normaal verdeeld
  • X-en zijn niet gecorreleerd met ‘externe X-en’
  • Geen perfecte multicollineariteit
  • Meetniveau X
  • Variantie in X: niet iedereen mag dezelfde score op X hebben
  • Outliers
  • N
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Waarom is onafhankelijkheid van residuen een assumptie die getoetst moet worden?

A
  • Afhankelijkheid (of autocorrelatie) van residuen is een mogelijk probleem bij TIJD-variabele, bv. kwartaal: de winst in een kwartaal wordt mede beïnvloed door de winst in het voorgaande kwartaal. Net als bij bivariate toetsen met afhankelijke metingen.
  • Autocorrelatie kan leiden tot onderschatting van standaardfout en dus overschatting van de significantie. Kijk naar Durbin-Watson test –> Waarden <1 of >3 duiden op autocorrelatie
    In SPSS: Lineair regression, statistics, Durbin Watson (onder Residuals)
    DIT MOET JE ALLEEN DOEN ALS ER EEN TIJD-variabele is
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Wat houdt homoscedasticiteit van residuen in? Homoscedasticiteit is wat we willen hebben.

A

Is de verdeling van de residuen random of juist geconcentreerd in een bepaald deel van het bereik van de afhankelijke variabele?
- Homoscedasticiteit: random verdeling
- Heteroscedasticiteit: niet random verdeling
Als het heteroscedastisch is dan: Voor sommige waarden van Y voorspelt het model beter dan voor andere waarden.
Maar je wilt dat het model even goed is voor het hele bereik, dus homoscedastisch
In SPSS: Lineair regression, Plots. Op de X-as de gestandaardiseerde voorspelde waarde (ZPRED) en op de Y-as het gestandaardiseerde residue (ZRESID)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Wat is een residu en moet het normaal verdeeld zijn?

A

Residu: Het verschil tussen voorspelde waarde en geobserveerde waarde voor iedere waarneming.
Zijn de residuen van het model (bij benadering) normaal verdeeld? Hier moet aan worden voldoen
In SPSS: Analyze, Lineair regressie, bij de suboptie ‘Plots’ Histogram aanvinken (onder Standardized Residual Plots)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Wat is multicollineariteit?

A

Lijken de predictoren niet te sterk op elkaar?
Dan meten ze dus min of meer hetzelfde. Dit leidt ertoe dat de effectschattingen instabiel zijn, de uniek verklaarde variantie minimaal is en er weinig zicht is op het belang van predictoren.
We willen dat elke X een ander deel van Y verklaren. We willen dus geen multicollineariteit.
In SPSS: Eerst checken via correlaties tussen de predictoren. Grove richtlijn: potentieel probleem vanaf r =0,50 of hoger.
Of checken in het regressiemodel via de Variance Inflation Factor (VIF-score). Dit vraag je op via Analyze, Linear regressie, suboptie Statistics, vinken Collinearity Diagnotics. Richtlijn Field: VIF niet hoger dan 10

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Wat zijn outliers? We willen geen outliers.

A

Zijn er waarnemingen die van grote invloed zijn op het gevonden resultaat?
Er is meer kans op bij een kleine dataset.
Het verwijderen van outliers mag niet zomaar:
- Checken d.m.v. Cook’s D: opletten vanaf Cook’s D>0,1. WAARNEMING VERWIJDEREN BIJ Cook’s D>1.
Dit wordt berekend door te kijken wat de fit is als de outlier er wel en niet in zit.
In SPSS: Analyze, Lineair/Binary logistic regression, Save, Cook’s aanvinken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hoe groot moet de steekproef zijn (N)?

A

Hoe groter de steekproef des te betrouwbaarder de regressiecoëfficiënten zijn

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hoeveel predictoren (k) kunnen we opnemen in het model gelet op de N?

A
  • Populaire regel: 10/15 personen per predictor
  • Veel predictoren vs. strive for parsimony: spaarzaam zijn met aantal k en theorie-gestuurd. Kijk dus ook naar de predictoren waarvan je verwacht dat ze van invloed zijn op Y en kijk niet alleen naar zoveel mogelijk predictoren.
    Bij logistische regressie kijken naar verdeling 0 en 1 in plaats van totale N om aantal op te nemen predictoren te bepalen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Diagnostiek bij lineaire en logistische regressie. Wat moeten we weten?

A
  • Assumpties over residuen (onafhankelijkheid, homoscedasticiteit en normaalverdeling) wel voor lineaire regressie, maar niet bij logistische regressie
  • Multicollineariteit checken kan enkel via lineaire regressie
  • Outliers checken kan via zowel lineaire als logistische regressie
  • Nk op basis van N bij lineaire regressie
  • Nk op basis van verdeling 0/1 in Y bij logistische regressie
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Waar gaan schaaltechnieken over?

A
  • Het gaat om een latent concept/theoretisch concept/abstract kenmerk te meten. Zoals: mentale gezondheid, burn-out, zelfbeeld, tevredenheid, angst, cohesie, binding, houdingen of meningen etc.
  • Het is niet met één vraag te meten
  • Batterij vragen voor nodig om de verschillende facetten van het concept te meten
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Wat is een voorbeeld van een latent concept meten met 1 vraag

A

Leefklimaat van de woonbuurt willen meten, kan met 1 vraag: Wat vindt u van de buurt waarin u woont?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Waarom zou je een latent concept beter kunnen meten met meerdere vragen?

A
  • Verschijnsel is te heterogeen: Men kan aan verschillende dingen denken (faciliteiten, groen, speeltuintje)
  • Betrouwbaarheid: toevalsinvloeden
  • Beperkt onderscheid: ‘leuk’ en ‘niet leuk’
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Als je een latent concept wil meten met meerdere vragen, hoe ziet dat er dan uit en wat zijn de meetniveaus?

A
  • Elke vraag/item is vaak een stelling. Dit is ordinaal meetniveau
  • De schaalvariabele geeft het concept weer. De schaalvariabele (gemiddelde/somscore items) = interval meetniveau
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Wat is het stappenplan van het meetbaar maken met schaaltechnieken van een latent concept

A
  1. Concept operationaliseren en a.d.h.v. meerdere items
  2. Bij nieuwe concepten/bekend concept bij andere doelgroep: Aan de hand van factoranalyse bekijken: is sprake van 1 of meerdere (sub)concepten
  3. Per (sub)concept betrouwbaarheidsanalyse uitvoeren
  4. Per (sub)concept schaal maken (gemiddelde score of somscore)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Laat zien hoe stap 1 eruit ziet, dus het concept operationaliseren a.d.h.v. meerdere items. Het latente concept is het leefklimaat van de buurt.

A

Indicatoren:
- Ik heb veel contact met mijn directe buren
- Ik heb veel contact met andere buurtbewoners
- Ik voel mij mede verantwoordelijk voor de leefbaarheid in de buurt
- In deze buurt gaat men op een prettige manier met elkaar om
- Ik woon in een gezellige buurt met veel saamhorigheid
- Mensen kennen elkaar in deze buurt nauwelijks

Antwoordcategorieën op deze stellingen (= Likert schaal): 1. Helemaal mee eens, 2. mee eens, 3. niet mee eens, niet mee oneens, 4. mee oneens, 5. helemaal mee oneens

Klopt de schaal theoretisch gezien?
- Ga na of er aspecten van het concept zijn waar geen vragen over worden gesteld
- Zijn er items die niet passen bij het concept?

17
Q

Wat is stap 2?

A

Meet de schaal verschillende (sub)concepten? –> Bekijken a.d.h.v. factoranalyse. Hangt het allemaal samen met het latente concept of hangt het samen met meerdere latente concepten.

18
Q

Laat zien hoe stap 3: Per concept een betrouwbaarheidsanalyse uitvoeren eruit ziet.

A
  • Antwoorden samenvoegen: somscore of gemiddelde score.
  • Scoort iemand gemiddeld hoog op deze vragen of juist niet? Betekent bij elk item een hoge score hetzelfde?
  • Zorg ervoor dat de items allemaal dezelfde kant op zijn geredeneerd. Dan kan er gehercodeerd worden.
  • Hercoderen via Recode commando: 1–> 5, 2 –> 4, 3 –> 3, 4 –> 2, 5–>1
  • Operationalisatie: bewerking om tot concept te komen: bv. gemiddelde score over items of somscore nemen. Zodoende creëer je een variabele van interval meetniveau.
  • Betrouwbaarheidsanalyse (reliability analysis) –> hangen de indicatoren/items onderling samen?
  • Cornbach’s alfa laten berekenen
  • Vuistregel alfa>0,80/0,70 (maar in de praktijk wordt alfa>0,60 ook acceptabel geacht), dan is het een goede schaal.
  • Alfa is hoger wanneer de schaal uit meer items bestaat
19
Q

Hoe doe je een betrouwbaarheidsanalyse in SPSS?

A

Analyze, Scale, Reliability Analysis, vink ‘descriptives for ‘items, scale en scale if item deleted’’ aan.

20
Q

Stel cronbach’s alfa is 0,829. Er is ook een tabel met Cronbach’s alfa als er een item verwijderd wordt. Wanneer zou je dan een item kunnen verwijderen?

A
  • Als de Cronbach’s alfa hoger is wanneer dat item wordt verwijderd dan de Cronbach’s alfa nu is
  • Maar de Cronbach’s alfa moet 0,05 hoger moet zijn om hem te mogen verwijderen
  • Je moet ook theoretisch beredeneren over of dat item te belangrijk is om weg te laten.
21
Q

Laat zien hoe stap 4: per concept een schaal aanmaken eruit ziet.

A
  • 908 missing (N=7346 ipv 8254)
  • Dit zijn mensen die op ten minste één van de items een missing value hebben
  • Ipv iedereen met 1 missing verwijderen (listwise deletion): het gemiddelde nemen op een minimum aantal items.
  • Dit kan door dit commando: compute leefklim=mean.6(v3a, v3b, v3cx, v3dx, v4a, v4b, v4cx, v4dx, v4ex, v4fx)
    variable labels leefklim ‘leefklimaat’
    value labels leefklim 1 ‘zeer slecht’ 5 ‘zeer goed’
    desc leefklim.
  • De .6 in de commando laat zien dat alle participanten mee moeten worden genomen die voor tenminste 6 items een geldige waarde hebben.
  • Vuistregel: meer dan de helft van de items moet een geldige waarde hebben om mee te worden genomen in de analyse
  • Door niet te eisen dat de respondent heeft geantwoord op alle items, maar op ten minste 6/10, is het aantal geldige waarden op de schaalvariabele Leefklimaat (LEEFKLIM) geoptimaliseerd. De schaalvariabele heeft nu een geldige waarde voor 8232 (ipv 7346) respondenten (99,7%)