Week 6 De betrouwbaarheid en validiteit van metingen Flashcards

1
Q

De kwaliteit van je onderzoek hangt ook af van de kwaliteit van de meetinstrumenten die je gebruikt.

A

Betrouwbaarheid en validiteit zijn sleutelbegrippen in het beoordelen van de bruikbaarheid van in onderzoek gehanteerde meetprocedures. Bij het vaststellen van de bruikbaarheid van je meetprocedure stel je jezelf de volgende 2 vragen:

  1. Zijn de resultaten van mijn meting herhaalbaar? (Betrouwbaarheid)
  2. Heb ik wel gemeten wat ik wilde meten? (Validiteit)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Betrouwbaarheid

A

Metingen zijn zelden 100% nauwkeurig, dus je zult waarschijnlijk bij elke afname iets andere verschillen tussen de scores vinden, maar de verschillen tussen de scores zullen redelijk hetzelfde zijn. De betrouwbaarheid van een meetinstrument kan op meerdere manieren bepaald worden. Afhankelijk van de methode waarmee de betrouwbaarheid wordt vastgesteld moet een meetinstrument eenmalig bij een groep personen worden afgenomen (interne consistentie betrouwbaarheid) of meerdere keren bij dezelfde personen worden afgenomen, bijvoorbeeld door de meting op een later tijdstip bij dezelfde personen te herhalen (test-hertest betrouwbaarheid), of door dezelfde personen door meerdere observatoren te laten meten (interbeoordelaarsbetrouwbaarheid).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

De test-hertest betrouwbaarheid

A

wordt bepaald door een test twee keer bij dezelfde personen af te nemen en vervolgens te beoordelen of de scores op beide afnamen overeenkomen. Als deze overeen komen dan is er sprake van een goede test-hertest betrouwbaarheid. De mate van overeenkomst tussen de scores op beide afnamen wordt vastgesteld door de correlatie tussen de testscores op de eerste afname en de testscores op de tweede afname te berekenen. De correlatie (r) is een maat voor de sterkte en richting van de samenhang tussen twee kwantitatieve variabelen en loopt van -1.0 tot +1.0. Een correlatie van 0 tussen de twee variabelen geeft aan dat die variabelen niet met elkaar samenhangen. Een correlatie van groter/kleiner dan 0 tussen de twee variabelen geeft aan dat er een positieve/negatieve lineaire samenhang is tussen de twee variabelen. Hoe dichter de correlatie bij -1.0 of +1.0 ligt hoe sterker de samenhang tussen de variabelen. Van een hoge test-hertest betrouwbaarheid is sprake indien de scores op de eerste test en de scores op de hertest hoog positief met elkaar correleren (tussen de 0.65 en 1.0). Van een lage test-hertest betrouwbaarheid is sprake als deze correlatie laag positief, nul of zelfs negatief uitvalt. In dit laatste geval zullen scores op de test sterk afwijken van scores op de hertest. Bij het berekenen van een correlatie wordt alleen gekeken of de verschillen tussen personen hetzelfde blijven. De score zelf mag best veranderen. Het gebruik van het woord “betrouwbaarheid” bij de test-hertest methode is gebaseerd op de veronderstelling dat de test een bepaald stabiel persoonlijkheidskenmerk meet dat door de tijd heen nauwelijks aan verandering onderhevig is. Iemands intelligentie bijvoorbeeld zal gedurende het leven nauwelijks aan grote veranderingen onderhevig zijn.

Voor iedere proefpersoon 2 scores; 1e afname (test) en 2e afname (hertest)
De verschillen tussen personen op de 1e afname wil je hetzelfde hebben als de verschillen tussen personen op de 2e afname.
Als iedereen 3 punten hoger scoort, maar de verschillen hetzelfde blijven, is dit niet erg voor de betrouwbaarheid.
Als je een onstabiel kenmerk (honger bijv.) meet, is deze niet geschikt (want de tweede meting kan vanwege de tijd veel verschil maken), dan gebruik je interne consistentie betrouwbaarheid.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

De interne consistentie betrouwbaarheid

A

De interne consistentie betrouwbaarheid van een test wordt bepaald door de test slechts eenmaal af te nemen bij een groep personen. Dit is mogelijk als het meetinstrument bestaat uit een aantal verschillende vragen (items) die allemaal hetzelfde proberen te meten. Op basis van de gemiddelde correlatie tussen de items van de test wordt volgens Cronbachs alfa (α) berekend als maat voor de interne consistentie betrouwbaarheid. Deze coëfficient wordt ook wel coëfficiënt alfa genoemd. Een Cronbachs alfa van 1 geeft aan dat de test perfect betrouwbaar is, een waarde van 0 geeft aan dat de test totaal niet betrouwbaar is. Theoretisch gezien kan hij geen negatieve waarden aannemen. Soms komt dit wel voor, maar dan is de onderzoeker vergeten items te spiegelen.
Hoewel Cronbachs alfa gebaseerd is op slechts 1 afname van de test, kunnen we hiermee voorspellingen doen over wat er zou gebeuren als we dezelfde test nogmaals zouden afnemen onder identieke omstandigheden. Elk item in de test kan worden gezien als een klein meetinstrument. Omdat de items allemaal hetzelfde proberen te meten zijn de correlaties tussen de items te zien als test-hertest betrouwbaarheden van de items, waarbij de hertest (een ander item) op vrijwel hetzelfde moment wordt afgenomen.

Gebaseerd op een enkele afname van een test. Dat kan als je een test hebt die bestaat uit meerdere items die allemaal hetzelfde meten.
Cronbachs alfa is een van de maten voor interne consistentie betrouwbaarheid (max. 1.0).
Je wilt dat de items in de test, die willen allemaal hetzelfde meten, wat je wilt is dat de items het allemaal met elkaar eens zijn over de verschillen tussen proefpersonen.
• Cronbachs alfa = (α) = coëfficiënt alfa
• Voorspelling van de test-hertest betrouwbaarheid (op basis van 1 afname van de test, kan je wat voorspellen over wat er zou gebeuren als je hem opnieuw zou afnemen)
• α is gelijk of kleiner dan test-hertest betrouwbaarheid

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Interbeoordelaarsbetrouwbaarheid

A

Bij interbeoordelaarsbetrouwbaarheid gaat het om de mate waarin verschillende beoordelaars (of observatoren) het met elkaar eens zijn. Er wordt voor betrouwbaarheid geen absolute overeenstemming verlangd, maar slechts consistentie of correlatie. Bij onderzoeken die gebruik maken van gedragsobservaties wil je echter soms wel degelijk dat de verschillende observatoren hetzelfde waarnemen. Stel dat we twee beoordelaars alle bachelortheses van de derdejaars laten beoordelen op een schaal van 1 tot 10. De correlatie tussen de beoordelingen van de eerste beoordelaar en die van de tweede beoordelaar kan dan worden berekend als een maat voor interbeoordelaarsbetrouwbaarheid. Een hoge correlatie zou dan aanduiden dat de beoordelaars goed overeenkomen wat betreft de verschillen tussen de personen (consistentie). In dit geval is het echter niet alleen van belang dat de beoordelaars het eens zijn over de verschillen tussen de personen, maar willen we ook graag dat ze dezelfde beoordelingen geven (absolute overeenstemming). In dit soort gevallen willen we dat de interbeoordelaarsbetrouwbaarheid een maat is voor absolute overeenstemming. Een voorbeeld daarvan is Cohens kappa. Een ander voorbeeld is de intraclasscorrelatie voor absolute overeenstemming. Beide coëfficiënten nemen alleen de waarde 1 aan als de observatoren allemaal dezelfde scores geven.

Bij observaties wil je altijd absolute overeenstemming: dus dat de observatoren het niet alleen eens zijn over de verschillen tussen personen, maar ook dat de observatoren dezelfde beoordeling geven.
Deze absolute overeenstemming kan je op meerdere manieren bepalen:
• Intraclasscorrelatie (ICC)
• Cohens kappa (voor situaties waar er maar 2 observatoren zijn en waarbij de observatoren alleen bijvoorbeeld wel/niet aangeven bij de observatie) (kruistabel)
Deze geven dus de waarde 1 als de observatoren het absoluut met elkaar eens zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Cohens Kappa

A

Met Cohens kappa kun je de interbeoordelaarsbetrouwbaarheid bepalen. Er bestaan verschillende (Cohens) kappa’s, maar we bespreken alleen de Cohens kappa die bedoeld is voor situaties waarin 2 observatoren kwalitatieve beoordelingen geven, zoals ‘wel oogcontact’, ‘geen oogcontact’. Wanneer observatoren het 15 van de 20 situaties het met elkaar eens zijn, kan je ook wel zeggen dat ze het 75% van de gevallen eens zijn. Dit percentage kan natuurlijk ook worden uitgedrukt in een proportie (0.75 in dit geval) en wordt dan de geobserveerde proportie overeenstemming (Po) genoemd. De geobserveerde proportie overeenstemming geeft in dit soort situaties echter een te positief beeld van de mate van overeenstemming tussen de observatoren. Omdat de observatoren alleen maar ja en nee mogen zeggen (in het voorbeeld), zullen ze het op basis van toeval alleen al een aantal keren met elkaar eens zijn. Deze proportie overeenstemming op basis van kans hangt af van hoe vaak iedere observator ja en nee zegt (met andere woorden van de randfrequenties).

In alle gevallen eens: (Po=1) Cohens kappa = 1

In ongeveer evenveel gevallen eens als oneens:
(Po ongeveer 0.50) Cohens kappa ongeveer 0

Ongeveer 75% eens:
(Po ongeveer 0.75) Cohens kappa ongeveer 0.50

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

De intraclasscorrelatie

A

is een maat voor interbeoordelingsbetrouwbaarheid. Er bestaan verschillende intraclasscorrelaties, we bespreken alleen de intraclasscorrelatie voor absolute overeenstemming voor situaties met twee of meer beoordelaars die kwantitatieve beoordelingen geven, zoals cijfers van 1 tot 10. De intraclasscorrelatie voor absolute overeenstemming is 1 als alle beoordelaars het in absolute zin eens zijn over de beoordelingen die zij geven. Wanneer de interne consistentie betrouwbaarheid gelijk is aan 1, kan de intraclasscorrelatie voor absolute overeenstemming kleiner zijn, omdat de observatoren het bijvoorbeeld niet in absolute zin met elkaar eens zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Validiteit

A

De validiteit van een meetinstrument is de mate waarin een meetinstrument meet wat het beoogt te meten. De inhoudsvaliditeit, criteriumvaliditeit en constructvaliditeit wordt besproken. Deze drie categorieën worden niet meer zoals vroeger beschouwd als verschillende typen validiteit, maar als verschillende onderzoeksmethoden om naar de validiteit van een test te kijken.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Inhoudsvaliditeit

A

De mate waarin items van de test representatief zijn voor het domein van alle mogelijke items over het te meten begrip. De test moet de lading dekken. Hierbij gaat het erom of de items van de test een representatieve steekproef zijn uit dat domein. Wanneer je bijvoorbeeld bij het meten van de mate van depressiviteit alleen maar gaat kijken naar gevoelens van angst, maar niet naar andere kenmerken zoals verminderd activiteitsniveau en slaapproblemen, heeft een lage inhoudsvaliditeit. Dit geld ook voor observaties: indien je met behulp van observaties bepaalde gedragingen wilt meten, dan is het belangrijk dat bij het formuleren van de observatiecriteria rekening wordt gehouden met alle facetten van het te meten begrip. De inhoudsvaliditeit van een test wordt vastgesteld door de items van de test te vergelijken met de definitie van het te meten domein. Allereerst wordt het empirisch domein gedefinieerd door het geheel van items voor het te meten begrip te specificeren. Vervolgens wordt beoordeeld of de items die in de test zijn opgenomen een representatieve steekproef zijn uit dit afgesproken domein. Daartoe is het nodig dat alle aspecten die in het domein onderscheiden kunnen worden ook in de test aanwezig zijn. Wanneer de testitems representatief zijn voor alle mogelijke items wordt de test beschouwd als inhoudsvalide. Kenmerkend voor inhoudsvaliditeit is dat je deze kunt vaststellen zonder de test af te nemen door enkel naar de items van de test te kijken.

  • Gericht op representativiteit
    (zijn de items in de test een goede afspiegeling van de items die in de test moeten zitten?)
  • geen afname van de test
  • alleen kijken naar de inhoud van de test
  • geen theorie nodig
  • geen garantie voor constructvaliditeit

Zijn de items een evenwichtige afspiegeling van het soort items dat de test zou mogen bevatten?

Nodig:
• Omschrijving van empirisch domein (grote beschrijving van alle mogelijke items)
• Representatieve steekproef uit dat domein

Niet nodig:
• Afname van de test

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Criteriumvaliditeit

A

De mate waarin de testscores kunnen worden gebruikt om de scores op een doelvariabele (het criterium) te voorspellen. Welke variabele als criterium wordt gekozen hangt af van de beoogde toepassing van de test. De criteriumvaliditeit van een meetinstrument is van belang als je je afvraagt in hoeverre de met het meetinstrument verkregen scores samenhangen met, of een goede voorspeller zijn van, een bepaald nader te definiëren criterium. Bij het vaststellen van de criteriumvaliditeit van een meetinstrument gaat het er vooral om de bruikbaarheid van het instrument voor bepaalde specifieke doeleinden vast te stellen (bijvoorbeeld selectie van personeel). Het gaat hierbij nadrukkelijk niet om het vaststellen van de theoretische relevantie van het meetinstrument (zie constructvaliditeit). Het bepalen van de criteriumvaliditeit van een meetinstrument gebeurt door het verband vast te stellen tussen de scores op het meetinstrument en de scores op een bepaald criterium (meestal de scores die zijn verkregen met een ander meetinstrument). De criteriumvaliditeit van een test wordt vastgesteld door bij een groep personen zowel de test af te nemen als het criterium te meten. Vervolgens wordt de correlatie berekend tussen de scores op de test en de scores op het criterium. Een hoge correlatie (dicht bij 1) duidt op een hoge criteriumvaliditeit. In tegenstelling tot de inhoudsvaliditeit en de constructvaliditeit van een meetinstrument laat de criteriumvaliditeit zich dus uitdrukken in één bepaald getal voor ieder criterium (namelijk de correlatiecoëfficiënt tussen de scores op het meetinstrument en de scores op het criterium). Kenmerkend voor criteriumvaliditeit is dat je empirische gegevens (zoals correlaties) nodig hebt om de criteriumvaliditeit van een test te beoordelen. Daarnaast is het voor criteriumvaliditeit niet nodig dat er een theorie over causale relaties bestaat.

De criteriumvaliditeit van een meetinstrument kan niet worden vermeld zonder daarbij ook het relevante criterium te vermelden.

  • gericht op voorspellen van criterium: kun je met test A criterium B goed voorspellen?
  • één correlatie
  • moet zo hoog mogelijk zijn
  • geen theorie nodig
  • keuze van het criterium is moeilijk

Hoe goed kan de test de scores op een andere variabele voorspellen?
Andere variabele = criteriumvariabele
Predictieve validiteit: het criterium ligt in de toekomst.

Nodig:
• Relevant criterium
• Hoge correlatie tussen testscores en criteriumscores

Bij vermelden van criteriumvaliditeit van een test, moet je altijd ook het criterium vermelden.
Bij elk criterium kan er weer een andere criteriumvaliditeit hebben.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Constructvaliditeit

A

De mate waarin de scores op een meting overeenkomen met de theoretische, niet-waarneembare eigenschap die men beoogt te meten.
Constructvaliditeit heeft betrekking op de mate waarin een meting of meetinstrument een goede afspiegeling vormt van het theoretisch begrip dat door de meting of door het instrument getracht wordt te meten. Het is een erg belangrijke vorm van validiteit wat betreft de constructie van een test of observatiesysteem, vooral omdat veel van deze tests en observatiesystemen begrippen trachten te meten die niet direct observeerbaar zijn. De eerder besproken vormen van validiteit, de inhoudsvaliditeit en de criteriumvaliditeit, kunnen ons geen direct antwoord verschaffen op de vraag of een meetinstrument daad- werkelijk meet wat het pretendeert te meten. Inhoudsvaliditeit heeft alleen betrekking op de vraag of er voldoende overeenkomst is tussen de items waarvan de onderzoeker meent dat ze in de test vertegenwoordigd zouden moeten zijn en de items die feitelijk in de test zitten. Criteriumvaliditeit heeft te maken met de vraag in hoeverre de scores op een meting bruikbaar zijn bij voorspellingen over een andere variabele. Echter, zelfs indien een bepaalde meting alle gewenste aspecten van een bepaalde eigenschap meet (de inhoudsvaliditeit lijkt in orde) en de gewenste voorspellende waarde heeft (de criteriumvaliditeit voor bepaalde criteria is hoog), bestaat nog steeds de kans dat de testscores geen duidelijke psychologische interpretatie hebben. Goede criteriumvaliditeit en inhoudsvaliditeit geven dus geen enkele garantie voor constructvaliditeit. De meeste in de psychologie gehanteerde begrippen, zoals intelligentie, geluk, motivatie en dergelijke, zijn niet toegankelijk voor directe observatie. Er kan met andere woorden geen direct empirisch bewijs worden verkregen voor het beoordelen van de constructvaliditeit van een meting. Daarom moeten psychologen zich beroepen op indirecte bewijzen voor de aanname dat met de meting inderdaad het begrip gemeten wordt dat men wenst te meten.
Bij het vaststellen van constructvaliditeit van een meetinstrument wordt vanuit gegaan dat het te meten theoretische begrip onderdeel is van een toetsbare theorie. In zo’n theorie of model wordt beschreven waar het begrip naar verwijst en welke relatie het begrip heeft met andere begrippen. Op basis van die theorie kun je dan specificeren welke verbanden er zouden moeten zijn tussen de scores op het meetinstrument dat het begrip beoogt te meten en de scores op andere metingen. Vervolgens wordt er getoetst of de testscores voldoen aan de voorspellingen die de theorie doet over theoretische begrip. Zo ja, dan wordt de aanname dat de test het begrip goed meet behouden. Zo nee, dan wordt die aanname verworpen en is de test niet construct valide.
Kenmerkend voor constructvaliditeit is dat er voor het vaststellen van de constructvaliditeit van een meetinstrument empirische gegevens nodig zijn, zoals de correlatie tussen de scores op het meetinstrument en de scores op een ander meetinstrument of resultaten van niet-experimenteel of experimenteel onderzoek waarbij bestaande groepen of gemanipuleerde groepen worden vergeleken op de scores op het meetinstrument. Daarnaast moet er een theorie zijn over de causale relaties tussen het theoretische begrip en andere constructen of variabelen.
Constructvaliditeit wordt vaak bepaald door de correlatie te berekenen tussen de scores op het meetinstrument van interesse en de scores op andere metingen. Een hoge correlatie betekent in dit geval echter niet per definitie goede constructvaliditeit. Wanneer op basis van de theorie een hoge correlatie wordt verwacht tussen de scores op het meetinstrument en de scores op een andere meting, is een hoge correlatie steun voor constructvaliditeit. Het kan echter ook zijn dat op basis van de theorie een lage correlatie of een correlatie van 0 wordt verwacht tussen de scores op het meetinstrument en de scores op een andere meting. In dat geval is een lage correlatie of een correlatie van 0 juist een aanwijzing voor constructvaliditeit.
Indien verwachte samenhangen niet worden gevonden, kan dit twee dingen betekenen. Allereerst zou kunnen worden geconcludeerd dat de constructvaliditeit van onze test laag is en dat de test met andere woorden niet het begrip intelligentie meet maar iets anders. Een andere mogelijke verklaring van de niet gevonden samenhangen is dat onze test wel degelijk een goede constructvaliditeit bezit (de test meet inderdaad intelligentie), maar dat de veronderstelde samenhangen tussen bepaalde eigenschappen en het begrip intelligentie gewoon niet bestaan. Deze laatste conclusie zou ons dwingen de door ons voorgestelde theorie van intelligentie te verwerpen, en daarmee indirect ook de betekenis van het begrip intelligentie. Zodat de constructvaliditeit alsnog toch laag is. Indien de verwachte samenhangen echter wel worden gevonden, dan wordt dit doorgaans geïnterpreteerd als steun voor de constructvaliditeit: het meetinstrument meet dan blijkbaar wat we wilden meten.

  • Gericht op begrijpen: is test X een goede afspiegeling van theoretisch begrip X?
  • Meerdere verbanden
  • Moeten sterk of juist zwak zijn
  • Gebaseerd op theorie
  • Formuleren van de theorie is moeilijk

Veel psychologische begrippen (constructen) zijn niet direct observeerbaar.
Komen de scores op de meting overeen met de theoretische eigenschap die je wilt meten?

Je hebt een theorie (nomologisch netwerk) nodig over causale relaties. De theorie moet zijn getoetst.

Nomologisch netwerk: geeft aan welke wetmatige relaties de diverse constructen met elkaar hebben.

Op basis van die theorie voorspellingen afleiden over testscores.

Toetsen of de testscores voldoen aan de voorspellingen

Kijken naar verbanden met andere variabelen:
• Hoge correlaties
• Lage correlaties
• Nulcorrelaties
Als de theorie bijvoorbeeld geen correlatie voorspelt dan ben je blij als je dan ook geen correlatie vindt.

Nodig:
• Theorie over de causale relaties van het construct met andere constructen
• Correlaties, niet-experimentele of experimentele resultaten die overeenstemmen met de theorie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Correlatie

A

• Samenhang tussen twee (kwantitatieve) variabelen
• Loopt van -1.0 tot 1.0
• R = 0: geen samenhang
• R > 0: positieve samenhang (max. 1.0)
• R < 0: negatieve samenhang (max. -1.0)
! Gaat altijd over een lineaire relatie
Correlatie wordt gebruikt om o.a. de samenhang tussen variabelen te weten maar ook om de kwaliteit van meetinstrumenten te beoordelen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Belang betrouwbaarheid en validiteit

A

Gaat om kwaliteit van tests

Tests gebruik je

  • voor het doen van onderzoek
  • in de praktijk, bijvoorbeeld voor diagnostiek

De betrouwbaarheid en validiteit van een test worden vastgesteld door onderzoek(en) te doen naar de test (valideringsonderzoek).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly