H6: Betrouwbaarheid Flashcards
(130 cards)
Belangrijk! Formules uit hoofdstuk 6
Wanneer er bij een vraag op het tentamen een formule een rol speelt, dan staat die formule erbij. U hoeft dus geen formule uit het hoofd te leren. U moet wel de formules begrijpen en u moet wel weten wat u met de formule kunt berekenen.
Aangezien het in hoofdstuk 6 formules regent geven we hier de formules die u echt moet kennen (dit betekent niet dat u die uit het hoofd moet leren en reproduceren):
6.1, 6.9, 6.10, 6.11, 6.16, 6.25, 6.26, 6.40, 6.45, 6.46, de formule onder 6.46, 6.47 en de formule onder 6.47.
Wat zijn 3 basisaannames bij testen volgens de naieve testtheorie?
- Wat we meten bestaat en is (redelijk) stabiel
- Wat we meten is kwantitatief meetbaar
- Kwantitatief verschil in waarden is betekenisvol
Wat zijn de hoofdconcepten van de Klassieke Testtheorie?
- Ware score (in individu en in populatie)
- Meetfout is willekeurig
- Betrouwbaarheid
Wat is de belangrijkste formule van de klassieke testtheorie?
Xij = Ti + Eij
Respons = ware score + meetfoutq
Wat is de belangrijkste formule van de klassieke testtheorie?
Xij = Ti + Eij
Respons = ware score + meetfout
Hierbij is de respons een willekeurige score (X), gekozen uit al de verschillende keren dat de respondent de vragenlijst heeft ingevuld.
Wat is de ware score bij de klassieke testtheorie?
Gemiddelde van alle scores van een persoon bij eenzelfde meting op verschillende momenten (dus eenzelfde vragenlijst op verschillende momenten ingevuld. score zou hetzelfde moeten zijn, maar is het niet)
Wat is een synoniem voor de ware score?
Betrouwbare score
Wat is de som van alle meetfouten van replicaties?
0
Wat is de correlatie tussen E (meetfout) en T (score)?
r(E,T) = 0
Want meetfout en score zijn onafhankelijk van elkaar.
Wat is variantie?
Variantie is het gemiddelde van alle gekwadrateerde afwijkingen van het gemiddelde.
Variantie is altijd een positief getal. Hoe hoger het getal, hoe meer spreiding er is van de geobserveerde scores rondom de gemiddelde score.
Wat is de formule voor betrouwbaarheid?
Variantie van de ware score gedeeld door variantie van de geobserveerde score.
Wat zijn voordelen van de klassieke testtheorie? 3x
- Veel valide vragenlijsten zijn erop gebaseerd
- Vrij goede resultaten voor totale scores
- Eenvoudiger toe te passen
Hoe is de klassieke testtheorie samen te vatten?
De ware score bestaat, maar ruis (oftewel meetfouten) zorgen voor variatie in de scores
Wat is de definitie van betrouwbaarheid?
Wat zijn hier 2 kanttekeningen bij?
De mate waarin een test bij herhaalde afnamen onder dezelfde condities dezelfde score oplevert
- In de praktijk blijkt dat een persoon tussen herhaalde afnames verandert, wat de uitslag bij een volgende afname systematisch kan veranderen.
- Gelijktijdige omgevingscondities kunnen niet worden gegarandeerd bij herhaalde afname
Wat is een andere naam voor de klassieke testtheorie?
De ware-score theorie
Wat is de centrale veronderstelling bij de klassieke testtheorie?
dat de testscore van een persoon kan worden opgevat als bestaande uit een ‘ware’ component en een meetfout, die het gevolg is van toevalsinvloeden. De ware component wordt ook wel de betrouwbare component genoemd, in plaats van component wordt ook wel over score gesproken.
Bij een realisatie van herhaalde afnamen zullen effecten van toevallige invloeden elkaar opheffen en dus is het gemiddelde van de behaalde scores gelijk aan de ware of betrouwbare score en de standaarddeviatie van de behaalde scores gelijk aan de standaarddeviatie van de meetfouten.
Wat wordt er verstaan onder toevalsinvloeden die zorgen voor meetfouten bij de klassieke testtheorie?
factoren die aan de persoon zijn gebonden maar niet blijvend van aard zijn (bijvoorbeeld het niveau van concentratie of stemming als het gaat om iemands intelligentie), en factoren die aan de omgeving zijn gebonden (bijvoorbeeld de temperatuur, de hoeveelheid verkeerslawaai).
Om alle meetfout als willekeurige ruis rond een ware score te zien moet de ruis aan een aantal voorwaarden voldoen. Welke?
- Wanneer een test aan een voldoende grote groep personen of meerdere malen aan een persoon wordt afgenomen, kan op grond van het bovenstaande worden afgeleid dat de gemiddelde meetfout 0 is en dat het gemiddelde van de geobserveerde testscores gelijk is aan het gemiddelde van de ware scores.
- Omdat iedere individuele testscore een meetfout bevat, bestaat de variantie van de scores bij de afnames bij meerdere personen niet alleen uit variantie van de ware scores (betrouwbare variantie), maar ook uit variantie die aan de meetfouten kan worden toegeschreven (foutenvariantie).
Er zijn twee klassieke testtheoretische benaderingen om de betrouwbaarheid te schatten, elk bestaande uit 2 vormen. Welke 2?
- De eerste methode die twee vormen kent is gebaseerd op herhaalde testafnamen.
- Bij de tweede methode om betrouwbaarheid te bepalen kan worden volstaan met één testafname
De eerste methode om betrouwbaarheid in te schatten is gebaseerd op herhaalde testafnamen. Welke 2 vormen kent deze methode?
- De eerste vorm daarvan is gebaseerd op het berekenen van de correlatie tussen twee tests die equivalent of inwisselbaar zijn; zogenoemde paralleltests (zie § 6.3.1). Het equivalentiebegrip wordt geoperationaliseerd door de eis dat de gemiddelden en standaarddeviaties van deze beide tests gelijk zijn en dat de scores op beide tests dezelfde correlatie met een extern criterium hebben. Constructie van dergelijke paralleltests is in de regel moeilijk te realiseren, uitgezonderd enkele nauw omschreven variabelen, zoals rekenvaardigheid en spelling.
De correlatie tussen deze twee tests wordt de paralleltestbetrouwbaarheid genoemd. - De tweede vorm binnen de eerste methode blijft het dichtst bij het theoretische betrouwbaarheidsbegrip (herhaalbaarheid van metingen) en bestaat uit het herhaalde afnemen van dezelfde test, de test-hertestmethode (zie § 6.3.2). De betrouwbaarheid wordt dan bepaald door een index dat aangeeft hoe goed de scores van de meerdere afnames overeenkomen (dit kan een correlatie zijn, maar ook een ander kengetal dat de overeenkomst statistisch verwoordt). De correlatie tussen de twee testscores wordt de ▌test-hertestbetrouwbaarheid genoemd.
Bij de tweede methode om betrouwbaarheid te bepalen kan worden volstaan met één testafname. Deze methode kent ook 2 vormen. Welke 2?
- De eerste vorm bestaat uit het verdelen van de test in twee helften en staat bekend als de splitsingsmethode (zie § 6.3.3). Bij de splitsing dient te worden gestreefd naar een evenwichtige spreiding, een evenredige verdeling en/of een aselecte toewijzing van items aan een van beide helften. De test wordt vervolgens voorgelegd aan de respondenten en achteraf wordt per testhelft een ruwe score bepaald. Indien de scores op beide testhelften werkelijk parallel zijn, dan is hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op de halve test.
- Bij de tweede vorm wordt de betrouwbaarheid van een test bepaald op basis van de inwisselbaarheid van individuele items, een minder strenge eis dan parallellie. De test wordt dan in zijn geheel voorgelegd aan een representatieve groep respondenten, waarna de scores worden gebruikt voor de berekening van de interne-consistentiecoëfficiënt. Deze interne-consistentiemethode (zie § 6.3.4) heeft als basis de covarianties tussen alle paren opgaven (de covariantie van twee variabelen is gelijk aan het product van de correlatie en de beide standaarddeviaties).
Wat is de populairste betrouwbaarheidscoëfficiënt?
Cronbach’s alfacoëfficiënt
Wat zijn de kanttekeningen bij de Cronbach’s alfacoëfficiënt?
- Allereerst is de alfa een ondergrens van de betrouwbaarheid en levert dus een systematische onderschatting van de betrouwbaarheid op.
Maar let op: enkel de alfa in de populatie (als men die kan vaststellen) is altijd kleiner of gelijk aan de werkelijke betrouwbaarheid. Dat wil zeggen dat - op haar best - de berekende alfa gelijk is aan de populatiebetrouwbaarheid.
Echter kunnen we eigenlijk vrijwel nooit de Cronbach’s alfa berekenen in de populatie. Concreet betekent dit dat een alfa in een steekproef ook bij vlagen hoger kan uitvallen dan de alfa in de populatie. Daarmee zou de alfa hoger kunnen zijn dan de werkelijke betrouwbaarheid, vooral bij kleinere steekproeven. - Daarnaast is de alfa rekenkundig afhankelijk van het aantal items in een test. Alfa neemt toe met meer items in de test. Deze toename is niet, zoals bij andere maten van interne consistentie, het gevolg van hogere inter-itemcorrelaties. Doordat alfa rekenkundig afhankelijk is van de testlengte kan bij een lange test met zeer lage inter-itemcorrelaties, ofwel een test met heterogene items, toch een hoge alfa worden gevonden. De hogere alpha geeft dan een illusie van betere interne consistentie bij langere tests.
Kun je Cronbach’s alfa’s met elkaar vergelijken?
Doordat de Cronbach’s alfa rekenkundig afhankelijk is van het aantal items, is het niet altijd gemakkelijk om alfa’s met elkaar te vergelijken, Het aantal items in de test moet namelijk ook in ogenschouw genomen worden. In § 6.4.2. wordt ingegaan op hoe de lengte van een test gemanipuleerd kan worden om hogere betrouwbaarheden te sorteren (zie verder hieronder). De formule in 6.4.2 kan ook gebruikt worden om alfa’s van schalen met verschillende testlengte met elkaar te vergelijken.