Hoofdstuk 7. Item respons theorie Flashcards
(48 cards)
Moderne testtheorie
De moderne testtheorie biedt een oplossing voor een verschil in moeilijkheidsgraad in items. De vraag die beantwoord wordt is: hoe verhoudt zich de meetwaarde van de persoon tot de meetwaarde die nodig is voor het beantwoorden van de testvraag? Wat is de kans dat ik beter ben dan de moeilijkheid van de testvraag? De kans loopt van 0 (altijd fout) naar 1 (altijd goed).
Itemresponstheorie
IRT. Persoon i met een meetwaarde (of vaardigheid) θi heeft een bepaalde kans om item g goed te beantwoorden. Deze kans (de succeskans) wordt behalve door θi ook bepaald door drie itemparameters: δg (de moeilijkheid van item g), αg (de discriminatiewaarde van item g) en γg (pseudokansniveau van item g).
Itemresponsfunctie (ook wel item- karakteristieke functie of curve)
De kans op een goed antwoord ten opzichte van de moeilijkheid van de testvraag. Dit zijn de lijnen in een grafiek met de θ-waarde. De kans wordt hoger als de vaardigheid verbeterd. Deze succeskans (P) is een wiskundige functie van θ en van δg, αg en γg. De succeskans is een functie van de schaal waarop de meetwaarden θ liggen. Deze schaal kan worden opgevat als meetlat voor de psychologische eigenschap. Belangrijk is om te onthouden dat de IRF ervan uitgaat dat de onderliggende data zich als een monotoon niet-dalende functie laat uitdrukken. Dit betekent dat de functie stijgt of constant is. In het deel dat constant is, is weinig verschil te zien tussen personen. In het deel dat stijgt, het deel dat de vaardigheden verbeteren, neemt ook de kans op succes in korte tijd toe. Om daarna weer te stabiliseren.
Voordelen van de IRT
- Adaptief testen
- Controlemogelijkheid of het IR-model past bij de testgegevens
- Het meetniveau is afleidbaar uit de theorie
- Mogelijkheid tot populatieonafhankelijk meten.
Meten bij implicatie
Als blijkt dat een model een goede beschrijving geeft (wat kan worden gecontroleerd met statistische methoden), dan volgt daaruit dat de meeteigenschappen van dit model ook in concrete, praktische toepassingen van de test gelden.
Meten bij fiat
Er wordt aangenomen dat bepaalde eigenschappen geldig zijn, zonder dat dit kan worden aangetoond.
Populatie onafhankelijk meten
Iemands meetwaarde, verkregen met een gemakkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkere test heeft gemaakt. Binnen een IR-model is sprake van populatie onafhankelijkheid.
Pseudokansniveau van item g (γg)
In de IRT wordt gesproken over pseudokansniveau en niet over giskans. Dit omdat de exacte ‘giskans’ niet alleen afhangt van het aantal alternatieven van A, maar ook van inhoudelijke kenmerken van het item. Bij items met open vragen nader het yg 0. Het itemkenmerk yg wordt de pseudokansniveauparameter genoemd.
Locatieparameter δg of moeilijkheids-parameter
De locatieparameter δg is de vaardigheid die iemand moet bezitten om 50 procent kans te hebben om het item (of de categorie) ‘goed’ te hebben. Dit is het punt op de θ-schaal dat wordt geassocieerd met de succeskans. Dit ligt halverwege tussen het pseudokansniveau en de maximale succeskans (1). De locatie is gelijk aan (1+ yg)/2. Bij een openvraag met yg = 0 is de δg dus altijd 0.5. Wordt het item moeilijker, dan schuift de θ-schaal naar rechts en de succeskans neemt dan af, dit geeft een grotere waarde voor δg
Discriminatie-parameter αg
De discriminatieparameter heeft alles te maken met de steilheid van de IRF in het kritische gebied. Hoe steiler de curve, hoe hoger de discriminatiewaarde en hoe meer de verdeling op de θ-schaal scherper wordt met links een gebied met lage succeskans en rechts het gebied met hoge succeskans. Binnen het kritische gebied bevindt zich dan slechts een klein deel van de verdeling van de personen naar θ en zeer kleine veranderingen in θ hebben grote veranderingen in succes tot gevolg. Hoe steiler de helling, hoe beter de discriminatie.
Itemresponsmodellen
Er kunnen verschillende itemresponsmodellen worden gedefinieerd. Ze gaan allen wel uit van een monotoon niet-dalend verband tussen de succeskans op een item en de θ-schaal. De kans op het juiste antwoord is de functie van vaardigheid en itemkarakteristieken. Kennen we de itemkarakteristieken dan kunnen we uit iemands respons de vaardigheid afleiden. De IRM veronderstelt dat de items van een test dezelfde eigenschap meten. De modellen verschillen in keuze v.d. wiskundige functie voor de IRF. Strengere modellen laten gissen b.v. niet toe wat yg = 0 betekent. Zwakkere modellen geven meer vrijheid. Empirische testgegevens zijn vaak beter in overeenstemming met zwakkere modellen. Echter wanneer een zwak model een goede beschrijving geeft van de testgegevens volgt daar een meting op ordinale schaal uit. Een strenger model dat goed past bij de gegevens geeft een meting op interval- of rationiveau. Een aantal IRM in volgorde van streng naar zwak:
• Het Rasch model.
• Modellen met twee itemparameters (birnbaum)
• Modellen met drie itemparameters
Rasch-model
Deze wordt ook wel één-parameter logistische model genoemd. Dit model is streng.
• Bij zeer kleine θ waarden is de succeskans (P) gelijk aan 0. De pseudokansniveauparameter γg komt dus niet voor en wordt aangenomen als γ=0.
• Alle items uit een test die aan het Rasch-model voldoet hebben hetzelfde discriminerende vermogen. Α wordt genormeerd als α =1. Hierdoor komt αg ook niet voor in de formule. In de praktijk wisselen de items in αg-waarde. Dit betekent dat per item gekeken moet worden of ze voldoen aan het Rasch-model.
Schaal-transformaties bij het rasch model
Meting vindt plaats op een schaal waarop translaties (verschuiving) van de θ-waarden en de δ-waarden met dezelfde constante hoeveelheid zijn toegestaan. Deze schaaltransformaties zijn toegestaan wanneer zij géén invloed hebben op de succeskans.
• Op de θ-schaal is de transformatie θ* = θ + a en δ* = δ + a toegestaan. (a is een constante). Dit wordt een verschilschaal genoemd.
• Op de ξ-schaal is de transformatie ξ* = bξ en ε* = bε toegestaan. Dit worden verhoudingsschalen of ratioschalen genoemd.
Populatie onafhankelijkheid volgens het rasch model
Een belangrijke eigenschap van meting volgens het Rasch-model is dat de meetwaarden populatie onafhankelijk zijn. Dit betekent dat de θ-waarden onafhankelijk zijn van de moeilijkheid δ. Ofwel binnen de populatie kunnen deelgroepen bestaan die ieder een eigen moeilijkheidsniveau hebben. Het Rasch-
model is zo dat de effecten van personen en items op de succeskansen onafhankelijk zijn en interacties tussen personen en items geen rol spelen. Personen zijn hierdoor vergelijkbaar, onafhankelijk van het moeilijkheidsniveau van de gebruikte items. Omgekeerd geldt ook dat de moeilijkheden van items vergelijkbaar zijn, onafhankelijk van de personen die het item hebben gemaakt.
Birnbaum model
Het birnbaum model (en de drie itemparameters model) zijn op te vatten als veralgemenisering van het Rasch-model. Dit betekent dat wanneer het Rasch-model een adequate verklaring geeft van de testgegevens, ook minder strenge modellen gebruikt kunnen worden. Omgekeerd gaat dit niet automatisch op. Het birnbaummodel wordt ook wel twee-parameter logistische model genoemd. Eigenschappen:
• Items in de test mogen verschillend zijn in discriminerend vermogen α. Is dit het geval dan zullen de hun IRF elkaar snijden. Zijn ze gelijk, dan snijden ze elkaar niet (maar is het dus eigenlijk een Rasch-model).
• Items mogen variëren in moeilijkheid δ (net als Rasch)
• Voor lage Ѳ-waarden nadert de succeskans op het item 0 (net als Rasch)
• Transformaties van persoons- en itemparameters hebben geen invloed op de succeskans.
• De schaal heeft eigenschappen van een intervalschaal (net als Rasch)
Populatie onafhankelijkheid bij het birnbaum model
Meting volgens het Birnbaum-model is populatieonafhankelijk. Dit geeft echter ook moeilijkheden. Meetwaarde Ѳi is onafhankelijk van de itemmoeilijkheden, maar afhankelijk van de discriminatieparameters van de door respondent i correct beantwoorde items. Ofwel: gegeven het discriminerend vermogen van de gebruikte items, kan Ѳ bepaald worden en bij iedere test die uit het itemdomein wordt samengesteld, komt men tot dezelfde Ѳ-waarde. Maar: moeilijkheids- en discriminatieparameters kunnen niet populatieonafhankelijk bepaald worden.
Drie parameters logistische model
- Items mogen variëren in discriminerend vermogen α
- Items mogen variëren in moeilijkheid δ
- Items mogen variëren in pseudokansniveau γ.
Populatie onafhankelijkheid bij het drie parameters model
Meetwaarden van personen zijn populatie onafhankelijk te bepalen mits de populatie afhankelijke itemparameters bekend zijn. Zijn de parameters bekend, dan kunnen de Ѳ-waarden worden bepaald. Zijn ze niet bekend dan kunnen de parameters geschat worden mits een bekende verdeling van Ѳ verondersteld is.
IR modellen volgens Mokken
Mokken heeft twee item-respons modellen gepresenteerd die belangrijke verschillen heeft met de eerdergenoemde. Deze modellen zijn algemener. Testgegevens die met een algemeen model verklaard kunnen worden, hoeven niet automatisch verklaard te kunnen worden met een specifiek model. Omgekeerd geldt dit wel. De modellen zijn: Model van monotone homogeniteit en model van dubbele monotonie
Model van monotone homogeniteit
Mokken gaat ervan uit dat over veel psychologische eigenschappen zo weinig kennis bestaat dat het gebruik van de strenge andere modellen niet gerechtvaardigd kan worden. B.v. de eenmalige stijging (steile helling) van niveau zou ook stapsgewijs kunnen, wat beter past bij de cognitieve ontwikkeling. Mokken gaat dus uit van:
• Net als andere IRM zijn de IRF wel monotoon niet-dalend maar heeft verder geen beperkingen.
• Het antwoordgedrag op alle items moet een afspiegeling zijn van dezelfde psychologische eigenschap die wordt gemeten op de Ѳ schaal. Met toename van Ѳ neemt ook de succeskans toe zonder restricties op hoe toename verloopt.
• Personen kunnen worden geordend op Ѳ m.b.v. totaalscore X.
• Gebruiken we het model van monotone homogeniteit dan zijn de eigenschappen van de verschilschaal en de intervalschaal kwijt. De ordinale schaal blijft intact.
• Ѳ en itemparameters kunnen niet geschat worden. Wel kan de p-waarde worden berekend. Hoe groter de p-waarde, hoe gemakkelijker of populairder het item.
Populatie onafhankelijkheid bij het model van monotone homogeniteit
We weten dat een test bestaat uit k-items. Bij een model van monotone homogeniteit kan testscore X worden geordend op Ѳ. Dit is ongeacht de testlengte. Stel dat we een aantal items selecteren en daarmee een nieuwe test maken heeft elk item een monotone IRF en meet dezelfde eigenschap als de andere items. De testscore wordt opnieuw brekend en kan ook worden geordend op Ѳ. De ordening van personen is dus populatie onafhankelijk. De ordening van items naar p-waarde is NIET populatie onafhankelijk. Dit komt omdat de IRF elkaar ‘snijden’ in een figuur.
Model van dubbele monotonie
Een model dat leidt tot populatie onafhankelijke ordeningen van zowel personen als items. Dit is een speciaal geval van het model van monotone homogeniteit.
• Ook hier is sprake dat de IRF monotoon niet-dalend zijn.
• In het model van dubbele monotonie mogen de IRF elkaar niet snijden. Het Rasch model is een speciaal geval van dit model omdat ze elkaar daar ook niet snijden.
• Ook hier kunnen personen worden geordend op Ѳ m.b.v. testscore X
• Er wordt dus gemeten op de ordinale schaal.
• Ook p-waarden liggen op de ordinale schaal. Ordening van items naar afnemende p-waarde correspondeert met toenemende moeilijkheid.
Populatie onafhankelijkheid bij het model van dubbele monotonie
Ook hier is de ordening van personen op de Ѳ-schaal m.b.v. de testscore X populatie onafhankelijk. Ook de ordening van items m.b.v. p-waarden zijn populatie onafhankelijk. Testscores X en p-waarden zijn niet onderling vergelijkbaar. Dit kan wel bij Ѳ en δ
Θ waarde.
Θ staat voor een meetwaarde of een vaardigheid. Dit is dus een speciaal karakter van persoonsvariabele. Dit is niet observeerbaar zoals een itemscore of ruwe score. Θ is een latente variabele die in principe als onbekende uit een vergelijking wordt geschat waarvan de specifieke vorm wordt bepaald door de itemscores die werkelijk op de test zijn behaald.