8. Validiteit en betekenis Flashcards

1
Q

Hoe wordt validiteit gedefinieerd volgens de Standards for Educational and Psychological Testing?

A
In de Standards for Educational and Psychological Testing  wordt validiteit gedefinieerd als de mate waarin evidentie en theorie de interpretatie van de testscores ondersteunen bij het gebruik van de test.
#evidence and theory
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Drenth en Sijtsma geven als algemene definitie van validiteit? En wat is het validiteitsproces?

A
  • Validiteit: ‘de mate waarin de test aan zijn doel beantwoordt’. Of een bepaalde test valide is, hangt af van het doel waarvoor je de test gebruikt en samenhangend daarmee de context/onderzoeksgroep waarbinnen je deze test gebruikt.
- validiteitsproces: verzamelen van evidentie voor de rechtvaardiging van de sprong van testgedrag naar te meten eigenschap. Vb: geven sommen in een test voldoende de rekenvaardigheid weer?
# verzamelen van stukjes validiteit om sprong te kunnen maken.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

De vier belangrijke vormen van validiteit volgens Drenth en Sijtsma

  1. predictive validity
  2. concurrent validity
  3. Content validity/ inhoudsvaliditeit, Bezwaar? hoe kan subjectiviteit worden voorkomen? Lijkt op face validity?
  4. Construct validity, bestaat uit 3 stappen
A
  1. predictive validity: gaat strikt genomen alleen gaat over het succes waarmee toekomstige criteriumscores kunnen worden voorspeld. Klopt de voorspelling achteraf?
  2. concurrent validity: klopt de voorpelling adhv uitkomsten andere tests?
  3. Content validity/ inhoudsvaliditeit: de mate waarin de test de inhoud van het criterium (kennis, vaardigheid, etc) omschrijft. Vb: in welke mate een proefwerk Frans iets zegt over de gehele kennis van de Franse taal.
    Bezwaar is dat vaak empirisch onderzoek naar begrippen vaak ontbreekt, omdat vragen vaak komen uit eerdere toetsen die ook weer zijn gevalideerd uit eerdere toetsen (cirkelredenering).
    subjectiviteit kan worden voorkomen door een tweede beoordelaar te gebruiken.
    Lijkt op face validity omdat het een zwaar appel doet op subjectieve oordelen.
  4. Construct validity; meet in hoeverre de test de te meten ‘constructen’ daadwerkelijk meet. Lijkt daarom op betekenisanalyse.
    Bestaat uit 3 stappen:
    4.1. Vinden van juiste eigenschappen die een verklaring geven.
    4.2. Toetsbare hypotheses formuleren.
    4.3. Uitvoeren van empirisch onderzoek om hypothese te toetsen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

2 specifieke varianten van begripsvaliditeit: synthetische en congruent validiteit.

Aanverwante vormen zoals: face-validity en incremental validity

A
1. synthetische validiteit: (als criterium wordt niet het criterium in zijn geheel (bijvoorbeeld leidinggeven) gebruikt, maar kleinere, zinvolle elementen van het grotere criterium (bijvoorbeeld omgang met mensen).
#alleen synthetische kleding. 
2. congruent validity: (soortgenootvaliditeit; als criterium wordt een bestaande test gebruikt die dezelfde eigenschap pretendeert te meten). 
#concurrentie, zelfde als concurrent validity. 
  1. face-validity wordt er op het eerste #gezicht gemeten wat je wil meten.
4. Incremental validity (incrementele (toegevoegde) validiteit, wat betrekking heeft op de toename in validiteit die het gevolg is van toevoeging van een nieuwe test aan een bestaande testbatterij).
#meer pannetjes toevoegen
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

COSMIN-taxonomie en taxonomie van De Von et al.

A

COSMIN-taxonomie: deze taxonomie beschrijft drie kwaliteitsdomeinen van testen, namelijk betrouwbaarheid, validiteit en reactievermogen. Elk domein bevat een of meer meeteigenschappen (bijvoorbeeld bij het domein validiteit: content validity,
criterion validity en construct validity; verder te verdelen in structural validity, hypothesetoetsing en cross-cultural validity).

taxonomie van De Von et al. overlapt met die van Drenth en Sijtsma.
en zie afbeelding https://youlearn.ou.nl/web/pb1502181944/cursus/-/coursenavigator/49498154?_nl_ou_dlwo_courseview_WAR_nloudlwocourseplanportlet__facesViewIdRender=%2Fxhtml%2Fviewer%2FcourseNavigator.xhtml

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

multitrek-multimethode-benadering: Wat zijn de voornaamste eisen

multitrek-multimethodematrix: wat is het idee hiervan?

  • b-waarden
  • v-waarden
  • m-waarden
  • d-waarden
A
  • multitrek-multimethode-benadering
    Het analyseren op consistentie van het correlatiepatroon dat ontstaat op het moment dat verschillende testen voor meer dan één eigenschap worden gebruikt.
    Voornaamste eisen: confirmerende validiteit (metingen van dezelfde eigenschap met verschillende tests moeten hoog met elkaar correleren) en discriminante validiteit (metingen van verschillende eigenschappen moeten laag met elkaar correleren).
  • multitrek-multimethodematrix: idee is dat een test voor een bepaalde eigenschap zou kunnen worden vervangen door een andere test die hetzelfde pretendeert te meten. (p. 390) (driehoekjes). Met één model de betrouwbaarheid en conformerende en discriminerende validiteit te onderzoeken.
  • b-waarden: betrouwbaarheid - correlaties voor zelfde trek en zelfde methode.
  • v-waarden: correlatie voor zelfde trek maar verschillende methode. Moet significant met 0 verschillen. Moet hoger zijn dan d-waarde en m-waarde.
  • m-waarden: correlatie voor zelfde methode maar verschillende trekken. Gelijke patronen als d-waarde.
  • d-waarden: correlatie voor verschillende trekken en methoden. Gelijke patronen als m-waarde.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Predictie, paradictie, postdictie

A

Predictie: toekomst

paradictie: heden
postdictie: verleden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Predictive validity vs predictieve validiteit en wanneer worden bepaald?

A
  • Predictive validity; klopt voorspelling achteraf?
  • Predictieve validiteit; breder, niet gebonden aan toekomstig criterium, maar ook voorspelling van ieder extern criterium in heden en verleden. Vb: cito = predictor, prestatie vervolgonderwijs = criterium.
    Kan pas worden bepaald wanneer criteriumgedrag en kriteriummaat gekozen/vastgesteld zijn.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Drie type criterium (Thorndike, 1949).

  • Welke twee problemen spelen hierin op?

Volgens Drenth en Sijtsma betere scheiding van criterium:

  • Wat is conceptuele criterium?
  • de daaruit voortkomende criteriummaat: criteriumgedrag/ criteriumprestatie?
  • Aan welke eis moet de meting van het criterium voldoen?
A
  1. Uiteindelijk/ ultimate; alomvattende einddoel.
  2. tussentijds/ intermediate; prestatie op eindexamen ipv latere beroepsprestaties
  3. onmiddellijk/ immediate; vb totaal studiepunten eerste jaar.

Problemen:

  1. tijd: Men kiest vaak voor 2 en 3 omdat 1 te ver weg in tijd ligt.
  2. beschikbaarheid: wel meetbaar? te veel omvattend? Wel in getallen uit te drukken?

Conceptuele criterium; uiteindelijke doel van instelling of organisatie in zichtbare resultaten. Vb: arbeidsprestatie van werknemer of kennis van schoolvakken.

  • De criteriummaat zijn uitspraken of scores die iets zeggen over het criteriumgedrag/ criteriumprestatie (bv zelfbeoordeling of door psychiater). waarneembaar.
  • De meting van het criterium moet aan dezelfde eisen van betrouwbaarheid en validiteit voldoen als de test waarmee dit criterium wordt voorspeld.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

6 fases bij het opzetten van een testbatterij met predictieve validiteit

  1. Operionaliseren
  2. Keuze
  3. Proefafname
  4. Validatie
  5. Predictorbatterij
  6. Kruisvalidering
A

Fase 1: Operationeel maken van criteriumgedrag
Fase 2: Keuze en constructie test
Fase 3: Proefafname bestaande of nieuwe test (bij bestaande test alleen nodig bij afwijkende populatie).
Fase 4: validatie van testprocedure
Fase 5: samenstellen van predictorbatterij (test opnemen die onderling weinig correleren, zodat zoveel mogelijk onderzocht kan worden).
Fase 6: kruisvalidering; controleren of 2e steekproef overeenkomst met de 1e. door te controleren of regressiegewichten op elkaar lijken en multiple correlatie ongeveer gelijk zijn.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Gestratificeerde steekproef?

  • welke voorwaarde?
  • Voor welke groep extra noodzakelijk?
  • waarom?
A
  • In steekproef expliciet onderscheid maken tussen groepen bv jongeren en ouderen. Vervolgens aselect bv 30% jongeren en 70% ouderen te trekken.
  • Voorwaarde is dat iedereen gelijke kansen heeft om in de steekproef te komen.
  • Extra noodzakelijk voor kleine groepen aangezien deze extra gevoelig zijn voor over- of onderrepresentatie van deelgroepen.
  • Waarom: omdat betrouwbaarheid en validiteit meer gevoelig zijn voor variatie in de spreiding, maar minder voor variatie in het gemiddelde van testscore.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Contaminatie van het criterium

A
De correlatie tussen test en criteriumscore valt kunstmatig hoog uit omdat eindbeoordelaar (onbewust) uitslag van het onderzoek meeneemt in eindoordeel. 
Bv leidinggevende die iemand ontslaat omdat hij slecht uit de test komt en toch al slecht presteerde. 
#docent met dikke 'kont' opzitten.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Validiteitscoëficiënt

- welke twee uitzonderingen en hoe op te lossen?

A

Correlatie tussen testscore en criteriumscore

  1. Kromlijnige relatie; te hoge druk op test waardoor proefpersonen gaan falen en de stijgende lijn opeens weer daalt. Op te lossen met correlatieratio η.
  2. Heteroscedastische relatie; relatie tussen prestatie en hoge intelligentie. Hoge intelligentie zorgt niet altijd voor betere prestaties. Op te lossen met Ө die gemiddelde relatie weergeeft.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Suppressor variabele

A
r(x1,y) >0, r(x2,y) =0. x1 correleert voor een deel met x2. Wanneer x2 deel wordt verwijderd uit x1 (x1') correleert dit sterker met y dan x1 deed. 
Bv taalvaardigheid (x2) die rol speelt in toets van rekenvaardigheid (x1).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Moderatorvariabele

A

Correleert zelf niet of nauwelijks met criteriumscore, maar wel andere variabele beïnvloed.
Bv variabele correleert wel met mannen, maar niet met vrouwen, dus in populatie correleert criterium matig.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Kanskapitalisatie en oplossing?

A

Het opstapelen van (foute) tussentijdse wijzigingen in voorspelling van te kleine steekproef, waardoor het regressiemodel te goed bij de data past, maar niet meer bij de populatie.
Oplossing door groep aselect te splitsen. Een groot verschil tussen gesplitste groepen betekent dat het model buiten oorspronkelijke steekproef niet goed bruikbaar is.

17
Q

5 redenen waarom validiteitcoëficiënten vaak zo laag zijn?

  1. Betrouwbare criteriummaat
  2. Onterecht lineaire relatie
  3. Complexe deelgroepen
  4. Variabele betekenis
  5. Onterecht vereenvoudigen
A
  1. Geringe aandacht voor het construeren van een betrouwbare criteriummaat. Dient hetzelfde te zijn als constructie predictormaat.
  2. Onterecht toekennen van lineaire relatie tussen predictor en criterium. Makkelijkst op te lossen door maken van een plotje.
  3. Negeren van complexe deelgroepen in de populatie: doen alsof er voor de gehele groep één algemeen geldig voorspellingsmodel bestaat.
  4. negeren van variabele betekenis van criterium in verschillende organisaties.
  5. Onterecht vereenvoudigen van criterium: bijvoorbeeld door complex criteriumgedrag samenvatten in een globale criteriummaat. Hierdoor gaat elke nuance verloren. Bv door te spreken over ‘succesvolle’ leerling of ‘goede’ werknemer.
    Uitkijken dat je niet over twee metingen het verschil meet over bv leergedrag over tijd ipv de verschillen die je wil meten.
18
Q
  • Betekenisanalyse
  • begripsvalidering: creatieve eerste fase, ondubbelzinnige voorspelling, Alternatieve verklaringen.
  • trekvalidering
  • nomologische validering: Nomologisch netwerk
A
  • Betekenisanalyse; vinden van theorie als verklaring voor testgedrag. Gaat voorafgaand aan de begripsvalidering.
  • Begripsvalidering; het empirisch bevestigen van bovenstaande verklaring volgens strikte methodologische spelregels.
    Creatieve eerste fase voor vinden van plausibele verklaring.
    Voorspelling moet ondubbelzinnig zijn: vb testprestatie x correleert positief met schoolprestatie Y.
    Voorspelling kan hoogstens bestaande verklaring verstevigen of verzwakken.
    Doel is om alternatieve verklaringen te kunnen verwerpen of bestaande kunnen accepteren.
  • trekvalidering; in hoeverre testgedrag verklaard kan worden vanuit persoonlijkheidstrek.
  • nomologische validering; testgedrag wordt verklaard vanuit psychologische theorie.
    Nomologisch netwerk: complex van psychologische begrippen, termen en relaties.
19
Q

Conformerende vs discriminante validering

A

Bevestigen vs verwerpen van hypothese.

  • Conformerende validiteit: onderzoekt of de oorspronkelijke hypothetische verklaring voor het testgedrag bevestigd kan worden.
  • Discriminerende validiteit: onderzoekt of concurrerende verklaringsmogelijkheden voor het testgedrag verworpen kunnen worden.

Vb conformerende; de neuroticisme-scores zijn lager dan het landelijk gemiddelde voor onderofficieren met een gunstig stabiliteitsbeoordeling. (Bevestigd dat de vragenlijst neuroticisme meet).
Conformerend want als de stelling uitkomt bevestigd het de hypothese.

20
Q

Alternatieve verklaringen voor uitkomst van een test,

Antwoordtendenties; instemmingstendentie, semantische interpretatie, sequentietendentie, etc.

A
  • Samenhang met intelligentie
  • Sociaal wenselijk gedrag/ antwoorden
  • Antwoordtendenties (constant keuzepatroon)
  • instemmingstendentie (overmatig instemmen met richting van de vraag).
    Positievoorkeur: voorkeur voor extreme positieve of negatieve standpunten.
  • semantische interpretatie; mensen zullen soms en zelden verschillend interpreteren.
  • sequentietendentie; streven naar even vaak ja of nee te antwoorden.
  • snelheids- vs precisietendentie.
  • Uitvoerigheidstendentie
  • Gistendentie
  • voorkeur voor formele kenmerken van de vraag
21
Q

Regressieanalyse vs factoranalyse en welke drie soorten factoren onderscheiden?

A
  • Regressieanalyse: Gewichten worden dusdanig gekozen dat het criterium zo goed mogelijk wordt voorspeld.
  • Factoranalyse; Gewichten worden dusdanig gekozen dat de informatie zo goed mogelijk wordt samengevat.
  • Algemene factoren: hiermee hangen alle test min of meer samen.
  • groepsfactoren: vertegenwoordigen klein deel van de test
  • specifieke factoren: zijn gekoppeld aan één test of aan slechts enkele items hieruit.
22
Q

Wanneer geeft een test een adequate voorspelling?

A

Alleen wanneer er voldoende relatie bestaat tussen de test en het voorspelde gedrag. Bv niet wanneer bij een test voor schoolsucces hoofdzakelijk de nadruk ligt op sociale vaardigheden en niet op de rest.

23
Q

Predictieve- vs begripsvaliditeit, voorbeelden

A

Alle psychologische tests vallen onder een van deze twee doelstellingen.

  • Predictieve validiteit: ‘in hoeverre de test de juiste voorspelling geeft’.
    Wanneer het doel van de test is om een bepaald (praktisch-relevant) criterium te voorspellen op basis van testgedrag.
    Vb: Toelating tot cursus of baan, beroepsadvisering, classificatie in klinische categorieën.
  • Begripsvaliditeit: het in kaart brengen van psychologische begrippen.
    Vb: theoretische analyse van begrippen, experiment ter toetsing van theorieën.

In de praktijk niet zo zwart-wit. Er is altijd een vraag naar de betekenis en voorspellende waarde van een test.

24
Q

Wat is variatiebeperking?

- Wat voor invloed heeft dit op het schatten van betrouwbaarheid en validiteit?

A
Vaak zeer geschikte kandidaten die na selectie verdwijnen omdat ze een promotie maken of andere functie krijgen. Als gevolg hiervan zullen betrouwbaarheid en validiteit te laag worden geschat?
# beperkte variatie in werknemers
25
Q

Wat is de multiple correlatie op de gehele testbatterij?

- Wat is ideaal?

A

Hiermee wordt het succes van de gehele testbatterij voor het criterium (Y) aangegeven.
Ideaal is dat tests onderling laag correleren en hoog met Y. Dit betekent een unieke bijdrage per test aan de voorspelling

26
Q

In hoeverre zijn test inwisselbaar?

  • bestaande test gebruiken voor nieuwe voorspellingssituatie.
  • invloed van kleine steekproeven op validiteitscoëficiënt Schmidt en Hunt (1977)?
  • Validiteitscoëfficiënten situatiespecifiek?
  • Effectiviteit?
A
  • Wordt een bestaande test gebruikt voor een nieuwe voorspellingssituatie, dan is een nieuw validiteitsonderzoek nodig om mate van geschiktheid te bepalen.
  • Volgens Schmidt en Hunt (1977) hebben vooral kleine steekproeven meer invloed op de verdeling van validiteitscoëfficiënten dan meetfouten in predictor, criteriumscores of variatiebeperking. Is na correctie hierop de standaarddeviatie van validiteitscoëfficiënten gelijk aan 0 dan zijn de tests generaliseerbaar.
  • Validiteitscoëfficiënten zijn over het algemeen weinig situatiespecifiek en generalisatie is mogelijk over organisaties, geografische gebieden, functie en tijdsvakken
  • De effectiviteit geeft aan in hoeverre de validiteit gegeneraliseerd kan worden naar nieuwe voorspellingssituaties. Mocht de SD van de validiteitscoëfficiënten niet gelijk zijn aan 0, dus situatiespecifiek. Dan wordt er een betrouwbaarheidsinterval berekend waarvan het 10e percentiel wordt geschouwd als ondergrens voor de validiteit binnen een bepaalde categories van test en functies. Vb: effectiviteit van .10 en ondergrens -.10 = validiteitsgeneralisatie zeer discutabel. Maar bij .40 en ondergrens .35 dan is generalisatie waarschijnlijk wel mogelijk.
27
Q

2 suggesties voor het analyseren van testgedrag:

  1. structuuronderzoek
    - psychologische analyse van de inhoud van de items
    - analyse van formele kenmerken van de test
  2. relatieonderzoek
    - spreiding en normen
    - experimenteel onderzoek
    - factoranalyse
A
  1. structuuronderzoek
    - psychologische analyse van de inhoud van de items: door opgave zelf proberen op te lossen of proefpersonen tijdens het maken van de opgave hierover interviewen.
  • analyse van formele kenmerken van de test:
    keuze tussen meerkeuzeantwoorden of vrije antwoorden. Snelheidskarakter van de test, in welke mate de onderzochte inzicht heeft in het doel van de test, etc.
  1. relatieonderzoek
    - spreiding en normen:
    zegt vaak wat over het verschil in groepen. Bv waarom er wel spreiding is bij mannen en niet bij vrouwen.
  • experimenteel onderzoek:
    op verschillende manieren test afnemen om te kijken of er verschil tussen zit bv aanpassen van tijdscondities.
  • factoranalyse:
    Adhv factoranalyse informatie uit gegevens samenvatten. Vergroot mate van inzichtelijkheid.