Cours 5 Flashcards
(39 cards)
Qu’est-ce que la validité ? et le degré de validité ? et la question que l’on doit se poser ?
On veut savoir s’il mesure vraiment ce qu’il prétend ou devrait mesurer.
On veut savoir si l’échantillon d’items représente bien le construit qu’on veut mesurer.
Le degré de validité détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle.
Est-ce que ce test est une mesure valide de ce construit, pour cette population et pour cette application particulière.
La validité d’un test ou d’une mesure est évaluée selon trois aspects :
- Est-ce qu’il mesure bien le CONSTRUIT qu’il prétend mesurer ?
- Est-ce qu’il mesure bien ce construit pour la POPULATION CIBLÉE (groupe d’âge, niveau académique, groupe clinique particulier) ?
- Est-ce qu’il mesure bien ce construit pour une APPLICATION PARTICULIÈRE (classifier dans des groupes diagnostiques, donner une valeur quantitative sur continuum, etc.) ?
Quels sont les trois points clés que les organisations professionnelles soulignent à propos de la validité des tests ?
- La validité concerne l’interprétation des scores procurés par un test pour un construit spécifique; ce n’est pas une caractéristique du test.
- La validité est une question de degré; ce n’est pas une question absolue, de (tout ou rien).
- La validité d’un test repose sur de solides bases théoriques et empiriques.
Qu’est-ce que la vraisemblance ?
Aussi appelée validité d’apparence.
Ce n’est pas une forme ou une source de validité.
Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) les personnes qui sont évaluées avec le test (clients, non experts évalués, profanes) et ou (b) les personnes qui utilisent le test (intervenants, peut aussi être des représentants légaux reliés à la population ciblée, etc. comme les parents, enseignants)
Une petite mesure détient une bonne vraisemblance lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle (semble pertinente et adéquate) pour mesurer le construit.
Parfois, confondue avec la validité de contenu.
Si l’instrument ne paraît pas valide ou vraisemblable pour les personnes évaluées ou utilisatrices dans les situations concrètes d’évaluation, cela peut devenir une menace pour la validité. (Ex : mesurer le niveau d’agressivité physique d’un enfant en lui faisant faire un dessin).
Nommer plusieurs facteurs qui peuvent influencer la vraisemblance :
- Contexte d’évaluation (endroit physique de l’administration, les consignes, attitude et apparence physique de l’évaluateur)
- Capacité cognitives des répondants
- Santé mentale et état psychologique des répondants
- Personnalité des répondants
Motif de l’évaluation
Qu’est-ce que la validité de contenu ? ***
Réfère au degré de représentativité des items utilisés pour mesurer un construit.
La plupart du temps établie de façon déductive.
** - Les auteurs du test demandent à un groupe d’experts indépendants de se prononcer sur la pertinence des items. **
On demande est-ce que :
1- Chaque item individuellement correspond bien au construit ?
2- Tous les items d’une échelle considérés comme un groupe constituent un échantillon représentatif de tous les domaines et sous-domaines expliqués par le construit d’intérêt ?
Il est difficile de faire un bon échantillonnage de contenu pour des construits psychologiques complexes et ici, les méthodes statistiques ne sont d’aucune aide… ou presque.
Dans la validité de contenu, qu’est-ce qui est central ? ***
La représentativité.
- Tous les domaines et sous-domaines du construit sont-ils représentés ?
Ex : Échelle d’agressivité : agressivité directe, indirecte, proactive, physique, relationnelle, etc.
Éviter la sur ou sous-représentation d’items des différents sous-domaines du construit.
Expliquer les étapes que doivent suivre les auteurs avant de construire une échelle de validité de contenu :
Décrire en détails et de façon compréhensive les différents domaines et sous-domaines du construit d’intérêt.
Ex : Échelle de problèmes extériorisés.
Quels sont les domaines inclus selon la théorie - recherche ?
Y a-t-il des sous-domaines selon la théorie - recherche ?
Avec quels items (et de quel format) peut-on bien représenter ces domaines et ou sous-domaines ?
À partir de quoi les chercheurs définissent un construit (et donc, son contenu) ?
1) Cadre théorique
2) Recherches empiriques (recension)
3) Connaissances et expériences professionnelles - pratiques
Deux types de validité de contenu :
- Nominale : auteurs du test
- Consensuelle : groupe de spécialistes indépendants
Quel est la façon d’estimer le degré de validité de contenu empiriquement ?
On demande à des experts indépendants d’estimer…
A) À quel point (degré) chacun des items d’un test est pertinent et représentatif du construit d’intérêt.
B) À quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit.
Comment on quantifie un degré dans la validité de contenu ?
On donne aux experts un choix de réponse avec une gradation à propos de chaque item afin de systématiser le tout.
Extraversion : Dans une situation sociale impliquant plusieurs personnes, j’ai de la difficulté à faire les premiers pas pour aller vers les autres.
Pas du tout pertinent - représentatif = 0
Un peu pertinent - représentatif = 1
Assez pertinent - représentatif = 2
Très pertinent - représentatif = 3
Comment c’est possible de calculer un indice de validité de contenu ?
En recueillant des données numérique
Qu’elles sont les deux grandes menaces de la validité de contenu ?
- Inclusion de contenu conceptuellement non pertinent (des items d’hyperactivité sont intégrés dans une échelle d’inattention)
- Sous-représentation conceptuelle de certains domaines du construit (théoriquement, le construit Extraversion inclue des domaines de l’activité, la sociabilité, la dominance sociale et la recherche de sensation, mais une échelle ne contient que des items de sociabilité et de dominance sociale).
1) Qu’est-ce que la validité de construit ? **
2) Quelles sont les façons de vérifier la validité de ***
1) Réfère au degré de (a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes.
** C’EST UNE QUESTION DE DEGRÉ **
2) Deux grandes façons :
- Validité factorielle
- Validité convergente - discriminante
Ps : Avant d’entamer ces évaluations, il faut toutefois bien connaître la théorie sous-jacente au construit.
Qu’est-ce que le réseau nomologique ?
Qu’est-ce que la nomologie ?
La théorie expliquant le construit par le biais de ses interrelations avec d’autres construits.
Nomologie : L’étude des lois, donc bien plus qu’une liste de domaines et de sous-domaines.
RN devrait représenter la structure interne et les interrelations (ordonnées et prévisibles) entre les domaines (ou sous-domaines) importants du construit et des construits externes théoriquement importants.
Le réseau nomologique concerne souvent les relations concurrentes, mais peut inclure des facteurs étiologiques (les précurseurs, facteurs de risque du construit (si on mesure une psychopathologie) et des conséquences développementales plus distales).
RN devrait toujours être dans le manuel du test, mais y est rarement.
- Qu’est-ce que la validité factorielle ?
- Qu’est-ce qu’un facteur ?
- On veut vérifier si la structure factorielle qui représente le construit est reproduite sur le plan empirique (avec des données).
On utilise généralement le terme (facteur) pour représenter une dimension latente (ou trait latent) d’où l’utilisation du terme validité factorielle.
- Une réduction parcimonieuse de plusieurs variables (items ou questions) en une variable latente hypothétique.
- Dans les instruments multidimensionnels, les items se regroupent évidemment en plusieurs facteurs.
Quel est l’objectif de la validité factorielle ?
Vérifier deux aspects inter-reliés de la structure factorielle théorique.
- Les items sont-ils significativement (statistiquement) associés au facteur (construit) ?
- Dans le cas d’un instrument multidimensionnel,
a) Les items sont-ils significativement associés au bon facteur et non associés aux autres facteurs ?
b) Dans le cas d’une structure hiérarchique, est-ce que les sous-domaines sont significativement associés au domaine général (traits spécifiques associés à trait général) ?
Qu’est-ce que l’analyse factorielle exploratoire ?
Qu’est-ce qu’un critère classique ?
On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire.
Ex : Si les répondants ont tendance à répondre oui à la question 1, ils ont aussi tendance à répondre oui à la question 5 et question 8, ces items seront donc regroupés dans un même facteur.
Le chercheur n’impose aucune restriction à la matrice de corrélations (ou de covariances) entre les items.
Critère classique : On devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur.
Qu’est-ce que l’analyse factorielle confirmatoire ?
Le chercheur impose une structure stricte a priori à la matrice de corrélations (ou de covariances) et teste si elle correspond aux données.
On programme quels items sont associés à un facteur, tout en leur imposant une corrélation de 0 avec les autres facteurs.
C’est la méthode qu’il faudrait normalement employer à l’étape de la validation puisque la structure est supposée être connue.
-Encore trop peu employée en psychométrie, en partie parce que les analyses statistiques sont plus complexes.
Qu’est-ce que la validité convergente ?
Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui mesure le même construit théorique.
Qu’est-ce que la validité discriminante ?
Quel est l’idéal pour tester rigoureusement la validité C/D ?
Degré auquel les scores d’une échelle ne sont pas associés avec une échelle qui ne mesure pas le même construit.
Employer la méthode de la matrice multitraits-multiméthodes.
Qu’est-ce que la validité de critère ?
Aussi appelée validité pragmatique.
Réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus.
Les scores à l’échelle sont donc comparé à ceux d’un critère externe.
Le critère devrait être une mesure objective et indépendante, mais reliée conceptuellement au construit d’intérêt.
Il y a deux grands types de validité de critère.
- Concomitante et prédictive.
Deux façons d’estimer la validité de critère concomitante :
- Corrélation avec un critère indépendant.
- Test d’intelligence avec réussite académique
- Test d’empathie avec conduites délinquantes - Méthode des groupes contrastés
- On teste les différences des scores moyens entre les groupes.
- Pour EDC, on prend un échantillon d’enfants déjà identifiés avec des TC (par des psychologues scolaires) et on les compare avec un groupe d’enfants sans TC afin de déterminer si les scores à l’EDC distinguent bien les groupes.
Qu’est-ce que la validité de critère prédictive ?
Le degré auquel une mesure est capable de prédire un critère externe prospectivement plus tard dans le temps.
Besoin d’une étude longitudinale prospective.
- Les scores à une échelle d’impulsivité à la fin de l’enfance peuvent-ils prédire l’abus de psychotropes lorsque les individus sont au début de l’adolescence, deux ans plus tard ?
- Les scores sur une échelle de qualité de l’attachement aux parents au préscolaire permettent-ils de prédire un diagnostic d’anxiété de séparation plus tard, à l’entrée à l’école ?
Qu’est-ce que la validité incrémentielle ?
Pas toujours présente dans les livres de psychométrie.
À quel point les scores à un test ont une (valeur ajoutée) pour prédire un critère externe, au-delà de la capacité d’autres facteurs (autres tests) prédictifs importants ?
Liée à l’idée de (contrôle statistique) en analyse de régression.
Quel est l’effet d’un prédicteur important après que le SSÉ soit contrôlé ?
En contexte de classification, les scores d’une échelle de dépistage procurent une meilleure sensibilité et spécificité que ceux d’une autre échelle similaire.
Peut aussi d’appliquer à la révision d’un test
Les scores de la nouvelle version (a) prédisent mieux un critère au-delà de facteurs de contrôle, ou encore (b) procurent une meilleure sensibilité et spécificité que l’ancienne version.