Cours 5 Flashcards by Mathilde Bourdon

Qu’est-ce que la validité ? et le degré de validité ? et la question que l’on doit se poser ?

On veut savoir s’il mesure vraiment ce qu’il prétend ou devrait mesurer.

On veut savoir si l’échantillon d’items représente bien le construit qu’on veut mesurer.

Le degré de validité détermine l’interprétation et les inférences que l’on peut faire à partir des scores d’une échelle.

Est-ce que ce test est une mesure valide de ce construit, pour cette population et pour cette application particulière.

How well did you know this?

Not at all

Perfectly

La validité d’un test ou d’une mesure est évaluée selon trois aspects :

Est-ce qu’il mesure bien le CONSTRUIT qu’il prétend mesurer ?
Est-ce qu’il mesure bien ce construit pour la POPULATION CIBLÉE (groupe d’âge, niveau académique, groupe clinique particulier) ?
Est-ce qu’il mesure bien ce construit pour une APPLICATION PARTICULIÈRE (classifier dans des groupes diagnostiques, donner une valeur quantitative sur continuum, etc.) ?

How well did you know this?

Not at all

Perfectly

Quels sont les trois points clés que les organisations professionnelles soulignent à propos de la validité des tests ?

La validité concerne l’interprétation des scores procurés par un test pour un construit spécifique; ce n’est pas une caractéristique du test.
La validité est une question de degré; ce n’est pas une question absolue, de (tout ou rien).
La validité d’un test repose sur de solides bases théoriques et empiriques.

How well did you know this?

Not at all

Perfectly

Qu’est-ce que la vraisemblance ?

Aussi appelée validité d’apparence.

Ce n’est pas une forme ou une source de validité.

Le degré auquel une mesure semble adéquate et reliée à un construit spécifique selon le jugement de (a) les personnes qui sont évaluées avec le test (clients, non experts évalués, profanes) et ou (b) les personnes qui utilisent le test (intervenants, peut aussi être des représentants légaux reliés à la population ciblée, etc. comme les parents, enseignants)

Une petite mesure détient une bonne vraisemblance lorsque les personnes évaluées ou celles qui l’utilisent jugent qu’elle (semble pertinente et adéquate) pour mesurer le construit.

Parfois, confondue avec la validité de contenu.

Si l’instrument ne paraît pas valide ou vraisemblable pour les personnes évaluées ou utilisatrices dans les situations concrètes d’évaluation, cela peut devenir une menace pour la validité. (Ex : mesurer le niveau d’agressivité physique d’un enfant en lui faisant faire un dessin).

How well did you know this?

Not at all

Perfectly

Nommer plusieurs facteurs qui peuvent influencer la vraisemblance :

Contexte d’évaluation (endroit physique de l’administration, les consignes, attitude et apparence physique de l’évaluateur)
Capacité cognitives des répondants
Santé mentale et état psychologique des répondants
Personnalité des répondants

Motif de l’évaluation

How well did you know this?

Not at all

Perfectly

Qu’est-ce que la validité de contenu ? ***

Réfère au degré de représentativité des items utilisés pour mesurer un construit.

La plupart du temps établie de façon déductive.

** - Les auteurs du test demandent à un groupe d’experts indépendants de se prononcer sur la pertinence des items. **

On demande est-ce que :

1- Chaque item individuellement correspond bien au construit ?

2- Tous les items d’une échelle considérés comme un groupe constituent un échantillon représentatif de tous les domaines et sous-domaines expliqués par le construit d’intérêt ?

Il est difficile de faire un bon échantillonnage de contenu pour des construits psychologiques complexes et ici, les méthodes statistiques ne sont d’aucune aide… ou presque.

How well did you know this?

Not at all

Perfectly

Dans la validité de contenu, qu’est-ce qui est central ? ***

La représentativité.

Tous les domaines et sous-domaines du construit sont-ils représentés ?
Ex : Échelle d’agressivité : agressivité directe, indirecte, proactive, physique, relationnelle, etc.
Éviter la sur ou sous-représentation d’items des différents sous-domaines du construit.

How well did you know this?

Not at all

Perfectly

Expliquer les étapes que doivent suivre les auteurs avant de construire une échelle de validité de contenu :

Décrire en détails et de façon compréhensive les différents domaines et sous-domaines du construit d’intérêt.

Ex : Échelle de problèmes extériorisés.

Quels sont les domaines inclus selon la théorie - recherche ?

Y a-t-il des sous-domaines selon la théorie - recherche ?

Avec quels items (et de quel format) peut-on bien représenter ces domaines et ou sous-domaines ?

À partir de quoi les chercheurs définissent un construit (et donc, son contenu) ?

1) Cadre théorique
2) Recherches empiriques (recension)
3) Connaissances et expériences professionnelles - pratiques

Deux types de validité de contenu :
- Nominale : auteurs du test
- Consensuelle : groupe de spécialistes indépendants

How well did you know this?

Not at all

Perfectly

Quel est la façon d’estimer le degré de validité de contenu empiriquement ?

On demande à des experts indépendants d’estimer…

A) À quel point (degré) chacun des items d’un test est pertinent et représentatif du construit d’intérêt.

B) À quel point (degré) l’ensemble des items constitue un bon échantillon représentatif du contenu du construit.

How well did you know this?

Not at all

Perfectly

Comment on quantifie un degré dans la validité de contenu ?

On donne aux experts un choix de réponse avec une gradation à propos de chaque item afin de systématiser le tout.

Extraversion : Dans une situation sociale impliquant plusieurs personnes, j’ai de la difficulté à faire les premiers pas pour aller vers les autres.

Pas du tout pertinent - représentatif = 0
Un peu pertinent - représentatif = 1
Assez pertinent - représentatif = 2
Très pertinent - représentatif = 3

How well did you know this?

Not at all

Perfectly

Comment c’est possible de calculer un indice de validité de contenu ?

En recueillant des données numérique

How well did you know this?

Not at all

Perfectly

Qu’elles sont les deux grandes menaces de la validité de contenu ?

Inclusion de contenu conceptuellement non pertinent (des items d’hyperactivité sont intégrés dans une échelle d’inattention)
Sous-représentation conceptuelle de certains domaines du construit (théoriquement, le construit Extraversion inclue des domaines de l’activité, la sociabilité, la dominance sociale et la recherche de sensation, mais une échelle ne contient que des items de sociabilité et de dominance sociale).

How well did you know this?

Not at all

Perfectly

1) Qu’est-ce que la validité de construit ? **

2) Quelles sont les façons de vérifier la validité de ***

1) Réfère au degré de (a) reproductibilité de la structure interne théorique sous-jacente à l’instrument ainsi que les (b) relations du construit d’intérêt avec d’autres construits externes.

** C’EST UNE QUESTION DE DEGRÉ **

2) Deux grandes façons :

Validité factorielle
Validité convergente - discriminante

Ps : Avant d’entamer ces évaluations, il faut toutefois bien connaître la théorie sous-jacente au construit.

How well did you know this?

Not at all

Perfectly

Qu’est-ce que le réseau nomologique ?

Qu’est-ce que la nomologie ?

La théorie expliquant le construit par le biais de ses interrelations avec d’autres construits.

Nomologie : L’étude des lois, donc bien plus qu’une liste de domaines et de sous-domaines.

RN devrait représenter la structure interne et les interrelations (ordonnées et prévisibles) entre les domaines (ou sous-domaines) importants du construit et des construits externes théoriquement importants.

Le réseau nomologique concerne souvent les relations concurrentes, mais peut inclure des facteurs étiologiques (les précurseurs, facteurs de risque du construit (si on mesure une psychopathologie) et des conséquences développementales plus distales).

RN devrait toujours être dans le manuel du test, mais y est rarement.

How well did you know this?

Not at all

Perfectly

Qu’est-ce que la validité factorielle ?
Qu’est-ce qu’un facteur ?

On veut vérifier si la structure factorielle qui représente le construit est reproduite sur le plan empirique (avec des données).

On utilise généralement le terme (facteur) pour représenter une dimension latente (ou trait latent) d’où l’utilisation du terme validité factorielle.

Une réduction parcimonieuse de plusieurs variables (items ou questions) en une variable latente hypothétique.
- Dans les instruments multidimensionnels, les items se regroupent évidemment en plusieurs facteurs.

How well did you know this?

Not at all

Perfectly

Quel est l’objectif de la validité factorielle ?

Study These Flashcards

Vérifier deux aspects inter-reliés de la structure factorielle théorique.

Les items sont-ils significativement (statistiquement) associés au facteur (construit) ?
Dans le cas d’un instrument multidimensionnel,

a) Les items sont-ils significativement associés au bon facteur et non associés aux autres facteurs ?

b) Dans le cas d’une structure hiérarchique, est-ce que les sous-domaines sont significativement associés au domaine général (traits spécifiques associés à trait général) ?

Qu’est-ce que l’analyse factorielle exploratoire ?

Qu’est-ce qu’un critère classique ?

Study These Flashcards

On identifie des regroupements d’items inter-corrélés, signifiant que les individus tendent à y répondre de façon similaire.

Ex : Si les répondants ont tendance à répondre oui à la question 1, ils ont aussi tendance à répondre oui à la question 5 et question 8, ces items seront donc regroupés dans un même facteur.

Le chercheur n’impose aucune restriction à la matrice de corrélations (ou de covariances) entre les items.

Critère classique : On devrait avoir des saturations factorielles de 0,40 ou plus pour les items associés à un facteur.

Qu’est-ce que l’analyse factorielle confirmatoire ?

Study These Flashcards

Le chercheur impose une structure stricte a priori à la matrice de corrélations (ou de covariances) et teste si elle correspond aux données.

On programme quels items sont associés à un facteur, tout en leur imposant une corrélation de 0 avec les autres facteurs.

C’est la méthode qu’il faudrait normalement employer à l’étape de la validation puisque la structure est supposée être connue.
-Encore trop peu employée en psychométrie, en partie parce que les analyses statistiques sont plus complexes.

Qu’est-ce que la validité convergente ?

Study These Flashcards

Degré auquel les scores d’une échelle sont associés avec ceux d’une autre échelle existante qui mesure le même construit théorique.

Qu’est-ce que la validité discriminante ?

Quel est l’idéal pour tester rigoureusement la validité C/D ?

Study These Flashcards

Degré auquel les scores d’une échelle ne sont pas associés avec une échelle qui ne mesure pas le même construit.

Employer la méthode de la matrice multitraits-multiméthodes.

Qu’est-ce que la validité de critère ?

Study These Flashcards

Aussi appelée validité pragmatique.

Réfère au degré auquel les scores à une échelle sont associés à l’adaptation (ou la performance) des individus.

Les scores à l’échelle sont donc comparé à ceux d’un critère externe.

Le critère devrait être une mesure objective et indépendante, mais reliée conceptuellement au construit d’intérêt.

Il y a deux grands types de validité de critère.
- Concomitante et prédictive.

Deux façons d’estimer la validité de critère concomitante :

Study These Flashcards

Corrélation avec un critère indépendant.
- Test d’intelligence avec réussite académique
- Test d’empathie avec conduites délinquantes
Méthode des groupes contrastés
- On teste les différences des scores moyens entre les groupes.
- Pour EDC, on prend un échantillon d’enfants déjà identifiés avec des TC (par des psychologues scolaires) et on les compare avec un groupe d’enfants sans TC afin de déterminer si les scores à l’EDC distinguent bien les groupes.

Qu’est-ce que la validité de critère prédictive ?

Study These Flashcards

Le degré auquel une mesure est capable de prédire un critère externe prospectivement plus tard dans le temps.

Besoin d’une étude longitudinale prospective.
- Les scores à une échelle d’impulsivité à la fin de l’enfance peuvent-ils prédire l’abus de psychotropes lorsque les individus sont au début de l’adolescence, deux ans plus tard ?
- Les scores sur une échelle de qualité de l’attachement aux parents au préscolaire permettent-ils de prédire un diagnostic d’anxiété de séparation plus tard, à l’entrée à l’école ?

Qu’est-ce que la validité incrémentielle ?

Study These Flashcards

Pas toujours présente dans les livres de psychométrie.

À quel point les scores à un test ont une (valeur ajoutée) pour prédire un critère externe, au-delà de la capacité d’autres facteurs (autres tests) prédictifs importants ?

Liée à l’idée de (contrôle statistique) en analyse de régression.

Quel est l’effet d’un prédicteur important après que le SSÉ soit contrôlé ?

En contexte de classification, les scores d’une échelle de dépistage procurent une meilleure sensibilité et spécificité que ceux d’une autre échelle similaire.

Peut aussi d’appliquer à la révision d’un test

Les scores de la nouvelle version (a) prédisent mieux un critère au-delà de facteurs de contrôle, ou encore (b) procurent une meilleure sensibilité et spécificité que l’ancienne version.

Qu'est-ce que la théorie de la décision et validité de critère ?

La théorie de la décision comprend une série de concepts visant l'analyse des effets quantitatifs des décisions prises avec des tests. Pertinent dans différents contextes de classification tels que pour le dépistage, le diagnostic, la sélection du personnel, la certification, la dérogation scolaire, etc. Les concepts de la théorie de la décision sont donc intimement liés à la validité de critère. * Il s'agit essentiellement de déterminer à quel point les scores d'un test peuvent classifier adéquatement les personnes dans les groupes.

La sensibilité et la spécifié sont toujours reliés à quoi dans la validité et la prédiction ?

Le statut de la personne

Qu'est-ce que la sensibilité ?

Capacité d'une échelle de procurer un résultat positif pour les personnes présentant le statut (ex : un trouble) qu'elle prétend identifier. Se rapporte donc à la capacité de détection. Dans le tableau 2 x 2, on voit qu'il s'agit simplement des vrais positifs divisés par tous ceux qui ont vraiment le statut. Avec l'EDC : proportion d'enfants obtenant un score égal ou supérieur à un score critère donné (ex : T=60) parmi tous les enfants qui présentent réellement un TC.

Qu'est-ce que la spécificité ?

Capacité d'une échelle de procurer un résultat négatif pour les personnes qu'elle prétend identifier. Se rapporte donc à sa capacité de discrimination. Dans le tableau 2 X 2, on voit qu'il s'agit des vrais négatifs divisés par tous ceux qui n'ont pas réellement le statut (trouble). Avec l'EDC : proportion d'enfants obtenant un score inférieur à un score critère donné (ex : T = 59 et moins) parmi tous les enfants qui n'ont pas un TC.

En clinique, la tâche de l'évaluateur est plutôt de déterminer le ________________ qui peut être accordé à un résultat positif (ou négatif) pour un individu classifié. Autrement dit... ? **** Si on change le critère...

Niveau de confiance Autrement dit, on veut savoir la probabilité qu'un individu présente réellement le trouble, étant donné un résultat positif à un test. Pour obtenir des indices probabilistes de ce genre, il faut calculer le pouvoir prédictif d'une échelle. **** ... la sensibilité va changer automatiquement.

Qu'est-ce que le pouvoir prédictif (PPP) ?

La probabilité qu'un individu avec un résultat positif sur une échelle ait réellement le statut prédit. Proportion d'individus ayant un trouble qui obtiennent un résultat positif, parmi tout ceux qui ont obtenu un résultat supérieur au score critère.

Qu'est-ce que le pouvoir prédictif négatif (PPN) ?

La probabilité qu'un individu avec un résultat négatif sur une échelle n'ait réellement pas le statut prédit. Proportion d'individus n'ayant pas de trouble qui obtiennent un résultat négatif, parmi tout ceux qui ont obtenu un résultat inférieur au score critère.

Les PPN et PPP sont des indices de _______________________ d'un test et ils dépendent de la prévalence d'un trouble.

indices de performance extrinsèques Autrement dit, pour une sensibilité et spécificité données, les PPP et PPN vont varier selon la prévalence. Sensibilité et spécificité sont des paramètres d'un test - ils sont seulement influencés par le score critère choisi (la prévalence est fixe, puisqu'elle est connue). PPP et le PPN sont quant à eux des paramètres d'un test et de la prévalence d'un trouble.

Pour la sensibilité et la spécificité, on estime des proportion d'individus dont le _________ _____ ___________.

statut est connu *** Ces indices sont déterminés par le score critère établi par les auteurs du test. PROPORTIONNEL AU CRITÈRE

Pour faire le moins d'erreurs possible dans le tableau, on essaie le plus possible de balancer la spécificité et la ____________ ?

sensibilité

Échelle Dépis-Dep Lorsque la prévalence est faible, le PPN est plus _____ que le PPP et l'inverse lorsque la prévalence est élevée.

grand

La zone optimal ?

L'endroit où les courbes se touchent.

Deux problèmes potentiels avec les indices de la sensibilité, spécificité et du pouvoir prédictif :

1. L'estimation de ces indices statistiques dépend de la validité et de la fidélité du critère utilisé. (Est-ce que les diagnostics du DSM sont suffisamment valides et fiables ? 2. L'estimation de la prévalence réelle dans différents contextes cliniques peut être difficile. - Néanmoins, des estimés imprécis (sans être grossièrement incorrects) n'ont pas un impact important sur les estimés du pouvoir prédictif pour les échelles qui ont une sensibilité et spécificité élevées)

À RETENIR : Il faut toujours se rappeler que les chercheurs valident un instrument d'évaluation pour une population particulière et/ou une utilisation particulière. Les scores d'un instrument peuvent être tout à fait valides et très fiables pour une population et une utilisation particulière, mais pas du tout pour une autre population ou utilisation. AUTANT LA FIDÉLITÉ QUE LA VALIDITÉ EST UNE QUESTION DE DEGRÉ.

La validité est un préalable à la fidélité. ** La fidélité est une condition nécessaire à la validité. ** Les deux sont interreliées : les indices de validité sont directement influencés par le degré de fidélité.

Cours 5 Flashcards

(39 cards)