RÉVISION DU COURS Flashcards

Question

OBSERVATION & MESURE ______________________ Une dimension ou un facteur existe lorsque les items sont [?] et [?].

Answer 1

Une dimension ou un facteur existe lorsque les items sont [regroupés] et [homogènes].

Answer 2

La question qui se pose est de savoir si tous les items évaluent la même [dimension] et donc s'il est réellement possible de les [sommer].

Answer 3

Trois méthodes d’analyse des items sont utilisées : 1) Indice de discrimination 2) Calcul de la corrélation entre chaque item et le test : corrélation item-test 3) Corrélation item-item : corrélation entre les scores d’items

Answer 4

Le but est de savoir si chaque item permet une bonne [discrimination] entre les sujets qui réussissent bien le test et ceux qui le réussissent mal >>> Est-ce que ceux qui réussissent le test [globalement] vont également réussir un [item particulier] ? Un [indice de discrimination] est donc calculé. On prend les [30%] qui réussissent le mieux au test et les [30%] qui réussissent le moins bien. Dans chacun de ces 2 groupes, on examine les [pourcentages] des sujets qui réussissent à un item particulier et ceux qui échouent à cet item. La différence de ces 2 pourcentages mesure le [pouvoir discriminant de l’item]. Si l’item [discrimine] bien, les bons au test réussiront plus souvent à l’item que les mauvais. L’indice de discrimination est lié à la [difficulté de l’item]. Les items de difficultés moyennes permettent une [discrimination interindividuelle forte].

Answer 5

Cet indice est moins [ambigu] que l’indice de discrimination. Il indique la part de [variance commune] au test et à l’item. Le score à l’item doit être lié au [score au test].

Answer 6

Il consiste à calculer les [intercorrélations] de tous les items entre eux. Si celles-ci sont suffisantes, on considérera que la [dimension] existe et on pourra [sommer] tous les résultats. (si les corrélations sont proches de [1], les items sont liés) On peut ensuite faire une [analyse factorielle] pour rechercher si tous les items sont « saturés » de façon suffisante autour d’un même [facteur]. Il s’agit de faire ressortir les items [pertinents] et les plus [discriminants].

Answer 7

Ces différentes méthodes permettent d’éliminer ou de reformuler des items et donc de ne garder que ceux qui évaluent la même dimension.

Answer 8

1) Les échelles nominales 2) Les échelles ordinales 3) Les échelles d’intervalles

Answer 9

Lorsque le psychologue regroupe ses observations en [classes d’équivalence] et ne fait que cela, il peut désigner par un [nombre] chaque chose. Ces nombres sont en fait des [symboles] qu’on ne peut pas ordonner en [classes] (Sex : 1/F et 2/M). Ce niveau de mesure est [faible]. Cette échelle permet quelques [calculs statistiques] : indices de [dispersion], indices de [tendance centrale] (mode), degré de [liaison] entre 2 variables avec [Chi2].

Answer 10

Lorsque le psychologue peut établir un [ordre] entre les classes en montrant leurs relations [anti systémiques]. Les nombres sont alors des [symboles ordonnés]. Cette échelle permet quelques [calculs statistiques] : Indice de tendance [centrale] (médiane), degré de [liaison] entre deux variables ordinales avec [le taux de Kendall].

Answer 11

Lorsque le psychologue peut définir des [distances] entre des classes. Cette échelle permet quelques calculs statistiques : Opérations [arithmétiques] (Moyenne), la [Variance], le coefficient de [corrélation] de [Bravais-Pearson].

Answer 12

Le score global qui permet de caractériser un sujet est une donnée [brute] dont la signification reste [ambiguë] tant qu’elle n’est pas comparée aux [scores] des sujets d’une [population de référence]. Cette comparaison est possible grâce à [l’étalonnage].

Answer 13

L’étalonnage est la construction d’une [échelle de notation standard] à partir des résultats obtenus dans un échantillon représentatif d’une [population de référence]. Il permet de transformer un score brut en notes [standards] ou [étalonnées] et de situer un sujet par rapport au [groupe de référence]. Ces notes sont directement comparables et permettent de faire des comparaisons [interindividuelles] et [intra individuelles]. Une fois qu’un échantillon représentatif de la population de référence est constitué et que les sujets de l’échantillon ont passé le test, on peut procéder à [l’étalonnage de leurs scores]. On pourra ainsi déterminer pour une population quelles notes au test correspondent à quel [rang] : par exemple jusqu’à quel [score] fait-on partie des 10% qui réussissent le moins bien. A partir de quel [score] au contraire fait-on partie de ceux qui réussissent le mieux.

Answer 14

Deux techniques sont principalement utilisées : 1) Le quantilage 2) Les échelles normalisées

Answer 15

Il s’agit d’ordonner les notes selon un ordre croissant, de les regrouper en classes de telle sorte que chaque classe contienne le même effectif et la même proportion de l’effectif total et de calculer les limites de classes. Il y a plusieurs formes de quantilage en fonction du nombre de classes. Le choix dépend de ce que l’on cherche à obtenir. Plus il y a de classes, plus les résultats sont fins. >>> Le quartilage : Faire un découpage de sorte à obtenir 4 classes dans la distribution des notes de l'effectif. 25% de l'effectif dans chaque classe, 4 interquartiles (étendue de la classe), délimités par 3 quartiles. >>> Le quantilage : Faire un découpage de sorte à obtenir 5 classes, 20% de l’effectif dans chaque classe, 5 interquantiles, délimités par 4 quantiles. >>> Le décilage : Faire un découpage de sorte à obtenir 10 classes, 10% de l’effectif dans chaque classe, 10 interdéciles, délimités par 9 déciles. >>> Le centilage : Faire un découpage de sorte à obtenir 100 classes, 1% de l’effectif dans chaque classe, 100 intercentiles, délimités par 99 centiles.

Answer 16

La caractéristique principale est que les classes sont définies de telle sorte que les effectifs (fréquences) qui correspondent à chaque classe soient conformes aux fréquences de la distribution normale. Celle-ci est une distribution symétrique en forme de cloche. On va donc transformer les valeurs de la variable en distance en écart type par rapport la moyenne (notes z). Les proportions de chaque classe dans une distribution normale sont lues dans une table selon le nombre de classes constituées.

Answer 17

Une mesure est dite fidèle (ou fiable) lorsqu’elle n’est pas entachée d’erreurs trop importantes. C’est pourquoi nous calculons le coefficient de fidélité.

Answer 18

Deux types d’erreurs de mesure sont courants : 1) Les erreurs systématiques 2) Les erreurs aléatoires

Answer 19

◻️ Les erreurs systématiques se manifestent toujours dans le même [sens] et avec la même [intensité] lors de la [répétition] de la mesure (un sujet dont l’acuité visuelle est déficiente peut échouer à des tests spatiaux sans que ses capacités visuelles soient mises en cause, appareil mal réglé). Pour les éviter, il faut analyser les [conditions d’observation] et s’assurer que le test ne mesure que [ce qu’il est censé mesurer].

Answer 20

Les erreurs aléatoires diffèrent d’une [passation] à l’autre et apparaissent avec des [intensités] et des [directions] différentes. Le coefficient de fidélité ne s'intéresse qu'aux [erreurs aléatoires] c'est-à-dire qu'il cherchera à déterminer si les différences individuelles de score au test peuvent être attribuées aux [caractéristiques] des sujets ou si elles sont dues à des erreurs lors des passations, erreurs sur le [choix des items], dues à des [observateurs différents], des [conditions différentes] lors des passages successifs. Un [coefficient de corrélation] entre la mesure à un test et la mesure au retest est effectué. Si le coefficient est proche de [1] l'erreur est peu importante si elle est proche de [0] le test n'est pas fiable puisqu'il ne permet pas d'évaluer la [mesure vraie]. Dans ce cas, le chercheur doit [construire un autre test].

Answer 21

On peut donc : 1) Répéter la mesure à des moments différents : >>> Les facteurs d’erreurs pris en compte ici correspondent à des événements qui se manifestent différemment d’une passation à l’autre. 2) Répéter la mesure en faisant varier le contenu de la situation qui demeure conceptuellement identique >>> Les facteurs d’erreurs sont alors relatifs aux décisions prises lors de l’opérationnalisation des idées sur lesquelles est fondé le test, ou, en d’autres termes, à l’échantillonnage. 3) Demander à deux personnes différentes d’évaluer une même conduite >>> Les facteurs d’erreurs proviennent de la subjectivité de l’observateur. Cette source d’erreur est neutralisée dans les tests par la standardisation de la procédure d’application et de cotation. C’est sa fonction essentielle.

Answer 22

Pour prendre en compte les erreurs dues au moment de l’observation, on utilise la méthode de test-retest qui consiste à appliquer le même test à un même groupe d’individus à deux moments différents. Le coefficient de corrélation entre les deux séries de mesures obtenues est le coefficient de constance ou de stabilité.

Answer 23

Les différences de classement d’une passation à l’autre peuvent s’expliquer par des fluctuations aléatoires dues à l’état du sujet qui peuvent être considérées comme des erreurs de mesures (Ex. un sujet peut être malade à une passation et pas à une autre, être confiant lors d'une passation et pas à lors de la suivante, être plus attentifs à passation qu'à une autre, il peut exister un conflit collectif avant une passation...). La corrélation non parfaite entre le test et le retest peut en outre s’expliquer par d’autres facteurs tels que L'EFFET D'APPRENTISSAGE. Ainsi, lorsque le sujet réalise plusieurs fois un même test, il va y avoir un effet d’apprentissage, : - soit une AUGMENTATION DE SES PERFORMANCES entre T1 et T2 (ce qui réduit le coefficient de stabilité), - soit une DIMINUTION DE SES PERFORMANCES (par exemple par manque d’intérêt de passer 2 fois le même test !) >>> Ce qui réduit aussi le coefficient de stabilité. Si le temps d’intervalle entre le test et le retest est long, si les sujets ont été soumis à des apprentissages différents, s’ils se sont développés à des rythmes divers et dans des directions différentes, les coefficients de stabilité ne peuvent être interprétés comme des coefficients de fidélité. Le coefficient de stabilité est un INDICE AMBIGU qui ne peut renseigner sur LE POIDS DES ERREURS ALÉATOIRES que lorsque l’intervalle entre le test et le retest est COURT.

Answer 24

Le but est de savoir si un test mesure bien la même [dimension] dans ses différentes [parties] ou [items].

Answer 25

Diverses méthodes sont utilisées dont : ◻️ La méthode des formes parallèles ◻️ La méthode du partage par moitié (split-half) ◻️ L’indice de Cronbach

Answer 26

◻️ La méthode des formes parallèles consiste à construire deux [versions] d’un même test, à les appliquer à un même [groupe] puis à calculer la [corrélation] entre les [deux séries de mesures]. Si le coefficient d’équivalence obtenu est proche de [1] les items choisis sont corrects, a contrario, si le coefficient d’équivalence est proche de [0], les items choisis sont entachés d’erreurs.

Answer 27

◻️ La méthode du partage par [moitié (split-half)] consiste en la présentation d'un test qui sera [coupé en deux parties]. Cette méthode consiste à calculer la [corrélation] entre deux parties d'un test : avec les items [pairs] d'une part et les items [impairs] de l'autre, ou bien en répartissant les items en deux parties [équivalentes] selon le degré de difficulté. Si le [coefficient d’homogénéité] obtenu est proche de 1, on peut dire que l’instrument mesure bien une même [dimension] au moyen des différentes questions le constituant. La méthode item score considère que plus le résultat de chaque item est fortement lié au [score total] de test, plus [l’homogénéité] d’un test est [élevée].

Answer 28

◻️ L’indice de Cronbach est une méthode très souvent utilisée pour estimer les [biais] dus aux choix d’items qui est un calcul [mathématique] pour [tester] l’ensemble du test. Cette méthode est plus [rapide] et moins [coûteuse]. Plus le coefficient de Cronbach est proche de [1] plus le degré d’[homogénéité] est élevé.

Answer 29

Il existe deux sources d’erreurs essentielles : 1) celles relatives au moment de l’observation 2) celles relatives aux choix d’items. Toutefois d’autres sources d’erreurs sont possibles que l’on peut examiner simultanément.

Answer 30

La théorie de généralisabilité de Cronbach vise à restituer la complexité de la notion de fidélité et d’évaluer les poids respectifs des diverses sources d’erreur.

Answer 31

La théorie de la généralisabilité indique la [précision] des [généralisations] que l’on peut effectuer à partir d’une observation. Elle repose sur [l’analyse de variance]. Chaque condition est un [facteur de classification] et les coefficients de généralisabilité sont des [rapports de variance]. Ces coefficients permettent de déterminer le poids dune [contribution] par rapport à une autre ou par rapport à [toutes les autres].

Answer 32

Les coefficients de fidélité fournissent une indication sur [l’importance] des erreurs de mesure (celle-ci est d’autant plus grande que les coefficients sont [faibles]) mais ils n’indiquent pas précisément l’écart entre la note [vraie] et la note [observée]. Si l’on répétait plusieurs fois la mesure, on pourrait mesurer cet écart type appelé [erreur type] ou [erreur standard de mesure]. Cette répétition est impossible mais une formule permet de calculer l'erreur type de mesure à partir du [coefficient de fidélité]. À retenir : Malgré une fidélité élevée, [l’incertitude] sur la note vraie demeure importante.

Answer 33

◻️ L’homogénéité du groupe sur lequel la fidélité a été estimée ◻️ La longueur du test

Answer 34

◻️ L’homogénéité du groupe sur lequel la fidélité a été estimée Plus le groupe est homogène, c’est-à-dire, des individus [semblables], peu [différents] et plus le risque d’avoir des erreurs toujours dans le même sens est [important]. En revanche plus le groupe est hétérogène, plus les individus sont mieux [différenciés], plus les erreurs ont de « chances » d’être [compensées], réduisant ainsi leur effet.

Answer 35

◻️ La longueur du test Plus le test est long (items nombreux), plus il y a de [mesures] et plus on tend à mesurer le [score vrai] car en additionnant les [erreurs aléatoires] on réduit leur [poids].

Answer 36

Un test valide est un test qui : - permet d’atteindre de manière satisfaisante les objectifs poursuivis par son constructeur ou son utilisateur ; - qui mesure bien ce qu’il est censé mesurer.

Answer 37

La validité est la propriété des tests mais ce n’est pas un concept [unitaire] car un test peut être valide par rapport à un [objectif] et ne pas l'être par rapport à un autre.

Answer 38

1) la validité du contenu 2) la validité critérielle 3) la validité théorique

Answer 39

On parle aussi de validité apparente lorsque le test paraît valide A PRIORI sans que l’on dispose de la moindre preuve.

Answer 40

On parle parfois de la validité interne (ou factorielle) d’un test pour désigner l’homogénéité d’un test.

Answer 41

La validité de contenu indique dans quelle mesure le contenu des items d’un test est [représentatif] du domaine visé par l’évaluation. Cela suppose que l’on puisse définir un [univers de référence structuré] dont les [frontières] sont bien définies. Par exemple, dans le domaine de l’évaluation de l’apprentissage, on peut se baser sur des [programmes] fixant le contenu des [acquisitions visées] et des textes officiels exposant les [objectifs de l’enseignement] et pour évaluer les acquis professionnels, on peut se baser sur la [nomenclature des métiers]. Le constructeur de test doit définir son [univers du test] en se référant aux [théories structurales] du domaine. Après la définition de [l’univers de référence], on tire une [série d’items] dont le contenu doit être soigneusement examiné. Ces items doivent correspondre aux différentes [facettes] de l’univers de référence et dans les mêmes [proportions]. L’évaluation de la validité du contenu ne peut se faire qu’avec un travail approfondie de [groupes d’expert]. Au-delà du contenu, il faut prendre en compte le [format des items], la [présentation de la consigne], le [mode de recueil de la réponse].

Answer 42

La validité critérielle se définit comme étant le fait qu’un test corrèle notablement ou non avec un critère qui est une autre variable jugée intéressante.

Answer 43

La validité critérielle est (parfois) qualifiée d’empirique quand la liaison test-critère n’est pas expliquée.

Answer 44

Le test est un prédicteur puisqu’à partir de lui on peut faire une prédiction sur le critère.

Answer 45

La validité critérielle est meilleure quand la corrélation entre le test et le critère est élevée (coefficient de validité).

Answer 46

1) La validité prédictive 2) La validité concurrente Ces deux validités sont complémentaires et non équivalentes.

Answer 47

La validité prédictive implique un [intervalle de temps] entre la mesure du [prédicteur] et celle du [critère]. Pour la validité concurrente, il n’y a pas d’[intervalle de temps], la mesure du prédicteur et celle du test se font [au même moment].

Answer 48

La corrélation entre le test et le critère est représentée par un DIAGRAMME DE CORRÉLATION ou TABLE D'EXPECTATION. Exemple de Prédicteur : nombre d’années à un test, score à un test d’aptitude, résultat à un examen. Exemple de Critère : un chef de service remplit une échelle d’évaluation en fonction du volume des ventes effectuées par le sujet. Quand les sujets passent un test d’aptitude pour entrer dans une société, le recruteur ne gardera que les meilleurs. Ensuite 5 ans après, le chef de service va s’interroger sur la valeur du test et vérifiera l’efficacité des sujets recrutés.

Answer 49

Une erreur de pronostic s’observe lorsque la corrélation entre le prédicteur (test) et le critère n’est pas parfaite. C’est le cas par exemple d’une majorité des sujets ayant eu 9 au test (les meilleurs) qui réussissent la formation de pilote alors qu’il y a tout de même 5,5% de sujets qui ne réussissent pas. Donc le test n’est pas valide à 100%.

Answer 50

1) la restriction de la variabilité sur le prédicteur | 2) la fidélité du prédicteur et du critère

Answer 51

On ne peut pas toujours évaluer sur le [critère] l’ensemble des mêmes candidats que sur le [prédicteur]. En réalité, on procède à une sélection sur la base du test ou des [variables] associées au test. Puis on examinera sur un groupe plus [homogène] que le groupe initial, la [corrélation] entre le test et le critère. Le coefficient de validité sera plus faible que si on avait retenu le même groupe. Il existe des méthodes permettant d’estimer l’effet de cette [réduction de variabilité], et de « corriger » le [coefficient de validité] obtenu.

Answer 52

D’après la théorie du [score vrai], on conçoit que la corrélation entre deux variables ne puisse résulter que de la corrélation de leurs [scores vrais]. Cette corrélation ne peut être parfaite que si les [fidélités] sont parfaites également et elle sera d’autant plus atténuée que les [fidélités] seront faibles. Connaissant les fidélités du prédicteur et du critère, on peut donc calculer la [corrélation corrigée] (ie sans erreur de mesure). Ainsi, la validité n’est pas la propriété exclusive du test mais tout autant une propriété du [critère].

Answer 53

Un premier aspect de la validité théorique est la validité du construit (les construits sont des [dimensions assez abstraites] : l’intelligence, la sociabilité). Il s’agit de se demander s’il y a une bonne [adéquation] entre le construit et le test dont il est une [opérationnalisation]. La question de [validité du construit] est présente tout au long du processus de construction du test.

Answer 54

Le test doit [corréler notablement] avec certaines variables proches du construit : >>> validité [convergente] : certains tests sont saturés dans les mêmes facteurs et faiblement avec certaines autres variables éloignées du construit ; >>> validité [divergente] : certains tests ne sont pas saturés dans les mêmes facteurs.

Answer 55

La méthode « muti-trait multi-méthodes » est fréquemment utilisée pour valider les construits. On caractérise les sujets sur plusieurs traits au moyen de plusieurs méthodes. On peut par exemple, avec des enfants, retenir les traits honnêteté, agressivité et intelligence et recueillir les données en appliquant un test, en procédant à des observations de comportement, en relevant le jugement des enseignants... Les sujets sont alors caractérisés par 9 variables. L’analyse de la table d’intercorrélation entre ces variables permet de répondre à plusieurs questions relatives à la validité du construit : observe-t-on de fortes corrélations ou de faibles corrélations entre les mesures du même trait évalués par la même méthode ? Et par des méthodes différentes ?

Answer 56

Toute information nouvelle sur ce que mesure le test enrichit sa validité conceptuelle. Il peut s’agir d’informations provenant de la validité critérielle. Par exemple s'agissant de l'information selon laquelle une supériorité marquée du QI performance sur le QI verbal dans les échelles de Wechsler peut être associée à une scolarisation irrégulière ou à des troubles de la lecture ; cette information contribue à la validité du test. Les informations concernant l’analyse de la conduite du sujet en cours des épreuves sont également utiles.

RÉVISION DU COURS Flashcards

(80 cards)