INFERENCE SUR UN PROTOCOLE UNIVARIE STRUCTURE PAR UN EMBOITEMENT Flashcards

0
Q

Dans une recherche sur l’acquisition de l’addition, on fait résoudre un problème à 40 enfants de CE2. Dans un premier groupe, le problème est une situation de recherche de l’état final : « Pierre à 3 bonbons, sa maman lui en donne 5. Combien en a-t-il maintenant ? ». Dans le second groupe, le problème est une situation de recherche de l’état initial: La maman de Paul lui donne 5 bonbons, il en a maintenant 8. Combien en avait-il avant? On fait l’hypothèse que le problème de recherche de l’état final est plus facile que le problème de recherche de l’état initial. 16 réussites et 4 échecs pour l’état initial, 7 réussites et 13 échecs pour l’état final. Utiliser une distribution exacte.

A

Pour analyser les données, il faut d’abord construire un tableau à double entrée en réalisant un tri croisé (voir vos cours de première année).
Si nous prenons comme catégorie visée les réussites en cherchant à situer le premier groupe dans la réunion des deux groupes, nous allons devoir calculer la distribution hypergéométrique pour les valeurs de k allant de 16 à 20. La variable observée ayant deux modalités, la fréquence des échecs est le complément de la fréquence des réussites. Ainsi, dans la distribution d’échantillonnage, la proportion d’échantillons présentant une fréquence des réussites supérieure ou égale à 16/20 est la même que la proportion d’échantillons présentant une fréquence des échecs inférieure ou égale à 4/20. Il est donc équivalent de tester l’homogénéité des groupes d’observations sur les réussites et les échecs. C’est la raison pour laquelle, en pratique, l’inférence est faite sur la catégorie présentant l’effectif le plus faible. Dans notre cas, il vaut mieux faire l’inférence sur les échecs dans le groupe ayant eu le problème sur l’état final.
Il nous faut alors calculer pk pour une valeur de k variant de 0 à 4. La procédure de calcul ayant été présenté précédemment (CHAPITRE 2 - 2.1) nous ne le reprendrons pas ici. Nous nous contenterons de présenter les résultats des calculs. Rappelons que ce que nous cherchons ici, c’est la proportion d’échantillons présentant une fréquence d’échecs inférieures ou égales à 4/20. C’est donc la proportion cumulé pour les valeurs de k allant de 0 à 4 qu’il nous faut regarder. Dans notre exemple, cette proportion est de .004, ce qui est inférieur au seuil repère de .025. Le résultat est donc significatif. Le groupe ayant eu le problème sur l’état final est atypique de la réunion des deux groupes du côté des valeurs basses. Cela revient à dire que les deux groupes sont hétérogènes, le groupe considéré présentant une fréquence d’échecs plus faible

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
1
Q

Dans une recherche sur l’acquisition de l’addition, on fait résoudre un problème à 40 enfants de CE2. Dans un premier groupe, le problème est une situation de recherche de l’état final : « Pierre à 3 bonbons, sa maman lui en donne 5. Combien en a-t-il maintenant ? ». Dans le second groupe, le problème est une situation de recherche de l’état initial: La maman de Paul lui donne 5 bonbons, il en a maintenant 8. Combien en avait-il avant? On fait l’hypothèse que le problème de recherche de l’état final est plus facile que le problème de recherche de l’état initial. 16 réussites et 4 échecs pour l’état initial, 7 réussites et 13 échecs pour l’état final. Utiliser une distribution approchée.

A

Rappelons que dans le cas de l’inférence à l’aide de la distribution de X2 à 1 ddl, deux conditions doivent être respectées : (i) Tous les effectifs théoriques doivent être supérieures à 5 et (ii) il faut appliquer une correction de continuité.
Dans un premier temps, nous devons calculer les effectifs théoriques avant d’appliquer la formule du X2. Dans le cas des groupes indépendants, nous cherchons à tester l’hypothèse que les fréquences de chacune des modalités de la variable dépendantes sont les mêmes dans les deux groupes. La fréquence des réussites sur les deux groupes est de 23/40. La fréquence des sujets ayant passé le problème 1 est de 20/40. L’effectif théorique des réussites dans le groupe 1 est donc de 2320/40 soit 11,5, autrement dit la moitié de 23, puisque la moitié des sujets sont dans le groupe 1. Selon le même raisonnement, l’effectif théorique des échecs dans le même groupe est de 1720/40=8,5. On devine aisément que les effectifs théoriques du groupe 2 sont les mêmes. Aucun effectif théorique n’étant inférieure à 5, on peut maintenant appliquer la formule du X2corr. Le résultat est de 6,55.
Nous allons situer cette valeur dans la distribution approchée. Dans le cas de la comparaison de deux groupes d’observations, seule la distribution de X2 à 1 ddl nous intéresse. Cette distribution nous indique, pour chaque valeur de Khi-deux, la proportion d’échantillons qui dépassent cette valeur.
On peut lire cette proportion dans la première ligne du tableau. La proportion signalée dans ce tableau est une proportion bilatérale. Le khi-deux observé est de 6,55. Nous allons chercher dans la table la valeur inférieure ou égale la plus proche de notre valeur observée. C’est la valeur 5,02. Elle correspond à une valeur de p de .025. Cette dernière valeur étant inférieure au seuil repère de .05, le test est significatif. Comme à chaque fois, l’interprétation du test dépend du modèle d’échantillonnage dans lequel on se place. Dans le modèle combinatoire, il s’agit de tester l’idée que les fréquences de chacune des modalités de la variable dépendante sont les mêmes dans les deux groupes et donc que les observations des deux groupes peuvent être mélangées. Autrement dit, on teste l’homogénéité des groupes. Dans notre exemple, on voit que le résultat est significatif. Les groupes sont donc hétérogènes.
Dans le cadre de l’inférence fréquentiste, on teste l’hypothèse nulle d’absence de différences entre les groupes. La proportion est alors interprétée comme une probabilité d’observer un tel échantillon dans une population où il n’y aurait pas de différence entre les groupes. La probabilité est suffisamment faible pour qu’on puisse rejeter l’hypothèse nulle sans prendre un trop grand risque de se tromper.
D’un point de vue psychologique, la différence significative est à rapporter aux résultats de l’analyse descriptive qui montrent que la réussite est plus importante dans le problème portant sur l’état final que dans le problème sur l’état initial. Ce second problème est donc beaucoup plus difficile.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Dans une étude, on s’interroge sur une transmission génétique possible de l’alcoolisme. Le chercheur procède alors à une enquête portant sur 1003 femmes adoptées à l’âge de 3 ans par des familles d’accueil non apparentées. Il relève alors la survenue ou non d’une intoxication alcoolique chez les individus en distinguant les cas où les parents biologiques. (père ou mère) étaient alcooliques (A) ou non alcooliques (NA). Les caractéristiques des parents biologiques permettent ainsi de définir 4 groupes.

A

Voir le cours

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Comment se fait l’inférence dans un protocole structuré par emboîtement dans le cadre des variables numériques?

A

Pour faire l’inférence sur ce type de protocole, on va chercher à tester l’idée que les deux groupes d’observations sont issus de la même population, autrement dit qu’il sont homogènes et qu’on peut éventuellement mélanger les observations des deux groupes. Pour tester cette idée, on va situer l’échantillon dans la distribution des différences de moyennes, c’est-à-dire à la distribution des différences entre le groupe 1 et le groupe 2.
D ≈ N(0,σ 2 (1/n’+1/n” ))
Cette distribution, que nous appellerons D, tend vers une distribution normale à mesure que n augmente. , Elle est centrée sur 0. On teste donc l’absence de différence entre les deux groupes, autrement dit l’hypothèse nulle. Comme avec les plans appariés, le choix de la distribution d’échantillonnage approchée dépend de la connaissance ou non des paramètres de la population parente, notamment de lza variance. Si la variance parente est connue, la distribution approchée pertinente est la distribution de Z. Dans le cas contraire, c’est la distribution de T qu’il faut employer.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Inférence sur un protocole numérique de variance parente connue, structuré par emboîtement. Quelle est la formule?

A

Dans le cas des protocoles structurés par un emboîtement, la formule de Z est peu différente. Le numérateur ne change pas, c’est toujours la différence entre les moyennes des deux groupes d’observations. C’est le dénominateur qui change. zobs = (m’−m”) / σ0 * racine carrée ( 1/n’ + 1/n”)
Dans cette formule, m’ est la moyenne du premier groupe et n’ son effectif. De la même, m’’ représentera la moyenne du second groupe et n’’ son effectif. Quant à σ0 au carré, il représente la variance parente.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Dans une recherche, on compare le temps de résolution de deux versions de la tour de Hanoi. Chacun des 40 sujets ne résout qu’un des deux problèmes. Les groupes sont équilibrés, c’est-à-dire qu’on a autant de sujets dans les deux groupes. La première version est la version standard à trois disques. La seconde version est la situation dite des « ascenseurs ». Le temps de résolution est utilisé comme indicateur de la difficulté des problèmes. On observe que le temps moyen de résolution est de 5 mn pour la version standard, et de 7 mn pour la version des ascenseurs. L’écart-type de la population parente est de 2,5. Peut-on dire que le problème des ascenseurs soit plus difficile que le problème standard ?

A

La mise en œuvre du test consiste simplement à appliquer la formule du z, adaptée aux groupes indépendants en remplaçant iremplaçant les paramètres de la formules par les valeurs correspondantes..
Dans cette exemple m’ est égale à 5 et m’’ est égale à 7. L’écart-type de la popualtion parente est donnée dans l’énoncé. Il est de 2,5. Chacun des groupes contenant 20 sujets, nous pouvons remplacer n’ et n’’ par 20. Il ne reste plus qu’à effectuer le calcul. Nous obtenons un zobs de -2,52. Le signe moins de z signifie que m’ est inférieur à m’’, ce qui nous indique le sens de la différence. La lecture de la table du Z se fait en recherchant dans la table la valeur de zobs et en lisant la proportion associée. Dans notre exemple, nous faisons l’hypothèse que le problème des ascenseurs est plus difficile que le problème standard. Les sujets devraient donc mettre plus de temps. La différence des moyennes devrait donc être négative, et c’est bien ce que nous observons d’un point de vue descriptif. C’est donc la proportion cumulée à gauche des échantillons que nous cherchons. La proportion que nous lisons dans la table en regard de -2,52 est de 0,006. Elle représente la proportion des échantillons dans lesquels la valeur de z est inférieur à -2,52. Cette proportion étant inférieure au seuil repère de .025, le test peut être déclaré significatif. Comme précédemment, d’un point de vue statistique, l’interprétation du résultat dépend du modèle d’échantillonnage dans lequel on se place. Dans le cadre du modèle combinatoire, dans lequel on peut toujours se placer, on teste l’homogénéité des groupes. Autrement dit, on teste l’idée que les sujets des deux groupes peuvent éventuellement être mélangés. Mais dans la distribution d’échantillonnage, 6 échantillons pour mille présentent une différence des moyennes inférieure ou égale à celle qu’on a observée. Notre échantillon est donc suffisamment rare dans cette distribution pour qu’on puisse considérer que les deux groupes d’observations n’appartiennent pas à la même population. On peut donc considérer que les groupes sont hétérogènes. Dans cet exemple, on peut également se placer d’un point de vue fréquentiste. On peut en effet considérer que les sujets sont affectés à l’un ou l’autre des problèmes de façon aléatoire. Toutes choses égales par ailleurs, nos sujets ne diffèrent donc que par le type de problème qu’ils ont à résoudre. Dans ce modèle d’échantillonnage, la proportion sera interprétée comme une probabilité d’obtenir une telle différence de moyenne dans une distribution d’échantillonnage centrée sur 0. Cette probabilité est suffisamment faible pour qu’on puisse rejeter l’hypothèse nulle sans grand risque de se tromper. D’un point de vue psychologique, la comparaison de deux problèmes isomorphes, c’est-à- dire ayant la même structure logique, mais pas le même contenu sémantique, permet d’étudier le rôle des aspects sémantiques dans la construction de l’interprétation d’un problème. Nous voyons, dans cet exemple que les deux problèmes ne sont pas équivalents et que, pour répondre à la question, le problème des ascenseurs est plus difficile que le problème standard, ce qui montre que la représentation qu’on s’en fait permet moins facilement d’évoquer des procédures de résolution pertinentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Inférence sur un protocole numérique de variance parente inconnue, structuré par emboîtement. Quelle est la formule?

A

Si la variance parente n’est pas connue et que seule la variance de l’échantillon est connue, il convient d’utiliser la distribution du t de Student. Pour cela, il va falloir estimer la variance parente à partir des variances des échantillons.

s au carré= SOMME de (x-m’) au carré+ SOMME de (x-m’’) au carré / n’ + n’’ - 2 = s’ au carré * ( n’ -1) + s’’ au carré * ( n’’ -1) / n’ + n’‘-2

Dans le cas des groupes indépendants, l’estimation de la variance parente se fait en composant les variances des deux groupes. Concrètement, le groupe 1 a pour variance s’2 et le groupe 2, s’’2. En multipliant les variances corrigées de chacun des deux groupes par le nombre d’observations, on obtient les sommes des carrés des écarts à la moyenne pour chacun des groupes. La variance corrigée de la réunion des deux groupes peut alors être estimée en additionnant ces deux sommes des carrés et en les divisant par la somme des observations dans les deux groupes moins deux. On peut calculer la variance corrigée de façon plus directe en utilisant la dernière formule. Avec s2 ainsi calculé, la formule du t de Student devient la suivante pour les groupes indépendants.
t obs = (m’−m’’ ) / s * racine carrée de (1/n’ + 1/n’’)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nous avons, ici, 40 sujets répartis de façon équilibrée dans deux groupes, qui ont chacun eu à résoudre une version différente de la tour de Hanoi. On observe que le temps moyen de résolution est de 5 mn et une variance corrigée de 5,76 pour la version standard, et de 7 mn pour la version des ascenseurs, avec une variance corrigée de 6,25. La question à laquelle on cherche à répondre est la même que précédemment : peut-t-on dire que le problème des ascenseurs est plus difficile?

A

Ne connaissant pas la variance parente, pour répondre à cette question, nous allons situer l’échantillon à l’aide de la distribution du t de Student. Commençons par calculer la variance corrigée des deux groupes. Notons, que nous avons dans l’énoncé les variances corrigées, il faut donc les multiplier par le nombre d’observations moins 1. Si nous avions eu les variances, c’est pas le nombre d’observations qu’il aurait fallu les multipliées pour retrouver la somme des carrés des écarts.
s2 = 5,76 * (20 −1) + 6,25 * (20 −1) / 20 + 20 - 2 = 6,005
Ce calcul nous permet d’obtenir la variance corrigée correspondant à la réunion des deux groupes. Il n’y a plus qu’à extraire la racine carré pour obtenir l’écart-type corrigé. s = 6,005 = 2,451 Nous pouvons maintenant appliquer la formule du t de Student.
t obs = (5−7) / 2,451 * racine carrée de ( 1/20 + 1/20) = -2,58
Dans cet exemple, tobs est égal à -2,58. Nous allons maintenant situer cette valeur dans la distribution du t de Student.
Dans notre exemple, tobs égale 2,58. Nous avons 20 observations donc 38 degrés de liberté. C’est donc la ligne 38 qu’il nous faudrait regarder. Comme souvent dans les tables disponibles dans les ouvrages d e statistiques, celles-ci, faute de place, ne contiennent pas toutes les valeurs possibles. Dans ce cas, on se réfère à la ligne la plus proche inférieure. Vous avez, en effet, pu remarquer que plus on descend dans la table, moins les valeurs sont importantes. Une approximation par excès risque donc de nous conduire à déclarer significatif un résultat qui ne l’est pas. En faisant une approximation par défaut, on est assuré, si on déclare un résultat significatif, il l’est pour un nombre de degré de liberté plus important. Nous consulterons donc la table à la ligne 30. Nous cherchons ensuite sur cette ligne la valeur inférieur ou égale la plus proche à notre tobs, en ne considérant que sa valeur absolue. Cette valeur est de 2,46. Nous testons l’hypothèse que les sujets mettent moins de temps à résoudre le problème standard que ceux qui ont résolu le problème des ascenseurs. Notre hypothèse est donc orientée du coté des valeurs basses. En conséquence, nous regarderons le seuil unilatéral, et lisons en tête de colonne la proportion recherchée. Elle est de .010. Cette proportion est inférieure à ce seuil. Notre table n’étant pas assez précise, cette valeur n’est qu’une approximation et il serait plus juste de dire que la valeur de p est comprise entre .010 et .005. En fait, un tableur ou un logiciel de statistique, nous renverrais une valeur de p égale à .007. La lecture dans la table n’est donc qu’une approximation, mais celle-ci est suffisante pour faire l’inférence. D’un point de vue statistique, l’interprétation du résultat dépend comme toujours du modèle d’échantillonnage dans lequel on se place. Dans le cadre du modèle combinatoire, dans lequel on peut toujours se placer, on teste l’homogénéité des groupes. Autrement dit, on teste l’idée que les sujets des deux groupes peuvent éventuellement être mélangés. Dans cet exemple, on peut également se placer d’un point de vue fréquentiste. On peut en effet considérer que les sujets sont affectés à l’un ou l’autre des problèmes de façon aléatoire. Toutes choses égales par ailleurs, nos sujets ne diffèrent donc que par le type de problème qu’ils ont à résoudre. Dans ce modèle d’échantillonnage, la proportion sera interprétée comme une probabilité d’obtenir une telle différence de moyenne dans une distribution d’échantillonnage centrée sur 0. Cette probabilité est suffisamment faible pour qu’on puisse rejeter l’hypothèse nulle sans grand risque de se tromper. D’un point de vue psychologique, la comparaison de deux problèmes isomorphes, c’est-à- dire ayant la même structure logique, mais pas le même contenu sémantique, permet d’étudier le rôle des aspects sémantiques dans la construction de l’interprétation d’un problème. Nous voyons, dans cet exemple que les deux problèmes ne sont pas équivalents et que, pour répondre à la question, le problème des ascenseurs est plus difficile que le problème standard, ce qui montre que la représentation qu’on s’en fait permet moins facilement d’évoquer des procédures de résolution pertinentes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly