Inférences Sur Un Protocole Univarié Non Structuré Flashcards

0
Q

Que se passe t’il si on ne connaît pas la population dans le cas d’une variable nominale?

A

-On se trouva alors dans le cas d’un échantillonnage dans une distribution.
-La distribution exacte à utiliser est alors la distribution binomiale. Dans ce cas, la taille de la population n’est pas connue et supposée de taille infinie, comme si on procédait à un tirage au sort avec remise. La formule permettant de calculer la distribution binomiale est la suivante :
 n pk =  P k Qn− k k 
pk est la proportion d’échantillons de n éléments contenant k éléments d’une catégorie.
 n   est le nombre de combinaisons de n éléments contenant k éléments d’une catégorie,
k  c’est-à-dire le nombre d’échantillons contenant k élément d’une catégorie.
P est la proportion de référence et Q son complémentaire, soit 1-P.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
1
Q

Pour les variables nominales, par quoi est donnée la distribution d’échantillonnage?

A
  • Pour les variables nominales, la distribution d’échantillonnage nous est donnée par la distribution hypergéométrique.
  • Celle-ci nous permet de calculer, pour une population de N éléments dont A éléments sont d’une catégorie, la proportion pk d’échantillons contenant k éléments de la catégorie en question en appliquant simplement la formule (voir dans le formulaire)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

En pratique, les distributions exactes sont peu utilisées du fait de leur complexité de mise en œuvre. Avec les protocoles nominaux, quelle distribution peut on aussi utiliser?

A

-on peut également utiliser la distribution de Χ2 à un degré de liberté, noté Χ2[1], comme approximation de la distribution hypergéométrique ou de la distribution binomiale.
-Cette distribution du noté Χ2[1] correspond à la distribution du carré d’une variable normale réduite Z.
-On pourra vérifier que la première ligne de la table de Χ2 est bien égale au carré de la table du Z (voir les tables en annexes). Rappelons que le calcul de Χ2 nous est donné par la formule :
Χ2 = ∑ (eobs − ethéo ) au carré /ethéo
-Son utilisation dans le cas de l’inférence sur une fréquence est soumise à deux conditions : (i) les effectifs théoriques doivent être supérieurs à 5.il faut appliquer une correction de continuité. La formule de calcul est alors la suivante :
Χ 2 corr =∑ (eobs − ethéo) − 0,5) au carré/ ethéo
Ajouter les X 2 corr de chaque variable nominale entre eux.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Par quels point de vues peut être appréhendée la notion de degré de liberté?

A
  • Elle correspond au nombre de comparaisons qu’on peut faire sur un groupe d’observations ou, ce qui revient au même, au nombre de contraintes sur un tableau de données, c’est-à-dire, connaissant les marges, le nombre de valeurs qu’il faut connaître pour reconstituer le tableau.
  • si Le X2 observé est de 2,32. Nous allons chercher dans la table la valeur inférieure ou égale la plus proche de notre valeur observée ddl=1)C’est la valeur 1.64. Elle correspond à une valeur de p de .20 qu’on peut lire en tête de colonne. Cette dernière valeur étant supérieure au seuil repère de .0, le test est non significatif.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

De quoi dépend l’interprétation du test?

A

L’interprétation du test dépend du modèle d’échantillonnage dans lequel on s’est placé

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Quel test peut-on utiliser dans une distribution approchée pour des variables numériques?

A

On peut donc, si on connaît la variance parente, situer notre échantillon dans la distribution de Z. On peut utiliser cette distribution de Z, même si la distribution parente n’est pas normale.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

on fait passer à l’ensemble des 300 élèves de 3ème d’un collège, dont 25 étudient le latin, un test de compréhension verbale où la note représente le nombre de bonnes réponses sur 40 questions. On se demande si l’étude du latin favorise le développement de ce type de compétence. Sachant que les latinistes ont obtenu une moyenne de 30 et l’ensemble des élèves de 3ème, une moyenne de 28 et une variance de 25, peut-on dire que les latinistes ont une meilleure réussite à ce test ?

A
  • Notre population parente est constituée des 300 élèves de 3ème.
  • Notre échantillon est constitué des élèves latinistes qu’on cherche à situer dans la population. -D’un point de vue psychologique, on se demande si l’étude du latin favorise le développement des compétences verbales mesurées par le test. Si tel est le cas, la performance des latinistes à ce test devrait être supérieure à celles du reste de la population. La moyenne obtenue par les latinistes est une des moyennes possibles dans la distribution d’échantillonnage.
  • Dans cet exemple, On en connaît la moyenne et la variance qui sont respectivement de 28 et 25, et on sait que les 25 latinistes ont obtenu une moyenne de 30 au test.
  • La mise en œuvre de ce test commence par le calcul de la valeur de z correspondant à notre échantillon. Cette valeur est appelée zobs. La formule est la suivante :

zobs = (m − μ0 ) / (σ0 / racine carrée de n)
où m est la moyenne de l’échantillon, μ0 est la moyenne parente, et σ20 variance parente. On peut l’instancier avec les valeurs de notre exemple ; zobs = (m − μ0 ) = (30 − 28) / (5 / racine carrée de 25) =2
Puis, faire la lecture de la table de z.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Comment se fait la lecture de la table de z (exemple des latinistes)?

A
  • La lecture de la table du Z se fait en recherchant dans la table la valeur de zobs et en lisant la proportion associée. De nombreux manuels présentent trois tables de la loi normale réduite: l’une cumulée à gauche, une autre cumulée à droite et enfin une table cumulée bilatérale. • • •
  • Si l’hypothèse de recherche à tester situe l’échantillon du côté des valeurs basses, il faut utiliser la table cumulée à gauche.
  • Si au contraire l’hypothèse situe l’échantillon du coté des valeurs hautes, il faut alors utiliser la table cumulée à droite.
  • Dans le cas où l’hypothèse est non-orientée, on utilisera la table bilatérale.
  • Dans notre exemple, nous faisons l’hypothèse que les latinistes ont une meilleure performance au test. On cherche donc à savoir s’ils se situent du coté des valeurs hautes.
  • Il faut donc regarder la distribution cumulée à droite.
  • La proportion que nous lisons dans la table en regard de 2 est de .022. Elle représente la proportion des échantillons dans lesquels la valeur de Z est supérieure à 2.
  • Cette proportion étant inférieure au seuil repère de .025, le test peut être déclaré significatif. -L’interprétation du test dépend du modèle d’échantillonnage. Dans l’approche combinatoire, il s’agit de tester la typicité du groupe d’observations dans la population.
  • Le résultat étant significatif, l’échantillon doit être déclaré atypique de la population.
  • On ne peut guère se placer du point de vue fréquentiste dans cette recherche, dans la mesure où les sujets composant l’échantillon ne peuvent pas être considérés comme sélectionnés au hasard. On ne peut pas non plus considérés que toutes choses égales par ailleurs, ces élèves se différencient des autres uniquement par l’étude du latin. La proportion ne peut donc pas être interprétée comme une probabilité d’obtenir un tel échantillon dans la population.
  • D’un point de vue psychologique, la différence significative nous conduit à affirmer que les compétences verbales ciblée par le test de compréhension sont plus importantes dans le cas de l’étude du latin en 3ème.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Imaginons que nous fassions passer un test de raisonnement comme la tâche de Wason1 à 50 sujets, mathématiciens de leur état. On s’intéresse dans cette expérience uniquement à la réussite ou à l’échec des sujets à la tâche. On observe, dans cet échantillon, une fréquence de réussite de 20 %. Sachant que d’autres recherches ont montré que la fréquence de réussite à cette tâche est de 12%, peut-on dire que les mathématiciens réussissent plus souvent ce test de raisonnement que le reste de la population ?

A

-Pour nos sujets mathématiciens, les effectifs observés sont les suivants : 10 sujets ont réussi et 40 ont échoué au test. Les effectifs théoriques correspondent à la fréquence des réussites dans la population, soit donc 12% de 50, pour les réussites et 88% d’ échecs.
-Nos effectifs théoriques sont tous supérieurs à 5. La première condition d’utilisation de la distribution de X2 est remplie. On peut donc calculer le X2corr. Il est de 2,32.
((10-6) - 0,5) au carré / 6 + ((40-44). - 0,5) au carré / 44 = 2,32
-Dans le cas de l’inférence avec une distribution de X2 sur un protocole univarié non structuré sur une variable nominal, seule la distribution de X2 à un degré de liberté nous intéresse. La proportion signalée dans ce tableau est une proportion bilatérale.
-Le X2 observé est de 2,32. Nous allons chercher dans la table la valeur inférieure ou égale la plus proche de notre valeur observée. C’est la valeur 1.64. Elle correspond à une valeur de p de .20 qu’on peut lire en tête de colonne. Cette dernière valeur étant supérieure au seuil repère de .05, le test est non significatif.
-L’interprétation du test dépend du modèle d’échantillonnage dans lequel on s’est placé. Dans ce cas de figure, on peut adopter un modèle combinatoire. De ce point de vue, cela revient à tester la typicité des mathématiciens dans la population des sujets ayant eu à résoudre la tâche de Wason.
-Il est difficile de dire que notre échantillon a été tiré au hasard. On ne peut donc pas se placer dans le cadre de l’inférence fréquentiste et interpréter la proportion comme une probabilité. Nous nous en tiendrons donc à l’approche combinatoire.
-Le test s’étant révélé non significatif, l’échantillon de sujets mathématiciens doit être considéré comme typique d’un population où on observe 12 % de réussite à la tâche de Wason. Autrement dit, et pour répondre à la question posée, les mathématiciens ne réussissent pas mieux la tâche de Wason que les autres sujets.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Lorsque la distribution parente n’est pas connue, quel test utiliser?

A

Le test t de Student:
En effet, dans le cas où la variance parente n’est pas connue, le test du Z n’est pas utilisable. On peut cependant estimer la variance parente en calculant la variance corrigée. On peut alors remplacer la variance parente dans la formule par la variance corrigée. Rappelons que la variance corrigée est la somme des carrés des écarts à la moyenne divisée par n-1. On obtient donc la formule suivante
tobs = (m − μ0 ) / (s/ racine carrée de n) avec s 2 = ∑ (x − m) au carré / n - 1

La démarche est alors la même que dans le cas du Z. La statistique ainsi calculée est la statistique T. Il s’agit également d’un écart réduit. La distribution de la statistique T est un peu différente de celle du Z. Elle suit une distribution de t de Student à ν (nu) égal n-1 degrés de liberté.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

’étude de l’illusion de Muller-Lyer. Cette illusion consiste à percevoir plus grand un segment encadré par des chevrons intérieurs qu’un segment de même longueur encadré par des chevrons extérieurs. L’étude de cette illusion se fait en demandant aux sujets d’ajuster la seconde droite de sorte qu’elle apparaisse de même longueur que la première. On mesure alors la différence entre la longueur réelle du second segment et la longueur proposée par le sujet. Sur un groupe de 8 sujets, on a observé que l’estimation était en moyenne supérieure de 2,6 mm par rapport à la longueur réelle, avec un écart-type corrigé de 1,8.

A

-Nous allons dans un premier temps calculer la valeur de tobs sur les données observées.

tobs = (m − μ0 ) / (s / racine carré de n) = (2,6 - 0) / (1,8 / racine carrée de 8 = 4,09

  • La moyenne observée est de 2,6.
  • La moyenne théorique correspond au cas où les sujets estimeraient correctement la longueur du second segment, c’est-à-dire ajusteraient un second segment de même longueur que le premier. Dans ce cas, l’écart observé serait de 0.
  • L’écart-type corrigé est de 1,8,
  • et le nombre d’observations est de 8, puisque nous avons 8 sujets et une seule variable.
  • Ce qui nous fait un tobs de 4,09.
  • Il faut ensuite lire la proportion recherchée dans la table du t de Student.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Comment lire la table t de Student ( exemple de l’expérience de l’illusion de Muller-Lyer)?

A

En tête de colonne de cette table, on trouve les proportions d’échantillons.

  • Dans notre exemple, tobs égale 4,09. Nous avons 8 observations donc 7 degrés de liberté. C’est donc la ligne 7 qu’il nous faut regarder. Nous cherchons ensuite sur cette ligne la valeur inférieure ou égale la plus proche à notre tobs. Cette valeur est de 3,50. Nous testons l’hypothèse que l’estimation des sujets est supérieure à la longueur réelle du segment 1. Notre hypothèse est donc orientée du côté des valeurs élevées. En conséquence, nous regarderons le seuil unilatéral, et lisons en tête de colonne la proportion recherchée. Elle est de .005. Cette proportion étant inférieure au seuil repère de .025, le résultat est déclaré significatif au seuil de .005.
  • L’interprétation d’un point de vue statistique dépend, comme toujours, du modèle d’échantillonnage dans lequel on s’est placé.
  • Dans ce cas de figure, outre le modèle combinatoire qui est toujours possible, on peut se placer dans le cadre d’un modèle fréquentiste. Nous cherchons en effet à tester une hypothèse : dans l’illusion de Muller-Lyer, les sujets surestiment la longueur du second segment, ce qui les conduit à ajuster sa longueur par défaut. Par ailleurs, on peut penser que les sujets sont tirés au hasard dans la population de référence.
  • Dans le cadre d’un modèle combinatoire, on peut dire que le groupe de sujets observé est atypique du côté des valeurs élevées à un seuil de .005. Dans le cadre d’un modèle fréquentiste, on peut dire que la probabilité d’observer un tel échantillon dans la population est inférieure à .005. On peut donc rejeter l’hypothèse nulle. Dans les deux cas, on peut généraliser l’observation que les sujets surestiment la longueur du segment de gauche.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly