Séance 8 : L'ANOVA à plan simple Flashcards
(36 cards)
Qu’est-ce que l’ANOVA?
Une analyse des variances. C’est une technique inférentielle qui permet
de comparer des moyennes obtenues auprès de
plusieurs échantillons (k échantillons). => une généralisation du test t pour 2 échantillons.
V ou F : L’ANOVA a la même logique que 3 tests T
Faux
À quoi correspond k?
Au nombre de groupes, soit au nombre de niveaux de traitement.
Qu’est-ce que l’ANOVA permet de vérifier?
S’il y a au moins une
différence significative entre les moyennes des différents
échantillons.
Donc, de vérifier si les différences observées entre
les moyennes des échantillons correspondent à des
différences réelles ou si elles sont attribuables au hasard
(à la fluctuation d’échantillonnage).
De quoi dépend le nom donné à l’ANOVA (à plan simple vs à mesures répétées…) ?
Du nombre de VI et VD utilisées et du type d’échantillons
Pourquoi n’est-il pas recommandé de faire une série de tests t pour voir si au moins une différence significative?
Parce que cela augmente les risques de commettre une erreur alpha (dire qu’il y a une différence mais non).
Si on fixe un niveau alpha de 0.05, il s’additionnera à chaque test (à chaque comparaison)
ex: si 3 comparaisons : 0.05 x 3 = 0,15 (15%, beaucoup!)
Comment calculer le nombre de tests possibles avec k échantillons?
k(k-1)/2
Calcule le risque de faire erreur alpha avec 4 groupes à alpha = 0,05
4(4-1)/2 = 6 tests T
0,05 x 6 = 0,3 => 30%
Comment peut être décomposé le score d’un indivu dans ANOVA à plan simple.
Xij = μ + αj + εij
où Xij = Score de l’individu i dans le niveau j; (net)
μ = Moyenne de la population (constante); (valeur théorique dans la population générale)
αj = Variabilité due à l’effet spécifique du niveau j; (effet du traitement sur le score, ex: du méd
εij = Variabilité reliée à l’individu i dans le niveau j
(erreur). (effet des autres facteurs que le traitement (diff individuelles, erreurs de mesures, distractions…) sur le score
Calcule le score de la prof qui mesure 5,6.
Xij = μ + αj + εij
Xij = 5,6 μ = 5,7 αj = -2 (ajustement du au fait d'être une femme, femme plus petites) εij = +2 (ajustement car elle elle personnellement a une différence des autres femmes)
5,6 = + 5,7 -2 +2 =
Quelles sont les hypothèses statistiques dans l’ANOVA à plan simple?
H0 : μ1 = μ2 = μ3 = μk
H1 : Il existe au moins une différence entre les moyennes
V ou F : l’ANOVA permet d’identifier où se trouve la(les) différences significatives (entre quelles moyennes)?
Fauuuuuuux, il faudra faire d’autres tests (tests de comparaison multiples)
V ou F : L’ANOVA donne les différences de moyennes, donc logiquement son test s’effectue sur les différences de moyennes.
Fauuuuuux, son résultat permet de conclure quant à des différences de moyennes, mais son calcul repose sur des comparaisons de variances (ANalysis Of VAriance)
Quelle est la logique de l’ANOVA ? Que fait-elle en gros?
Elle compare deux estimations de la variance des scores
dans la population:
-Une estimation affectée par le traitement (la VI) et l’erreur (estimé de variance Inter-groupes)
Une estimation affectée par l’erreur seulement (estimation de variance Intra-groupes)
Donc, on estime la variance des
scores de la population à
partir de deux sources
de variabilité.
Qu’est-ce que l’estimation de variance intra-groupes?
C’est la variation entre les scores à l’intérieur d’un même groupe (intra-groupes), donc obtenus après un même traitement. Ne comporte que l’erreur (associé aux différences individuelles, car différentes personnes) et pas l’effet de traitement, car ont tous reçu le même.
Qu’est-ce que l’estimé de variance inter-groupes?
C’est la variation obtenue entre les MOYENNES de chaque groupe (niveau de traitement). Affectée par l’erreur (car moyenne obtenue à partir de données ayant des différences individuelles) ET par le traitement (car chaque moyenne est associée à un différent traitement)
Qu’est-ce que le rapport F?
Un ratio à partir duquel se fait la comparaison des deux estimations de variance.
F = variation inter (traitement + erreur) /variation intra (erreur)
Si les différences de moyennes sont seulement dues à l’erreur à quoi devrait ressembler le rapport F.
Il devrait être de 1, car la variation inter devrait presque juste être du à l’erreur, donc se rapprocher de variation intra.
Si les différences de moyennes sont dues au traitement, à quoi devrait ressembler le rapport F.
Il devrait être > 1, variation inter sera plus élevée que variation intra
Toujours un peu plus grande, mais on veut savoir si la différence est significative.
Quelle est la distribution d’échantillonnage utilisée et qu’est-ce qu’on estime à partir d’elle?
La distribution d’échantillonnage de Fisher. On estime la probabilité d’obtenir la valeur F observée si la seule variabilité est l’erreur (c a d si H0 est vraie).
Comment calcule t’on le F?
Variation inter/Variation intra = CM inter/CM intra = SC inter/dl inter / Scintra/dl intra
Comment on appelle les estimations de variance dans l’ANOVA? Comment sont-ils calculés?
Dans l’ANOVA, les estimations de variance sont appelées
carrés moyens (CM ou mean squares, MS) et sont
calculées à partir de sommes de carrés (SC ou sum of
squares ou SS) divisées par les dl.
Cm inter est toujours une bonne estimation de la variabilité des scores dans la population.
Faux. Seulement si H0 est vraie, sinon les moyennes d’échantillons proviennent de populations différentes.
Qu’est-ce que le théorème de la limite centrale stipule par rapport à l’ANOVA?
En d’autres mots, le théorème de la limite centrale
stipule que la variance des scores dans la
population est égale à n fois la variance des
moyennes dans la distribution d’échantillonnage
=> plus on a d’échantillons, plus on s’approche de la variance de la pop