7. Analyse de variance (ANOVA) Flashcards

1
Q

Pourquoi ne pas répèter les t-tests?

A

Nombre comparaison augmente façon géométrique

  • Pas linéaire
  • Plus nombre échantillon augemente plus nombre comparaison augmente vite
  • Formule : (n − 1) + (n − 2) + … + 1 = nombre comparaison pour n échantillons

Augmentation nombre test augmente erreur type 1 (α)

  • α pas juste choisi pour 1 test -> devient fonction nombre comparaison
  • Puisque évènement indépendant -> probabilité 0,95^n pas rejeter H0 pour n comparaison
  • Formule : α = 1 - 95^n
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Correction de Bonferroni

A

Permet procéder comparaisons multiples
Corrige inflation risque erreur type 1
Réduit αi pour α < seuil choisi

Choisi seuil αi = α/n pour n compraraison
Donc rejette H0 si p-value individuelle compariason < α/n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

ANOVA

A

Méthode comparaison moyenne
Permet tester hypothèe nulle globale
H0 : échanitllons viennent même population/moyennes égales
H1 : échantillons viennent pas même population/au moins une moyenne différente

Partage variance totale en;

  • Variance entre valeurs dans échantillons
  • Variance entre moyennes échantillons

Mesure vairnace basé sur moyennes des carrés des écarts

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Erreur standard (SE)

A

Permet mesurer variabilité moyennes de plusieur séchantillons issus même population
2 SE permet estimer intervalle confiance 95%

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Principe ANOVA

A

Revient à comprendre que;
1. Peut estimer à partir échantillon intervalle de confiance autour moyenne devrait contenir
moyenne de population, à seuil confiance 1 - α
2. Décision moyenne estimé significativement différente valeur revient vérifier si incluse dans intervalle de confiance

Donc comparer 2 moyenne = vérifier si intervalle de confiance recoupe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Procédure : ANOVA

A
  1. Résultat attendu (moyenne identique ou non)
  2. Définir H0/H1
    H0 : moyennes égales (μ1 = μ2= … = μ)
    H1 : au moins une moyenne différentes
  3. Calcul statistique de test F (fisher)
  4. Choisi α
  5. Trouve F critique pour seuil α
    Dans table F, selon dl f et r (dl f < dl r)
  6. Conclu
    Fcal > Fcrit ou p-value < α
  7. Calcul R^2 (si désiré)

Rstudio : aov () et summary ()
- Donne p-value

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Calcul statistiques de test F

A
  1. Calcul somme des carrés (SCEt = SCEf + SCEr)
    SCEt : somme carré totale
    SCEf : somme carré factorielle
    Calcul : ∑i = ni (Yi¯ − Y¯ )^2 -> prend moyenne pondéré si n diffère entre échantillons
    SCEr : somme carré résiduelle
    Calcul : ∑i ∑j = (Yi,j − Yi¯)^2 ou ∑i = si^2 (ni - 1)
  2. Faire tableau ANOVA
    Factoriel : dl = k - 1, CMf = SCEf / dl
    Résiduel : dl = N - k, CMr = SCEr / dl
    Totale : N - 1 ou dlf + dlr
  3. Calcul F-ratio
    Formule : F = CMf / CMr

Rstudio : utilise qf (alpha, df1 = , df2 = , lower.tail = FALSE)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

SCEf vs SCEr

A

SCEf : compare moyenne groupe avec moyenne totale

SCEr : compare valeur avec moyenne propre groupe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Résidu

A

Écart entre vlauer et sa moyenne

Formule : ( Yi,j − Yi¯ )

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

F ou F-ratio

A

Suit loi densité de Fischer sous H0

Estime égalité entre 2 variances en faisant rapport
Numérateur : CMf
Dénominateur : CMr

Si H0 vrai -> CMf tend vers 0 -> F rend vers 0

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

R^2

A

Quantifie contribution variance factorielle à varianc totale
Indique propotion variabilité total due différences entre groupes

Formule : R = SCEf/SCEt

Si peut pas rejeter H0, calcul R^2 fait pas de sens
- Variance égale donc pas besoin savoir qui contribue plus

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

granovaGG

A

.lw -> ANOVA pour comparer moyennes plusieurs groupes en réponse à un facteur
Permet utiliser une commande pour résumer analyse

Fait pour nous;
1. Résumé données (section 1)
2. Test ANOVA (section 2)
Regarde dernièr eligne pour : F, dlf, dlr, p-value
3. Résume infos dans gaphique
Effectif, moyenne générale, moyenne des groupe, représentation variance (couleur
carré varie selon signification, F)
Groupe séparé selon contraste -> écart entre moyenne générale et moyenne groupe

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Test post-hoc de Tukey HSD

A

Utilisé si conditions application ANOVA respecter
Plus puissant : plus rejeter H0 si fausse, sans augmenter erreur type 1
- Seuil rejet globale reste α = 0.05

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Test post-hoc

A

Nom tests réalisés suite ANOVA (a posteriori)

Tests comapraisons multiples permettent de savoir;

  • Quelle/s moyenne/s sont différentes?
  • Quelle est l’amplitude de la différences?
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Procédure : test de Tukey

A

Utilise fonction R : TukeyHSD()
Compariaosn paires de moyennes
Retrouve : nom traitement compare, moyenne différence, intervalle confiance autour moyenne différence, p-value

p-value répond H0 : moyennes différences pas différentes de 0
Si intervalle confiance inclu 0 : p-value > α

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Effets fixe

A

Étude où catégories variable explicative pré-déterminé pour expérience

Donc facteur à effet fixe si groupes;
- Prédéfinis
- Répétables
- Intérêt majeur pour étude
Ex : dose fixe toxine, goupes individus par sexe/âge, traiytement médicaux test clinique, ...

Test : ANOVA type 1
Résultats ne peuvent pas être généralisés à toute le population
- Dû groupes fixés par expérimentateur
- Juste valide groupes étude

17
Q

Effets aléatoire

A

Donc facteur à effet aléatoire si groupes;
- Peuvent pas être prédéfinis
- Peuvent pas être répétés
Ex : famille étude épidémiologique, banc de poisson, individu étude à mesure répétées

Test : ANOVA type 2 -> pas mêmes calculs
Résultats peuvent être généralisés à toute population
- Dû aléatoire

18
Q

Conditions application ANOVA

A

Même que t-test 2 échantillons indépendants

  1. Échantillonnage indépendant/aléatoire
  2. Variables distribuées normalement
  3. Variance échanitllons similaire

Vérifie 2. et 3. sur résidu si après, possible faire directement sur données

19
Q

Analyse des résidus

A

Résidus : écarts entre valeur et sa moyenne (ϵi = Yi,j − Yi¯)
- Donc doit faire après ANOVA

Peut évaluer Normalité visuellement avec box plot;
- Quartiles symétriques
- Peu/pas valeur dépassé moustache
Plus facile compare étendue variance groupes avec résidus
- Puisque moyenne chaque groupe proche 0 -> distribution directement comparable

Test formel

  • Test Shapiro-Wilk pour normalité
  • Test Levene pour homogénéité variance
20
Q

Fonction tapply()

A

Permet appliquer fonction test à plusieurs groupes en même temps
Ex : tapply ( X = data.set,
INDEX = data.set$facteur.évalué,
FUN = shapiro.test )

21
Q

Violations conditions

A
  1. Ignore violations
    ANOVA robust malgré violation -> grâce théorème central limite
    Besoin données ;
    • ~Symétriquee
    • Sans valeurs extrèmes
    • Beaucoup d’observations (dizaines)
    • ~Égales
      Tolère différences variance jusqu’à facteur ~10
  2. Transforme données
    Log, racine carré, arcsin
    • Assure applique à tous groupes
  3. Utilise test non-paramétrique : test de Kruskall-Wallis
    Utilise si ≤5 mesures par groupe -> pas assez puissant rejet H0 pour Shapiro/Levene
22
Q

Test de Kruskall-Wallis

A

Test non-paramétrique permet tester échanitllons viennent même population
- Compare médianne échantillons
Intuitivement si distribution ~symétrique, unimodale, même médiane -> identique seuil α

H0 : médianes distrubiton égales
H1 : médiane pas égales

Formule : H = 12 / (N(N+1) * ∑i (Ri^2 / ni) − 3(N + 1)
Où, N : nombre total observation
k : nombre groupe
ni : effectif traitement i
Ri : somme rang observations traitement i

Rstudio : kruskal.test() -> obtient p-value

23
Q

Vérification formelle

A

Test Kruskall-Wallis permet par vérification formelle

Doit utiliser Mann-Whitney (tests comparaison 2 à 2 répétés) ou correction Bonferroni si veut conlure formellement