8. Relations entre variables numériques: corrélation Flashcards

1
Q

2 type d’hypothèses étudiées en statistique inférentielle

A
  1. Pour savoir si DIFFÉRENCE entre groupes de données
    Ajustement χ^2 : proportions d’échantillons
    t-test : moyennes 2 écanchtillons
    Shapiro-Wilk : distribution échanitllon vs distribution normale
    Rangs signés Wilcoxon : moyennes si violation conditions t-test
    ANOVA : moyennes >2 échanitllons
  2. Pour savoir si RELATION entre 2 variable ou +
    Test indépendance χ^2
    Test Pearson
    Test Spearman
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Série statistiques doubles

A

Déf : analyse simultané 2 variable mesuré sur même unité échantillonnage

Au moins une variable aléatoire;
- 1 aléatoire/1 contrôlée
Ex : production chrlorophyle/éclairement
- 2 aléatoires
Ex : récolte maïs/nombre jour ensoleillé

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Variance

A

Représente moyenne des carrés des écarts par rapport moyenne groupe
Formule : S^2 = ∑ ((yi − Y¯)^2) / (n − 1)
Retir 1 degré de liberté pour corriger biais dû estimation (Y¯)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Covariance

A

Permet quantifier force/direction (+ ou -) de association entre 2 variables numériques
Formule : ℂov (X,Y) = (1 / n−1) * ∑ (xi − X¯)*(yi − Y¯)

Vs variance : pas carré écart pour une variable
Peut être négative ou positive
- Élevé/positive -> déviation X et Y varie ensemble
- Élevé/négative -> déviation X et Y varie façon opposé
- Nulle -> X et Y varie façon indépendante

Remarques

  • Cov commutative : ℂov(X,Y) = ℂov(Y,X)
  • X¯ et Y¯ ont même n
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Corrélation Pearson

A

Unité covariance pas intuitive
Permettent pas bien visualier relation
-> Utilise coefficient corrélation Pearson (rxy)

Coefficient corrélation Pearson : standardisation covarience avec écarts-types échantillon
Formule : rxy = ℂov(X,Y) / (Sx * Sy) = ∑(xi − X¯)(yi − Y¯) / √(∑(xi − X¯)^2) √(∑(yi − Y¯)^2
Si X = Y -> ℂov (X,Y) = Sx * Sy
Obtien rxy = 1

Varie entre −1 ≤ rxy ≤ 1

  • rxy = -1 -> varie proportions exactement opposées (corréalation parfaite négative)
  • rxy = 0 -> aucune corrélation (indépendante)
  • rxy = 1 -> varie exactement mêmes proportions (corréalation parfaite positive)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Remarques : corrélation Pearson

A

Utilise parfois ρ (rho) pour resprésenter

Coefficient corrélation = mesure dépendance linéaire

rxy/ρ mesure si X et Y varie ensemble, pas combien X et Y varie
Régression linéaire permet calculer combien

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Procédure calcul coefficient corrélation Pearson (rxy/ρ)

A
  1. Analyse primaire données
    Permet visualiser relation entre 2 variables -> donne idée linéarité relation
    Avec : plot () -> fait scatter plot
  2. Calcul coefficient corrélation
    Manuellement ou avec cor ()/cor.test ()
  3. Test d’hypothèse
    H0 : pas lien/relation (ρ=0)
    H1 : lien/relation (bilatéral, ρ≠0) ou varient ensemble/opposé (unilatéral, ρ>0/ρ<0)
    Fixe α
    Statistique de test t -> formule : t = rxy/SEr où SEr = √ (( 1 − rxy^2) / ( n − 2 ))
    Trouve t crit selon dl = n-2 et α
  4. Conlusion
    Avec t crit/t cal ou p-value
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Conclusion test corrélation Pearson

A

Avec t crit/t cal : rejet H0 si ou | tcal | > tcrit

Avec p-value : rejet H0 si p-value < α

Intervalle de confiance doit pas inclure 0 pour conlure corrélation
Donne idées conclusion (permet présumer)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Conditions applications Pearson

A
  1. Échantillonnage indépendant/aléatoire
  2. Mesures X et Y suivent distribution Normale bivariée
    Donc, X/Y individuellement distribuée normalement et relation linéaire entre

Très sensible présence valeurs extrêmes/aberrantes (outliers)
Doit tester normalité avec Shapiro-Wilk

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Violations conditions applications

A
  1. Ignore violations
    Peut parfois rejeter valeurs extrêmes si issues erreurs ou non importantes
    Peut conserver si désire aussi
  2. Transforme données (log, racine carré, arcsin)
    Peut appliquer juste une des 2 distributions -> ex : si juste une par Normale
  3. Utilise statistique/test non-paramétrique : coefficient corrélation Spearman
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Sensibilité valeurs extrêmes : Pearson

A

Mesures corrélation faites avec coefficient Pearson très sensibles valeurs extrêmes
2 valeurs extrêmes suffisantes réduire grandement coefficient

Rapidement impossible rejeter H0 : corrélation pas différente de 0 (ρ = 0)
Soit p-value > α, intervalle confiance inclu 0 et rxy bas

Doit utiliser coefficent corrélation Spearman

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Coefficient corrélation Spearman

A

Travail sur rangs
Beaucoup moins sensible valeurs extrèmes
Valeurs rxyS demeurent stables malgré outliers

Même formule que Pearson mais sur rangs
Formule : rs = ∑(Ri − R¯)(Si − S¯) / √(∑(Ri − R¯)^2) √(∑(Si − S¯)^2

Même interprétation que Pearson : −1≤ ρs ≤ 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Procédures : test hypothès r de Spearman

A
  1. Pose H0/H1
    H0 : pas relation/corrélation (ρs = 0)
    H1 : lien/relation (bilatéral, ρs ≠ 0) ou varie ensemble/opposé (unilatéral, ρs > 0/ρs < 0)
  2. Fixe α
  3. Statistiques des test -> 2 possibles
    Nombre total obersation n < 100 : compare rscal à rscrit (table de Spearman)
    Nombre total obersation n > 100 : calcul t avec rs
  4. Conclusion
    Compare rscal/rscrit ou tcal/tcrit
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Conditions appilcations Spearman

A
  1. Échantilonnage indépendant/aléatoire

2. Mesures X/Y ont relation linéaire

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Matrice de corrélation

A

Recense valeurs coefficient corrélation entre multiples variables mesurées lors même échantillonnage
Pour n variable (n*(n -1 ))/2 coefficients

Diagonale matrice toujours 1 -> corrélation vairable avec elle-même
Symétrique -> rempli juste partie supérieure ou inférieure

Utile analyse régression multiples lors colinéarité entre diverses variables explicatives est problématique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Corrélation ≠ causalité

A

Corrélation possède aucon pouvoir explicatif/prédictif sur relation
Renseigne par sur causalité

Pourquoi difficle par voir causalité où corrélation

  1. Mauvaise compréhension notion corrélation/causalité
  2. Évolué pour reconnaitre patron/créer associations
17
Q

Causalité

A

Pour démontrer relation cause à effet doit pouvoir;

  1. Manipuler cause (expériences)
  2. Mesurer effets
  3. Contrôler autres variables
  4. Tester probabilités résultats dû hasard
Si corrélation entre X/Y ->3 possibilités;
1. X cause Y
2. Y cause X
3. X et Y causer 3e facteru (Z)
     Cas corrélation partielle
18
Q

Corrélation partielle

A

Cas où 2 variable semble fortement liées mais lien repose intervention 3e variable (Z)

Analyse corrélation corrige problème
Permet mesure lien en annulant Z
Parle « variable de contrôle »

Formule : rAB,C = (rAB − rAC × rBC) / (√(1 − rAC^2) * √(1 − rBC^2))
Permet connaitre valeur corrélation entre A/B sans effet C
Doit calculer r entre différentes variables
Avec Pearson OU Spearman

Utilise fontion pcor.test () ou ppcor ()