COURS 5 Flashcards
(40 cards)
Donne des exemples de corrélation dans la vie de tous les jours.
▫ Plus la température est basse (froide), plus les gens portent de couches
de vêtements (association /corrélation négative).
▫ Plus l’on s’éloigne de l’heure de pointe de circulation, moins nombreux sont les autobus (association/corrélation négative).
▫ Plus l’âge d’un individu avance, plus il est susceptible de répondre
positivement à un questionnaire de satisfaction (association/corrélation
positive)
▫ Plus la satisfaction avec le salaire (x) est élevée, plus grand
grands est le désir de conserver son emploi (y).
▫ Plus une personne a accumulé d’années d’ancienneté (x), plus
elle aura de journées de vacances (y).
▫ Un climat de travail positif (x) est associé à une réduction des
comportements d’harcèlement (y)
les associations proviennent de quel concept?
les corrélations.
exemple d’étude/corrélation en psychologie
- La relation entre la vie familiale et le bien être psychologique.
- La relation entre la vie au travail et la vie hors travail.
- La relation entre le soutien social et la dépression.
- La relation entre la consommation de substance et certains troubles
neuropsychologiques.
Quelles sont les origines de la corrélation?
▫ Le concept de corrélation a été mis de l’avant
par Sir Francis Galton, dans les années 1800.
- Statisticien, sociologue, anthropologue,
psychologue, psychométricien, etc…
▫ Karl Pearson a raffiné le concept et sa
mathématique.
- Mathématicien (mathématique statistique).
- Corrélation simple, bivariée, ordre zéro ou
linéaire (synonymes).
Quelles sont les caractéristiques de la corrélation?
▫ La corrélation ne se calcule qu’à partir de deux variables, qui sont par
convention ici identifiées par x et y.
▫ Elle exige que chaque observation produit une valeur sur x et une
valeur sur y (impossible de la calculer si l’une des deux valeurs est
manquante).
▫ Il existe plusieurs types de corrélations (modèles / formules).
▫ La plus fréquente, la corrélation de Pearson, s’identifie par le symbole
« r » et se note rxy (la corrélation entre x et y)
pourquoi les corrélations sont importantes?
Elle réduit l’incertitude : la connaissance de x nous fournit de l’information sur y.
Comment s’habiller ?
▫ En observant que les passants portent un manteau (x), nous sommes « plus » enclin a croire qu’il fait
froid (y)!
Le transport en commun
▫ Si j’attends l’autobus a 17:00 (x) plutôt qu’a minuit, il est probable que mon temps d’attente (y) sera
plus court.
Au travail
▫ Si j’observe des pratiques de reconnaissance de la part de mes collègues (x) ou de mes supérieurs (un
autre x), plus j’ai de chances d’être satisfait dans cet emploi (y).
▫ Connaissant x il est possible d’estimer y (et vice-versa)
Quelles sont les deux caractéristiques indépendantes de la corrélation?
1)Taille = la corrélation forte, modérée, faible, etc.
2) Direction = positive ou négative
Plus élevée est la corrélation (taille), plus la connaissance de x nous
renseigne sur y.
▫ Une corrélation négative ne veut pas dire que la corrélation est faible.
▫ Une corrélation négative est aussi intéressante qu’une corrélation
positive
comment la corrélation peut varier (deux caractéristiques)
1) Taille: les valeurs de rxy s’étalent entre très faibles et fortes
- Plus « forte » est la rxy, plus grande la réduction de l’incertitude de y
à partir de la connaissance de x et vice-versa.
2) Direction: rxy peut être positive ou négative.
- rxy « positive » : des valeurs élevées sur x sont associées à des
valeurs élevées sur y et vice-versa.
- rxy « négative » : des valeurs élevées sur x sont associées à des
valeurs faibles sur y et vice-versa
est-ce que la corrélation est une similarité entre deux variables
L’observation d’une rxy implique que les
unités d’analyse tendent a produire des valeurs « similaires » (relation +) ou des valeurs inversées (relation-) sur deux
variables.
définition de valeur similaire?
lorsque les valeurs de x sont identiques aux valeurs de y.
Rxy est élevé (similitude élevée) car la position des observations
demeure identique sur x et sur y.
Définition de valeurs inverses?
lorsque les valeurs de x et y sont inversés.
Ex:
observation A x=5 y=1
observation E x=1 y=5
définition de Rxy
rxy = le degré moyen avec lequel les
observations occupent une position
similaire (ou inversée) sur x et y
définition de position similaire?
Position similaire = position des observations par rapport aux
Moy des variables.
▫ rxy + (similaire) : les observations situées au-dessus de Moy(x) sont
aussi situées au-dessus de Moy(y) et vice-versa.
▫ rxy – (similaire, mais inversée) : les observations situées au
dessus de Moyx sont situées en dessous de Moy(y) et vice-versa.
Comment calculer la position?
Pour calculer rxy il faut établir, pour chaque observation, sa position sur x et sur y.
Quelle est la formule de Rxy
r= sigma (zx * zy)/n-1
zx = position de x
(zx * zy) = la similarité entre x et y de chaque observation
Convertir chaque observation en score-z (ou le faire à l’aide de R ou SPSS.
▫ Calculer le produit zx * zy pour chaque observation.
▫ Calculer la somme de ces produits S(zx * zy).
▫ Calculer la moyenne (en divisant par n - 1)
-La corrélation de Pearson est donc le degré moyen de similarité entre la
position (z) des observations
définition de corrélation?
indice standardisé de la relation entre x et y.
- La position sur x et y est établie avec des scorez-z.
- Une distribution en z est standardisée.
Le degré moyen standardisé avec
lequel les observations occupent une
position similaire (ou inversée) sur x et y
Pourquoi faut-il standardisé nos variables dans une corrélation?
Rappelez-vous. Il faut standardiser pour que nos variables, sur des
échelles différentes puisse « se parler » et donc être comparées (ex.:
comparer la performance à un examen de mathématiques sur 100
VS un examen de langue elfique sur 20).
Une corrélation de même taille veut dire exactement la même
chose peu importe les variables. Les corrélations peuvent être
comparées entre elles
qu’est-ce qu’une corrélation parfaite?
rxy =1,0.
La corrélation est parfaite lorsque toutes les observations sont a la
même position (z) sur x et y (valeur numérique de la corrélation = 1,0).
Qu’est-ce qu’une corrélation pas parfaite?
La corrélation n’est pas parfaite lorsque au moins une observation
n’est pas a la même position (z) sur x et y (valeur numérique plus
petite que 1,0).
Qu’est-ce qu’une corrélation faible?
La corrélation est « faible » lorsque les observations ne sont pas situées (z) de manière similaire sur x et y (valeur numérique près
de 0).
comment connaitre la direction de la relation Rxy?
-Lorsque les valeurs zx et zy des observations sont du même
signe (+, -) le produit (zx * zy) et rxy sont positifs.
-Lorsque les valeurs zx et zy détiennent des signes opposés le produit (zx * zy) et rxy sont négatifs.
-Lorsque le signe des valeurs zx et zy est aléatoirement le
même ou différent, le produit (zx * zy) est parfois positif, parfois négatif. La sommation S(zx * zy) causera une annulation du produit… rxy s’approchera de zéro.
Quelles sont les valeurs limites de la corrélation?
Valeurs limites : -1 à +1 en passant par 0.
+1,0 : maximum supérieur possible ; la position des
observations sur X et Y est identique.
-1,0 : maximum inférieur possible ; la position des
observations sur X et Y est inversée.
0,0 : corrélation nulle ; la position des observations sur x et y est aléatoire
Quelles sont les limites du calcul de la corrélation (r)?
▫ Ne peut être calculé que pour deux variables à la fois (on peut produire une matrice, mais les corrélations sont calculées par paires de variables).
▫ Exige que nous ayons pour chaque observation (x et y) deux valeurs : une
sur x, l’autre sur y (impossible de calculer pour cette observation s’il y a une des deux valeurs manquantes).
▫ La corrélation nous indique la relation entre les variables et non la
relation entre les observations.
▫ Il faut un minimum de trois observations pour la calculer. Mais comme pour l’ensemble des statistiques paramétriques, un n
d’au moins 30 est souhaitable.
Quels sont les 4 postulats (assummptions) (influence la taille des r)
- Le degré de relation entre x et y qui existe en réalité (est-ce pertinent ?).
- La « linéarité » de la relation x et y.
- Le niveau de variance de x et de y (homogénéité des variances ou variances
homogènes VS variance restreinte). - Les observations situées loin de Moyx et/ou Moy(y) (valeurs extrêmes ou « outliers »): normalité.