Chapitre 12 Flashcards
(13 cards)
Qu’est-ce qu’une corrélation. Quel est son symbole ?
Mesure de l’intensité de la relation linéaire entre deux variables.
Symbole: r, coefficient de corrélation: mesure étroitesse de la relation
Pas de dépendance (variable dépendante - indépendante)
> 0: cor. positive
< 0: cor. négative
0 : aucune corrélation
Entre -1 et 1
Qu’est-ce qu’une régression?
Mesure la quantité de changement observée chez une variable en relation avec un changement chez une autre variable.
Équation de régression
Nature de la relation (dépendant - indépendant)
r^2, coefficient de détermination: explique le % de variation de Y expliqué par x
On veut décrire le changement de Y en fonction du changement dans x
Définir le concept de coefficient de corrélation
Symbole: r
Mesure étroitesse de la relation (association) entre deux variables.
Pas de relation assumée entre variables
Expliquer la relation entre corrélation et la régressions
coeff corrélation ^2 = coeff régression
Interpréter les résultats suite au calcul du coefficient de corrélation. Nb dl minimum ?
La signification du coef r varie en fonction du nb de dl. Plus dl est élevé, plus le coeff de corrélation peut être bas afin d’être significatif
30dl minimum pour obtenir une valeur significative au niveau alpha = 0,05
Identifier les mauvaises interprétations du coefficient de corrélation souvent rencontrés dans la littérature
Pour relation linéaire, donc l’absence d’effet linéaire ne veut pas dire qu’il n’y a aucune autre relation (ex. quadratique)
Une corrélation linéaire significative ne veut pas dire qu’il existe une relation de cause à effet
L’importance entre 2 var n’est pas directement proportionnel à la valeur du r. Il faut plutôt le transformer en r^2
Une corrélation ente un tout et l’une de ses parties, c’est sûr qu’il existe une relation
Différence entre coefficients de corrélation de Pearson et de Sperman
Pearson (paramétrique) pour variables distribués selon loi normal
Spearman (non paramétrique) pour variables non distribués selon loi normal
En quoi consiste la régression ?
Prédire les données en passant une droite dans les résultats en essayant de minimiser la somme des erreurs.
Identifier les sources de variation et décomposer les dl d’une analyse de régression
Sources de variation:
- Régression (1dl)
- Erreur (total dl -1)
- Totale (somme)
Être capable d’illustrer graphiquement la corrélation entre deux variables quantitatives
Pente positif= r>0
Pente négatif= r<0
Aucune corrélation=0
Plus le nuage de point est éparpillé, moins il y a de corrélation
Expliquer les dangers reliés à l’extrapolation lors de l’interprétation d’une courbe de régression
La régression est utile pour prédire la valeur à l’intérieur même de l’étendu des données (interpolation)
Lorsqu’on s’éloigne du centre de la régression, l’erreur dans la prédiction des données augmente considérablement, donc lorsqu’on effectue un extrapolation, l’erreur attendu sera élevée, donc peu exacte
Quels sont les types de sommes des carrés et quels sont les plus fréquents?
Type:
I - sommes des carrés séquentielle
II - Somme des carrés de type « chacun des facteurs après tous les autres »
III - Somme des carrés associées aux restrictions sigma
IV - Somme des carrés correspondant à des hypothèses déterminées par la procédure GLM
Plus fréquents I et III
Expliquer les principales différences entre les quatre types de sommes des carrés
I: Les variables sont ajoutés de façon séquentielle au modèle (effet xi sur Y, un après l’autre). Utile pour l’analyse de modèles emboités (nichés), de modèles polynomiaux, et pour certains tests portant sur l’homogénéité des coefficients de régression
II: Pas d’interaction entre facteurs
III: comme I, mais ordre n’a pas d’importance
IV: Avec cellules vides dans les données