Diapo 10 Flashcards Preview

Stats > Diapo 10 > Flashcards

Flashcards in Diapo 10 Deck (29):
1

Qu’est-ce que la corrélation?

Données cardinales (ou intervalles proportionnelles) : coefficient de corrélation Pearson. Données ordinales : coefficient de corrélation Spearman. Mesure l’association entre séries de données.

2

Quelle est l’interprétation des coefficients de corrélation?

Règle de pouce. Entre 0,0 et 0,2 = aucune relation. Entre 0,1 et 0,3 = relation négligeable. Entre 0,2 et 0,4 = relation faible. Entre 0,4 et 0,7 = relation modérée. Entre 0,7 et 0,8 = relation forte. Entre 0,8 et 1,0 = relation très forte. Si c’est 1 = relation parfaite (même variable).

3

Qu’est-ce que le coefficient de corrélation (r)?

Ce paramètre statistique indique à la fois la direction et le degré de la relation existant entre deux variables quantitatives x et y. La valeur de r peut varier de -1 à +1, sans atteindre ces valeurs. Si r = 0, pas de relation linéaire entre les deux variables (il peut y avoir une relation non-linéaire). La relation linéaire est forte lorsque r approche -1 ou +1. Une valeur négative de r indique que si la valeur d’une variable augmente, celle de l’autre diminue. Au contraire, une valeur positive indique une relation directe, c’est-à-dire que l’augmentation de la valeur d’une variable est associée à une augmentation de la valeur de l’autre.

4

En résumé le coefficient de corrélation?

Associées positivement (r > 0) : plus le nombre d’heures d’étude augmente, plus le rendement augmente. Associées négativement (r < 0) : plus le nombre d’heures d’étude augmente, plus le rendement diminue. Non associées (r = 0) : le nombre d’heure d’études n’a aucune influence sur le rendement. La corrélation est une quantification de la relation linéaire entre des variables continues. Le calcul du coefficient de corrélation de Pearson repose sur le calcul de la covariance entre deux variables continues.

5

Qu’est-ce que la notion de covariance?

Pour bien comprendre le calcul du coefficient de corrélation, il est nécessaire de revenir sur le concept de covariance. La covariance est une mesure de l’association ou de la relation entre deux variables. Quand des variables covarient, un écart à la moyenne d’une variable est accompagné par un écart dans le même sens ou dans le sens opposé de l’autre pour le même sujet. Donc, pour chaque valeur qui s’écarte de la moyenne, on s’attend à trouver un écart à la moyenne pour l’autre variable. Une covariance positive indique que lorsque la valeur de la variable x augmente, la valeur de la variable y en fait de même, alors qu’une covariance négative indique que lorsque la lorsque la valeur de la variable x augmente, la valeur de la variable y diminue. Le problème avec cette formule est que la covariance dépend de l’échelle de mesure. Plus les valeurs d’une des variables sont élevées, plus la covariance sera importante. En ce sens, il est impossible de dire objectivement si la covariance entre les deux variables est large ou relativement faible à moins que l’échelle de mesure soit la même pour les deux variables mises en relation.

6

Qu’est-ce que la standardisation et le coefficient de corrélation?

Pour remédier à la situation, faire en sorte que toutes les données soient comparées à partir d’une unité de mesure en laquelle toutes les échelles de mesures peuvent être converties : l’écart-type. Nous nous rappelons que l’écart-type, comme la variance, est une mesure de la diversion des données autour de la moyenne. Lorsque nous divisons n’importe quelle distance de la moyenne par l’écart-type, nous obtenons cette distance en unités d’écart-type. Nous pouvons donc suivre la même logique pour trouver la covariance en unités d’écart-type.

7

Qu’est-ce que la logique du test en t de l’analyse de corrélation?

La statistique t correspond à une corrélation transformée. Plus la valeur absolue de t est grande, plus on croit que les deux variables sont associées (de façon positive ou négative). On conclut que la relation existe dans la population lorsque la valeur de t (selon l’hypothèse que les deux variables sont indépendantes) est trop improbable, plus précisément lorsque la probabilité d’observer une telle valeur est inférieure à 0,05 (règle de la valeur de p).

8

Quelle est l’interprétation de l’analyse de corrélation?

La corrélation est significative, on rejette l’hypothèse nulle d’absence de relation. Ceci signifie que la probabilité d’obtenir un coefficient de cette taille dans une population où ces deux variables ne sont pas reliées est de moins de 5%. Le coefficient de corrélation significatif fournit deux informations : le sens de la relation entre les variables (comme le coefficient est positif, plus l’expérience augmente, plus la productivité augmente) et la force de la relation (la taille d’effet).

9

Quel est l’analyse de la régression linéaire simple?

Ce type d’analyse est employé lorsque les deux variables sont métriques, quantitatives. On cherche à expliquer, mais aussi à prédire les valeurs de la variable dépendante à partir de celles de la variable indépendante. Il n’y a pas de différence fondamentale entre la corrélation linéaire simple et la régression linéaire simple si ce n’est que, dans le dernier cas, le chercheur veut établir un modèle de prédiction.

10

Quelles sont les prémisses de la régression linéaire simple?

(1)La distribution normale (les valeurs de la variable dépendante sont normalement distribuées). (2) Homogénéité des variances (la variance dans la distribution de la variable dépendante doit être constante pour toutes les valeurs de la variable indépendante). (3) Le prédicteur (la variable indépendante) doit présenter une certaine variance dans les données (pas de variance nulle). (4) Le prédicteur n’est pas corrélé à des variables externes (qui n’ont pas été intégrées au modèle) qui influencent la variable dépendante. (5) Homoscédasticité (pour toutes les valeurs du prédicteurs, la variance des résiduels (erreur de mesure) est homogène. Cette prémisse peut être vérifiée par l’examen du nuage de points du croisement entre les valeurs prédites standardisées et les résiduels standardisés. Ce graphique peut être réalisé à partir du bouton Plots de la boîte de dialogue principale de la régression.

11

Que signifie la prémisse distribution normale et aléatoire des résiduels?

Cette prémisse signifie que la différence entre le modèle et les valeurs observées sont près de zéro. Elle peut être vérifiée par l’examen du nuage de points qui a servi à vérifier la prémisse d’homoscédasticité.

12

Comment les valeurs de la variable dépendante sont indépendantes?

Chaque valeur de la variable dépendante vient d’une observation distincte. Les observations ne sont pas reliées entre elles.

13

Comment est la relation linéaire entre la variable indépendante et la variable dépendante?

La relation modélisée est linéaire. Cette prémisse peut être vérifiée par le nuage de points du croisement entre ces deux variables.

14

Qu’est-ce que l’estimation du modèle de l’analyse de régression simple?

L’estimation du modèle consiste à trouver les valeurs de a et b qui conduisent à la meilleure prédiction possible des valeurs de la variable dépendante. C’est ce qu’on appelle l’estimation par moindres carrés.

15

Qu’est-ce que la qualité du modèle?

On définit les trois sommes des carrés suivantes : la somme des carrés de l’erreur, la somme des carrés de la régression et la somme des carrés totale.

16

Qu’est-ce que le test en F de la qualité du modèle dans l’analyse de régression linéaire simple?

On peut tester la qualité du modèle à l’aide de la statistique F. La statistique F correspond au rapport entre la variance expliquée et la variance d’erreur. Plus la valeur de F est grande, plus on croit que les deux variables sont associées. On conclut que la relation existe dans la population lorsque la valeur de G (selon l’hypothèse que les deux variables sont indépendantes) est trop improbable, plus précisément lorsque la probabilité d’observer une telle valeur est inférieure à 0,05 (règle de la valeur p).

17

Qu’est-ce que la force de la relation de la qualité du modèle dans l’analyse de régression linéaire simple?

On définit le coefficient de détermination comme le rapport entre la somme des carrés de la régression et la somme des carrés totale. Ce coefficient représente la proportion de la variation de la variable dépendante expliquée par la variable indépendante. En extrayant la racine carrée du coefficient de détermination, on définit un indice de force de relation qu’on appelle le coefficient de corrélation multiple. On peut utiliser le schéma d’interprétation de V.

18

Quelle est l’étape 1 de l’interprétation?

Évaluer la qualité d’ajustement du modèle de régression avec prédicteur.

19

Que comprend l’étape 1 de l’interprétation?

La somme des carrés représente l’amélioration due à l’ajout d’une variable indépendante. Elle représente la différence entre le modèle sans prédicteur et celui avec un prédicteur et s’appelle somme des carrés du modèle. C’est en fait la soustraction entre variation totale et résiduel. Lorsque cette somme est très différente de la somme totale, l’ajout de la variable a grandement amélioré le modèle. Une somme plus modeste indiquerait que l’ajout de cette variable indépendante n’a pas permis de mieux expliquer la variabilité de y. La manière de représenter cette amélioration est de faire le rapport entre la somme des carrés du modèle avec prédicteur et la somme des carrés du modèle sans prédicteur. Le résultat de ce rapport est appelé R2 et sert à exprimer en pourcentage (lorsque multiplié par 100) la proportion de variance de y est qui est expliquée par le modèle par rapport à la quantité de variance qu’il y avait à expliquer au départ.

20

Quelle est l’étape 2 de l’interprétation?

Évaluation de l’ajustement de la droite de régression aux données.

21

Que comprend l’étape 2 de l’interprétation?

La statistique la plus utilisée pour ce travail est le coefficient de corrélation de Pearson. Dans le cas d’une relation linéaire parfaite, le coefficient de corrélation et son carré (R2) seraient tous deux de 1. Quand tous les points ne tombent pas parfaitement sur la droite, il est possible de calculer la proportion de la variabilité de la variable dépendante expliquée par le modèle de régression. Autrement dit, il n’y aurait pas de différence entre la somme des carrés totale et la somme des carrées du modèle. Par conséquent, le rapport entre les deux donnerait 1. Le modèle expliquerait parfaitement chaque valeur y sans résiduel.

22

Quelle est l’étape 3 de l’interprétation?

Estimation de la variabilité expliquée par le modèle.

23

Que comprend l’étape 3 de l’interprétation?

En dernier lieu, il faut évaluer la proportion de la variabilité totale qui est expliquée par le modèle de régression. En fait, la modélisation par régression tient en trois éléments interreliés qui se trouvent invariablement dans tous les modèles de régression simple ou multiple : la variabilité totale (c’est la variance de la variable dépendante que nous cherchons à expliquer (sans aucun prédicteur), la variabilité expliquée par le modèle (c’est la partie de la variance totale qui est expliquée par l’ajout d’un prédicteur, c’est-à-dire la construction d’un modèle) et la variabilité non expliquée par le modèle (c’est la partie de la variance qui n’est pas expliquée par le modèle et qui reste donc à expliquer avec d’autres variables indépendantes. De ces éléments, on tire deux informations fondamentales en régression, soit : la proportion de variance expliquée par le modèle (plus la proportion est élevée, plus le modèle est puissant. L’inverse est aussi vrai) et la proportion de variance non expliquée par le modèle (variance résiduelle).

24

Comment se fait l’évaluation de la pertinence du modèle de régression?

Vérifier si le modèle avec prédicteur explique significativement plus de variabilité de la variable dépendante qu’un modèle sans prédicteur. Le tableau anova permet cette analyse. Autrement dit, dans notre cas, le tableau 1 montre que l’hypothèse nulle doit être rejetée, donc il y a une relation entre l’expérience et la productivité et que cette relation n’est due au hasard, car il est probable que l’on ne retrouve pas cette relation dans la population globale à l’étude à moins de 5%.

25

Comment se fait l’évaluation de l’ajustement des données au modèle de régression?

Il est possible de quantifier dans quelle mesure le modèle représente bien la dispersion des points dans le graphique. Cette information se trouve dans le tableau 2 avec l’indice R qui présente la valeur de la corrélation multiple du modèle. La corrélation multiple (R) s’interprète de la même manière que la corrélation simple (r). Elle représente la corrélation combinée de toutes les variables indépendantes d’un modèle avec la variable dépendante. Comme nous n’avons ici qu’une seule variable indépendante, ce coefficient est identique (en valeur absolue) au coefficient de corrélation (r).

26

Comment se fait l’évaluation de la variabilité expliquée par le modèle de régression?

On doit rapporter la proportion de la variance totale qui est expliquée par le modèle. Cette information se trouve dans le tableau 2 sous la colonne R-deux. Dans notre exemple, la valeur de R2 est très élevée. En effet, le modèle de régression explique avec une seule variable près de 93% de la variabilité de la productivité.

27

Quels sont les paramètres du modèle?

Le tableau 3 donne les paramètres de l’équation du modèle de régression nécessaires pour construire la droite de régression (on utilise les coefficients B (Beta) non standardisés). Ce tableau est très utile dans les cas de régression multiple, car il permet de déterminer laquelle ou lesquelles des variables indépendantes contribuent significativement au modèle. Les variables significatives sont celles qui contribuent au fait que le modèle global apporte une amélioration significative de l’explication de la variabilité de la variable dépendante. Les coefficients standardisés permettent de connaître le sens de la relation entre chaque prédicteur et la variable dépendante (relation positive ou négative) et la valeur absolue des coefficients standardisés significatif permet de déterminer le poids relatif des variables dans le modèle.

28

Quelle est l’équation de la régression?

Y = a+bX1 + e.

29

Quelle sont les conclusions sur l’analyse statistique bivariée?

L’importance de l’interprétation. La signification statistique par opposition à la signification pratique. Les relations non significatives. La force de relation.