Estimation des paramètres Flashcards

Question 1

Q

Qu’est-ce que la moyenne permet de calculer?

Answer

A

-À partir de mesures cardinales
-À partir de variables nominales à 2 catégories
EX: statut de séropositivté ou vivre sous le seuil de la pauvreté

Question 2

Q

Quelles sont les 2 façons de faire de l’inférence?

Answer

A

-Intervalle de confiance
-Test d’hypothèse

Question 3

Q

Qu’est-ce qu’un intervalle de confiance?

Answer

A

-Correspond à une gamme de valeurs dans laquelle devrait se trouver le paramètre de la population.
-On identifie les bornes que représentent les valeurs probables de la moyenne de la population autour de la moyenne estimée par l’échantillon.
-Bornes = valeurs au-dessus et en-dessous de la moyenne de l’échantillon. Aussi appelées limites de confiance. Calculées à partir de la moyenne de l’échantillonnage et son écart-type.
→Bornes inférieure: IC =𝑥̅ -Z (ETm)
→Borne supérieure: IC =𝑥̅ +Z (ETm)
⇒Niveau de certitude souhaité, choix du scientifique: 90%, 95% (1,96 d’écart-type), 99%

Question 4

Q

Quelles sont les situations qui nous permettent de statuer d’une différence avec une IC ou non? (2) et celle qui le permet pas?

Answer

A

→Des 3 situations: seulement les 2 premières permettent de statuer sur la présence ou absence de différence
1.Les IC ne se chevauchent pas: il est fort probable qu’il y ait une différence
2.La moyenne de chacun des groupes est incluse dans l’IC de l’autre groupe: il est fort probable qu’il n’y ait PAS de différence
3.Les IC se chevauchent mais la moyenne d’un groupe n’est pas incluse dans l’IC de l’autre groupe: impossible de conclure → il faut faire un test d’hypothèse.

Question 5

Q

Qu’est-ce qu’un test d’hypothèse?

Answer

A

-‘’Procédé employé en inférence statistique qui permet de faire un choix, non sans risque de se tromper, entre eux hypothèses contraires sur la base d’une ou de plusieurs échantillons aléatoire’’(fortin)
→hypothèse nulle (H0) : présume de l’absence d’effet d’un facteur, de relation entre les variables (ex. différence observée = effet du hasard et non du facteur à l’étude)
-Parce que la démarche statistique porte sur l’hypothèse nulle (H0), l’hypothèse de recherche (H1) est appelée hypothèse alternative (aussi hypothèse rivale ou contre-hypothèse). C’est seulement l’hypothèse nulle qui fait l’objet d’une vérification statistique.

-Un test d’hypothèse utilise les probabilités différemment ≈ renverse la logique →risque d’erreur au lieu de niveau de confiance
-Ex.: Au lieu de dire « Je suis certaine à 95% que… », la chercheure dira plutôt « j’ai 5% de chances de me tromper ».

Question 6

Q

Quels sont les types d’erreurs dans le test d’hypothèse?

Answer

A

Erreur de type I (ou 1ere espèce) : probabilité de rejeter H0 alors qu’elle est vraie en réalité (notée α).
-Liée au hasard: variabilité inhérente à l’échantillonnage
→Seuil (alpha) comparé à la valeur p du test → qu’on détermine (ex: 5%, = 0,05)
-Seuil de signification ou (alpha) = la probabilité (p) de rejeter l’hypothèse nulle alors qu’elle est vraie. Détermine le niveau de risque qu’on est prêt à tolérer en rejetant erronément l’hypothèse nulle.
-Valeur p: probabilité qu’une différence soit attribuable au hasard. Probabilité que Ho soit vraie. → Valeur P est calculée par un logiciel
⇒Le risque de commettre cette erreur s’appelle alpha
Erreur de type II (ou 2e espèce) : probabilité d’accepter H0 alors qu’elle est fausse en réalité (notée β).
-Liée à la puissance statistique (1-) de l’étude → capacité à prendre une décision statistique (à détecter une différence réelle) et rejeter correctement l’hypothèse nulle.
+la puisse statistique est élevée, - il y a de risque de commettre une erreur de type II.

Question 7

Q

Quels sont les 3 tests d’hypothèse?

Answer

A

1-Test Z (1 échantillon, pour + que n =30)

2-Test t: 1 échantillon, 2 échantillons indépendants ou appariés = différence entre les moyennes de 2 groupe relativement à une variable aléatoire continue.

3-Anova: plusieurs échantillons (2+)

Question 8

Q

Qu’est-ce que le test Z?

Answer

A

-Test d’hypothèse qui utilise la valeur Z pour associer une probabilité à une condition décrite par l’hypothèse nulle.
-On rejette Ho quand la valeur de p est inférieure au seuil (alpha)
-La valeur p du test nous renseigne sur la probabilité que H0 soit vraie (c.-à-d. que l’écart entre les deux moyennes soit l’effet du hasard et qu’en réalité, les deux moyennes soient égales). → inférieure au niveau de signification (α=0,05) → rejet de H0
-Valeur critique: est la valeur tirée d’une table statistique, qui délimite les zones de rejet et de non-rejet de l’hypothèse nulle.

⇒ Une autre façon de faire le test aurait été de trouver la valeur Z correspondante au niveau de signification (α=0,05), soit 1,64 → Z calculé > Z critique (1,73 > 1,64)= rejet de H0

→µ > A Unilatéral à droite : zone de rejet est située à l’extrémité droite de la courbe normale centrée réduite
→µ < A Unilatéral à gauche
⇒ Les deux sont normalement employés pour des hypothèses directionnelles.
→µ ≠ A Bilatéral: Si impossible de prédire une direction pour H1 (donc seuil alpha divisée de chaque côté, ex: seuil 5% = 2,5% de chaque côté)

Question 9

Q

Qu’est-ce que le test t?

Answer

A

-Test paramétrique qui sert à déterminer la différence entre les moyennes (mesures continues) de deux populations relativement à une variable aléatoire continue.
-Utilisé pour 1 échantillon quand en bas de 30 (n). Peut-être +, mais en bas de 30 Z ≠ fiable DONC on utilise T.
-On utilise aussi une table pour associer une valeur X avec une probabilité.
-Les degrés de libertés (DL) sont utilisés pour lire la table (habituellement n-1)

→1 échantillon: Le test se fait de la même manière qu’un test Z t = x - s/n
→2 échantillons indépendants:
Sert à vérifier si le fait d’appartenir au groupe expérimental plutôt qu’au groupe de contrôle a une influence sur la variable continue, c’est-à-dire sur la variable dépendante.

→2 échantillons appariés:
Quand on veut étudier le comportement d’une variable continue qui a été évaluée à deux occasions auprès d’un même groupe de personnes.

où covx1x2 = covariance des deux → échantillons décrit la relation entre les deux distributions

-Si la valeur t calculée est + grande que la valeur critique, l’hypothèse nulle est rejetée, et la différence entre les moyennes des valeurs de chacun des deux groupes est considérée comme significative du point de vue statistique.

Question 10

Q

Quand est-ce que t tend à augmenter?

Answer

A

Ainsi, t tend à augmenter lorsque
* la différence entre les moyennes augmente
* la variance diminue
* la taille des échantillons augmente

Question 11

Q

Test Anova?

Answer

A

Sert à déterminer les différences entre 2 groupes ou + en comparant la variation au sein de chaque groupe (intragroupe) avec celle qui existe entre les groupes (intergroupes).
-Anova peut inclure un facteur ou +. Un facteur = variable dont on cherche à connaître les effets sur une variable donnée.
-ANalysis Of Variance : permet de comparer plus de 2 groupes
-La comparaison des groupes est faite en comparant les variances inter-groupes et intra-groupes
-La statistique calculée s’exprime en valeur F.
-Degrés de liberté
* dl inter = nb de groupes - 1
* dl intra = nb total d’observation - nb de groupes

F ↗ quand variance inter-groupe > variance intra-groupe * donc, plus les groupes seront différents entre eux, plus F ↗

Hypothèses:
* H0 : µ1 = µ2 = µ3 = µ4
* H1 : un des groupes est différent
Rejet de H0 : F calculé > F critique

Question 12

Q

Qu’est-ce qu’une mesure d’association?

Answer

A

-Association = Covariation entre 2 variables → si le devis de recherche le permet, servira à inférer sur l’existence d’une relation causale.
-La probabilité d’observer une valeur sur X est liée à la probabilité d’observer une valeur sur Y.
-Les types de devis permettent de voir s’il y a antécédence.

▻ Corrélation:
-Les coefficients de corrélation sont utilisés pour décrire quantitativement la force et la direction d’une relation entre 2 variables. Soit par coefficient de Pearson ou Spearman.

Question 13

Q

Quels sont les 3 test de corrélation?

Answer

A

-Coefficient de Pearson (variables cardinales continues)
-Coefficient de détermination
-Khi 2 (2 variables catégorielles)

Question 14

Q

Qu’est-ce que le coefficient de Pearson (r)?

Answer

A

→Coefficient de Pearson (r) : Variables cardinales (continues) est la mesure la + courante →pas possible de porter un jugement causale → mais avec devis oui
-Dans la corrélation de Pearson, la relation est normalement linéaire, c’est-à-dire que les scores de chaque participant sont distribués dans un graphique et tendent à former une ligne qui passe ds le nuage de points.
-Nuage de points (aussi appelé diagramme de dispersion): relations entre 2 variables cardinales

-R= décrit la force d’association entre 2 variables → + il est haut, + l’association est forte)
-R positif: l’augmentation des valeurs sur une variable s’accompagne d’une augmentation de valeurs sur l’autre variable (association +)
-R négatif: l’augmentation des valeurs sur une variable s’accompagne d’une diminution des valeurs sur l’autre variable (association -)
-R: 1 ou -1 = corrélation parfaite → donc r = 0,7 ou r = -0,7 représentent association aussi forte.
-La corrélation parfaite = rare à observer en sciences humaines, car phénomènes trop complexes.

-Valeur P = que Ho soit vraie donc probabilité que Ho soit vraie = 0,003 (p) → si bas qu’on rejete (cela peut être dû au hasard)
⇒ On doit se fier à P et r → d’abord P: est-ce dû au hasard? si non → on regarde R qui nous indique la force.

Question 15

Q

Qu’est-ce que le coefficient de détermination (r2)?

Answer

A

-Coefficient de pearson (r ) au carré.
-Indique la proportion de la variance d’une variable qui est expliquée par l’autre variable.
-La proportion de la variance en %
-Ex: 20% de la variance de l’adhésion au mythe sexuel s’explique par la variation % du conservatisme sexuel et vise versa donc aussi 20% du conservatisme qui s’explique par la virance au mythe.
-Pas possible de déterminer le sens de la relation → seul le devis permet d’établir le sens de la relation

-L’association ≠ causalité
-Ex:La consommation hebdomadaire de crème glacée est corrélée aux noyades…

Question 16

Q

Qu’est-ce que le khi2 (x2)?

Answer

A

-Est une statistique inférentielle non paramétrique qui exprime l’importance de l’écart entre les fréquences observées et les fréquences théoriques. Elle compare les distributions de 2 variables catégorielles.
-Est utilisé pour comparer des ensemble de données qui représentent des fréquences, des pourcentages et des proportions OU pour vérifier si 2 variables sont indépendantes ou réciproquement dépendantes OU pour examiner relations entre les différences entre des données nominales.
-Permet de décrire l’association entre 2 variables ordinales ou nominales.
-Le test du x2 compare les fréquences observées à des fréquences attendues sous hypothèse d’absence d’association

-H0 : Pas de différence selon le programme d’étude
* on s’attend à ce que les fréquences dans les différents types de préoccupation pour la santé soient distribuées de façon similaire dans chacun des programmes
-H1 : Les fréquences dans les différents types de préoccupation pour la santé ne sont pas distribuées de façon similaire dans chacun des programmes

-Utilise un tableau de contingence = tableau de fréquences ds lequel la répartition des données est représentée dans les cellules en fonction d’au moins 1 variable nominale.

Question 17

Q

Quelles sont les 2 façons de porter un jugement avec les tests d’hypothèses?

Answer

A

1-Statistique observée vs. statistique critique:
Si Zobs>Zcrit = rejette H0 quand l’écart est trop grand, il y a un effet

2-Comparaison du alpha et valeur p:
Si si p < α = rejette H0 cela pourrait être l’effet du hasard

Question 18

Q

Qu’est-ce que la régression linéaire et un coefficient de régression?

Answer

A

-En statistique, la régression est utilisée pour estimer l’effet d’une variable sur une autre. C’est d’ailleurs pour cette raison que Y est dite dépendante : ses valeurs dépendent de l’influence de la variable X. Un modèle de régression permet de prédire la variabilité observée sur une VD par une (ou plusieurs) VI et en intégrant une variation aléatoire.

Un coefficient de régression décrit la pente de la droite des moindres carrés, c-à-d. la droite qui minimise le carré des écarts entre les valeurs prédites par la droite et les valeurs réelles, observées. SI le coefficient est positif la droite monte, si le coefficient est négatif cela descend

Les régressions sont utiles pour faire des analyses multivariées = tient compte de plusieurs variables. La structure des données prend en compte les influences des facteurs, mais l’analyse contrôle sur l’effet sur la variable.

Question 19

Q

Qu’est-ce qu’un résidu?

Answer

A

Mesure d’ajustement d’un modèle statistique. L’écart entre valeur prédite et observée. On veut des petits résidus = meilleur modèle.

Question 20

Q

Qu’est-ce qu’une variable Factice (dummy)?

Answer

A

→Pour une variable catégorielle à plusieurs niveaux:
On crée autant de dummies que de catégories, sauf pour une catégorie de référence
Ex. niveau d’éducation
X1= 1 → sans DES et 0 → autres
X2= 1 → DES et 0 → autres
X3= 1 → CEGEP et 0 → autres
X4= 1 → Université et 0 → autres
⇒ Donc toutes comparées à ne pas avoir de DES
-Donc peut on voir l’effet de l’absence DES
-On met toujours une variable factice de - que le nombre de catégorie qu’on doit représenter
-Souvent on s’arrange pour avoir un coefficient positif

Brainscape's Knowledge GenomeTM

Estimation des paramètres Flashcards

Brainscape's Knowledge Genome^TM