Examen 2 Flashcards

(118 cards)

1
Q

Variables qualitatives

A

fait référence à des qualités et s’exprime en modalités (ou catégories, attributs)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Variables qualitatives nominales

A

Catégories sans ordre particulier, pas de hiérarchie (ex: couleur, genre, etc)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Variables qualitatives ordinales

A

Catégories ordonnées de manière à refléter un gradient, une progression. (ex: estime de soi)
Peut renvoyer à une échelle: niveau d’accord avec un énoncé.
Peut renvoyer à des étendues (revenu entre 90k et 100k, etc.)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Les variables quali doivent être…

A

Exclusifs : un individu ne peut pas se retrouver dans plusieurs niveaux

Exhaustifs : tous les individus doivent pouvoir être catégorisés

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Variables quanti (2)

A

Cardinales: quantités, valeurs
Peuvent être subdivisés infiniment (distance, longueur)

Discrètes: ne peux pas être subdivisé à l’infini (ex: revenu, nombre d’enfant, etc)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Fréquence

A

nb d’observations associées à une valeur ou catégorie (niveau de modalité)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Fréquence cummulée

A

nb d’observations associées à une valeur X ou cagétorie X précédente

Ex: femme 10
homme 10
iels 5
fréquence cummulée h-f 20
fc tout 25

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Proportion

A

Fréquence divisée par le nombre total d’observations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Pourcentage

A

proportion rapportée à un groupe de 100 observations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Rapport / ratio

A

Relation entre deux qte qu’on veut comparer
Ex: 6 H pour 7 F = rapport 6/7

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Proportion

A

Les deux qte sont liées (numérateur est un sous ensemble du dénominateur)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Taux

A

Processus dynamique, on observe un changement dans le temps
Ex: dénominateur exprimé en personne-temps, c.-à-d qu’on attribue chq personne un poids selon la durée de son observation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Histogramme de fréquences

A

Grosses lignes verticales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Graphique en courbe

A

Tite ligne horizontale qui monte et descend

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Histogramme et polygone de fréquence

A

Grosses lignes verticales avec une courbe mais permet de voir la distribution de l’échantillon

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Distribution

A

Propriété d’une population

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Tendance centrale

A

Ce qui est typique de la population ; se qui se passe en moyenne

Valeurs autour desquelles la distribution est centrée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Mesures de la tendance centrale

A

Moyenne, moyenne pondérée, médiane, mode

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Moyenne

A

Somme des observations divisée par le nb d’observation

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Moyenne pondérée

A

Toutes les observations n’ont pas le même poids, permet de modifier la contribution relative des observations

Ex: les notes (un travail qui vaut 30% de 100%)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Médiane

A

Sépare la distribution entre deux groupes égaux.
Moins affectée que la moyenne par les valeurs extrêmes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Mode

A

Catégorie ou valeur ayant la fréquence la plus élevée. Le mode est approprié pour les variables nominales et ordinales.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Mesures de dispersion

A

Ce qui est typique pt plus ou moins fréquent dans une population: variabilité autour de la tendance centrale.
- Décrit la variabilité autour de la tendance centrale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Cette variabilité autour de la tendance centrale peut être décrite de différentes façons:

A

étendue, écart moyen, écart type, coefficient de variation, variance.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Étendue
Différence entre les valeurs minimales et maximales de la distribution Ex: Min 13 et max 44 44 - 13 = 31
26
Écart moyen
Comment, en moyenne, chq des observations est éloignée de la moyenne.
27
Variance
Moyenne des carrés des écarts à la moyenne Produit des mesures difficiles à interpréter car très élevé (écarts à la moyenne sont au carré)
28
Écart-type
Racine au carré de la variance
29
Coefficient de variation
Variabilité par rapport à la moyenne Plus le CV est petit, plus les valeurs de la distribution tendent à être proche de la moyenn
30
Forme de la distribution
Peuvent aussi être décrites selon leur forme (comparaison avec la distribution normale)
31
On décrit l'écart à cette distribution selon 2 dimensions
Asymétrie et aplatissement
32
Asymétrie
Décalage vers la gauche ou la droite de la courbe Négative: moy < méd Positive: moy > méd
33
Aplatissement
Concentration des fréquences autour de la moyenne Négative: plate Normale: normale Positive: bandé
34
Mesures de position
Tendance centrale et dispersion sont des caractéristiques de la distribution Mesure de position: situer une valeur relativement à l'ensemble de la distribution p.e: centile, quartile, etc
35
Centiles
100 groupes composés chacun de 1% des observations
36
Quartiles
4 groupes composés chacun de 25% des observations
37
Q1, Q2, Q3
Q1: milieu de la 1ere moitié Q2: médiane Q3: milieu de la 2e moitié
38
Tendance central, dispersion et position: boîte à moustache
Représentation graphique d'une distribution qui intègre différentes mesures Permet de comparer des groupes Voir photo
39
Score Z
- Exprime un écart à la moyenne qu'on met en relation avec la variabilité (dispersion) dans la population. - Exprime l'écart à la moyenne en unités d'écart-type - Permettent de relativiser les valeurs de distribution différentes Ex: utilisés pour comparer des étudiants dont la performance est mesurée dans des contextes différents Étudiant A note: 91, moyenne 80 écart-type: 10 écart à la moyenne: 11 score Z 11/10 = 1,1 Étudiant B note: 70, moyenne: 50 écart type: 20 écart à la moyenne: 20 20/20 = 1,0 Perfo relativement similaires dans des groupes différents
40
Échantillon
Sous ensemble de la population composé d'individus qui ont été choisis au hasard. Le hasard peut faire varier la composition
41
Échantillonage - échantillon probabiliste
Dans celle-ci, on s'appuie sur des lois de probabilité pour estimer la variabilité théorique des statistiques issues de notre échantillon La probabilité D'un évènement X est la proportion de X dans toute la population d'évènements !! P(X)= X / N
42
Si on repétète l'échantillonnage, les différentes moyennes suivraient...
Une distribution normale C-à-d que certaines moyennes seraient obtenues plus fréquemment que d'autres.
43
Erreur type
Écart type de la moyenne d'échantillonnage. Plus l'échantillon est petit, plus le truc est élevé Ex: échantillon de 27, erreur type de 10
44
Distribution normale centrée et réduite - Qu'est-ce que la courbe décrit?
Distribution des fréquences - Permet de prévoir probabilités - Sert de base à l'inférence statistique !! - Possède certaines caract. importantes (moyenne est de 0, écart-type -1 et symétrique)
45
Distribution normale centrée et réduite - on peut associer... (table de Z!!)
Parce que la courbe couvre l'ensemble des évènements possibles, on peut associer des probabilités à l'aire sous la courbe Ex: probabilité d'observer une valeur entre -1,34 et 1,34? 82%
46
Intervalle de confiance
Mesure de précision de l'estimation obtenue à partir d'un échantillon (estimation d'une moyenne ou d'une proportion
47
Intervalle de confiance: vise à.... avec quel truc (2)
Vise à identifier les bornes qui représentent les valeurs probables de la moyenne de la population autour de la moyenne estimée par l'échantillon Avec score Z et erreur type !!
48
Le score Z pour le calcul de l'IC dépend du...
Niveau de certitude souhaité 90%, 95%, 99%
49
Variables nominales à 2 catégories on utilise quoi pour décrire l’échantillon
On va utiliser une proportion pour décrire l'échantillon
50
Proportion
Forme particulière d'une moyenne Somme des mesures binaires (0,1) = fréquence de valeur 1 Erreur-type d'une proportion pas calculé comme celui d'une moyenne
51
Tests d'hypothèses
Permet l'inférence en évaluant si une condition est vraie ou non - Démarche qui permet de prendre une décision concernant l'hypothèse statistique - La démarche porte sur H0 Si rejet de H0 = condition est vraie.
52
Erreur de type I
Rejet de H0 alors qu'elle est vraie (notée @)
53
Erreur de type II
Accepter H0 alors qu'elle est fausse (notée B)
54
Erreur de type I explications
Liée au hasard: variabilité inhérente à l'échantillonnage Seuil @ comparé à la valeur p du test Seuil @: risque consenti à l'avance de rejeter à tort H0 Valeur p: probabilité qu'une différence soit attribuable au hasard
55
Erreur de type II explications
Liée à la puissance statistique (1-B) de l'étude Capacité à prendre une décision statistique (à détecter une différence réelle)
56
Test Z
Test d'hypothèse qui utilise la valeur Z pour associer une probabilité à une condition décrite par H0. Permet de comparer une moyenne observée à une moyenne connue EX: votre client a il réellement des relations plus fréquentes que la moyenne
57
Valeur Z
Permet d'évaluer la probabilité que la moyenne de notre échantillon est réellement supérieure à la moyenne de la population
58
Valeur p
Renseigne la probabilité que H0 soit vraie.
59
Test Z quelle échantillon
Approprié pour les échantillons de grande taille parce que l'écart type de l'échantillon (s) est considéré comme étant un bon estimateur de l'écart-type de la population
60
Test t - échantillon
Lorsque l'écart-type de l'échantillon n'est pas un bon estimateur de l'écart type de la population Échantillon de petite taille !
61
Test t: plus la taille de l'échantillon augmente, plus... + rejet du H0 = (...)
Comme pour le Z, utilisation d'une table Plus la taille de l'échantillon augmente, plus les valeurs de t et Z tendent à se ressembler. - Même manière que Z - Rejet de H= t calculé > t critique
62
DL: qu'est-ce que ça décrit? Et déduit?
Degrés de liberté, décrivent le nb d'observations qui peuvent varier dans le calcul d'une stat À partir d'une moyenne, capable de déduire la valeur d'une observation si on connait la valeur de toutes les autres observations
63
Test t - DL - Avec 1 ou 2 échantillon, le nb d'observations qui peuvent varier est
1 échantillon: n - 1 2 échantillons: (n1+n2) -2
64
l'IC permet de...
Comparer des groupes
65
Test t pour échantillons indépendants
Comparaison de deux groupes indépendants ex: groupe expérimental VS groupe contrôle
66
Test t pour échantillons appariés
Un seul groupe à deux temps de mesure
67
Test t - échantillons indépendants (variation)
t tend à augmenter lorsque : - Différence entre les moyennes augments - La variance diminue - La taille des échantillons augments
68
Covariance des deux échantillons, décrit la relation entre...
COVx1x2 Décrit la relation entre les deux distributions
69
ANOVA
Permet de comparer plus de 2 groupes La comparaison est faite en comparant les variances inter-groupes (à quel point ya de fortes variabilité entre les groupes)
70
ANOVA - dl
dl inter = nb de groupe 1 dl intra = nb total d'observations - nb de groupes F augments quand variance inter-groupe > variance intra-groupe Donc, plus les groupes sont différents entre eux, plus F augmente!
71
Hypothèses anova
h0= tous les groupes sont pareils h1= un des groupes est différent
72
Quel test on fait? 1 moyenne vs une valeur attendue n= >30
Test Z ou test t à 1 échantillon
73
Quel test on fait? 1 moyenne vs une valeur attendue n= <30
test t à 1 échantillon
74
Quel test on fait? 2 moyennes échantillons indépendants
test t à 2 échantillons indépendants
75
Quel test on fait? 2 moyennes échantillons appariés
test t à 2 échantillons appariés
76
Quel test on fait? plus de 2 moyennes
ANOVA
77
Décision statistique: rejet de H0 si... (2)
- p < a - |valeur calculée| > |valeur critique| (si val cal supérieure, on rejette H0 ça revoie à la même chose) ***Les hypothèses doivent faire référence à une différence et pas une association
78
Corrélation
Comment les changements observés sur un facteur sont-ils liés aux changements observés sur un autre facteur? **Évalue la co-variation entre le X et Y, à quel point il existe une corrélation entre deux variables.
79
Nuage de point
Représentation graphique pour décrire une relation entre deux variables cardinales **Évalue la co-variation entre le X et Y, à quel point il existe une corrélation entre deux variables.
80
Quelle est la mesure la plus courante dans les variables cardinales?
Coefficient de corrélation de Pearson
81
Coefficient de corrélation de Pearson (r) est utilisé pour...
Utilisé pour analyser l'association entre deux variables quanti Corrélation de Pearson = variables cardinales
82
Coefficient de corrélation de Pearson (r) permet d'évaluer... (2)
La force et la direction de la relation - Force: haut r = association forte r = 1 ou -1 corrélation parfaite r vers 0 = pas d'association - Direction r+ = association positive (un aug, l'autre aug) r- = association négative
83
Coefficient de détermination (r2)
Indique la proportion de la variance d'une variable qui est exprimée par l'autre variable À quel proportion la variable Y est expliquée par X: 0 pentoute, 0,99, à 99%, 1 au complet
84
Comment savoir ce qui influence quoi quand le r2 est élevé?
Le devis de l'étude est le seul qui permet d'établir le sens de la relation Association n'est PAS une causalité !!!
85
Khi-deux (X2) permet de..
Décrire l'association entre deux variables ordinales ou nominales
86
Le test du Khi-deux (X2) compare...
Les fréquences observées à des fréquences attendues sous l'hypothèse d'absence d'association
87
Quel test doit être utilisé? On souhaite savoir si le score d'anxiété est associé au score de satisfaction sexu. Résultat: p = 0,02 et 2 = -0,54 ( r2 = 0,292)
Corrélation Rejet de H0 (p<0,05) ; association négative modérée: le score d'anxiété augmente lorsque le score de satisfaction sexuelle diminue. 29,2% de la variance du score d'anxiété s'explique par la variation du score de la satisfaction sexu et inversement ( r2 = 0,292)
88
Quel test on doit utiliser? Une équipe de recherche souhaite évaluer l’association entre la législation des pays (légal ou partiellement légal, criminalisé, absence de loi) et le statut de séropositivité (positif/négatif) des travailleurs.ses du sexe Résultats: X2 = 4,259 (x2 critique = 5,991)
Khi deux Acceptation de H0; pas d'association; la répartition des personnes séropositives ne varie pas significativement selon la législation
89
Régression permet...
Permet d'évaluer une association entre une VI et une VD en contrôlant l'effet des autres VI
90
Régression - contrôle et ajustement
Élimine l'effet d'une autre variable (confusion) sur l'association observée
91
Formule régression
Y = mx+b Y: variable dont les valeurs sont prédites par celles de X m et b: paramètres qui définissent la relation entre Y et X b: valeur qu'aura Y lorsque X sera égal à 0 (ordonnée à l'origine)
92
Régression: si Y = 1,15 +0,282X X = 25
8,2 deux variables cardinales
93
Régression linéaire
On quantifie la relation entre deux variables: plus c'est élevé plus une relation est forte et l'inverse
94
Coefficient de régression décrit...
La pente de la droite des moindres carrés (la droite qui minimise le carré des écart entre les valeurs prédites par la droite et les valeurs réelles, observées)
95
Coefficient de régression est une mesure de...
Co-variation Il indique dans quelle mesure la variation de X s'accompagne d'une variation sur Y.
96
Vrai ou faux: Il peut y avoir plusieurs co-variables (x) dans une régression
Vrai: il peut y avoir plusieurs co-variables dans une régression, ce qui permet l'ajustement de plusieurs facteurs de confusion. Décrit l'association de X et Y indépendamment des autres co-variables
97
Variable muette quand?
Lorsque VI (x) catégorielle est une variable factice ou muette (dummy)
98
Variable muette permet de....
indique la présence ou l'absence d'une caractéristique ou d'une catégorie spécifique. Si une variable a plus de 2 catégories, une variable factice peut être créée pour chaque catégorie, excluant une catégorie de référence.
99
Exemple variable muette Fréquence conso porn: jamais, occasionnellement, souvent. On veut que la ref soit "jamais"
Jamais (0), occasionnellement (1), souvent (1) On créer deux nouvelle variables: Porn occasionnelle: 0 = non, 1 = oui Porn souvent: 0 = non; 1 = oui On obtient: occasionnellement VS jamais et souvent VS jamais
100
Une équipe souhaite analyser les liens entre l’adhésion à des valeurs conservatrice (score) et l’âge à partir duquel il est perçu comme normal d’avoir des relations sexuelles pour un garçon. Résultats: Intercept: B = 16,21 ; valeur p = 0,000 Conservatisme: B = -0,21 ; valeur p = 0,045 Quoi conclure? D’après ce modèle, quel est l’estimation de l’âge considéré comme normal pour une personne ayant un score pour conservatisme = 3 ?
Rejet de H0 ; le score mesurant l’adhésion aux valeurs conservatrice est négativement associée à l’âge considérée comme normal pour avoir des relations sexuelles pour un garçon (β=-0,21 ; SE=0,10 ; p=0,045). Y = 𝛽0 + 𝛽1X1 16,21 + (-0,21 x 3) = 15,58
101
Régression logistique (3)
- Permet l'utilisation d'une variable dépendante dichotomique - Facile d'utilisation - Produit directement des rapports de cotes (odds, ratio, OR)
102
Régression - Risque relatif (RR)
Similaire à un rapport de cotes RRi = (cas1/pop1) / (cas2/pop) RR = 1,2 : Les personnes non pratiquantes ont un risque d’avoir une syphilis 1,2 fois plus grand que les personnes pratiquantes
103
RR rapport à 1
RR > 1 : risque plus grand du groupe au numérateur RR < 1: risque plus petit du groupe au numérateur RR = 1 : no diff
104
Un rapport de cotes compare... (différence avec RR)
Cotes et non des risques Cotes = comparaison de probabilités RC = 1,22: les personnes non pratiquantes ont une COTE d'avoir une syphilis 1,22 plus grande que les personnes pratiquantes. cote PAS risque risque = probabilité cote = probabilité d’un évènement  probabilité d’un non évènement RC = exp(β) !
105
Estimation de paramètres - estimation ponctuelle
Valeur de la statistique d'un échantillon: - mesures de tendance centrale - mesures de dispersion
106
La moyenne décrit un échantillon à partir de variables...
Cardinales
107
Comment s'intéresser à des variables catégorielles dichotomiques ?
En utilisant des proportions
108
l'intervalle de confiance (IC) mesure..
Précision de l'estimation obtenue à partir d'un échantillon (estimation d'une moyenne ou d'une proportion)
109
Mesure
Description des propriétés d’un concept
110
Opérationnalisation
Passage du concept à la mesure
111
Biais:
Écart entre ce qu’on observe ou conclu et la réalité. « Toute influence ou action pouvant fausser les résultats d’une étude » (F&G, p. 171)
112
Biais de confusion
Erreur susceptible d’intervenir dans l’interprétation de l’association entre le VD et la VI en raison de l’interférence d’autres variables qui n’ont pas été considérées
113
Inférence
Porter un jugement sur l’ensemble de la population à partir d’un sous-ensemble (échantillon)
114
Représentativité
Capacité d’un échantillon à présenter les mêmes caractéristiques que la population
115
Intervalle de confiance
Mesure de précision de l’estimation obtenue à partir d’un échantillon (estimation d’une moyenne ou d’une proportion)
116
Puissance statistique
Capacité d’une étude à prendre une décision statistique (p. ex. se prononcer sur la présence d’une différence ou d’une association)
117
Variable
Expression d’un concept par le biais d’une mesure.
118