Cours 4 Flashcards
Def. population
- Groupe complet ou groupe inaccessible que nous souhaitons connaître
- Représente 100% des infos concernant un phénomène ou un groupe
- Représente la vérité absolue au sujet d’un phénomène = car l’info pour le phénomène est obtenue pour toutes les personnes constituant la population
- L’ensemble des personnes auxquelles s’appliquent les conclusions d’une recherche
Def. échantillon
- Consiste en ce que nous connaissons et ce que nous avons accès
- Informations obtenues sur une petite partie de la population qui est normalement distribuée (pas bcp de symétrie, ni d’aplatissement)
- Meilleur estimé de la population
- Directement mesurable
Quels sont les principales raisons pour lesquelles nous étudions des échantillons au lieu des populations?
- Moins cher
- Accessible / possible
- Moins long
Def. population en termes statistiques
L’ensemble d’unités (personnes) généralisé par un modèle statistique (échantillon)
Associe les prises de mesures avec la proportion de la population
a) Population
b) Échantillon
1) Recensement
2) Sondage
a) et 1)
b) et 2)
En quoi consiste l’inférence statistique?
- À tirer une conclusion au sujet des caractéristiques d’une population à partir des caractéristiques mesurées d’un échantillon
- Consiste à estimer les paramètres de la population à partir des statistiques de l’échantillon
Def. paramètre et symboles utilisés
- Décrit les caractéristiques de la population
- Alphabet Grec
Def. statistique et symboles utilisés
- Décrit les caractéristiques de l’échantillon OU de la population par l’intermédiaire d’une inférence
- Alphabet latin
Exemples de caractéristiques de la distribution d’une population ou d’un échantillon
Moyenne, écart-type, score-z, variance, asymétrie, aplatissement, etc.
Quels sont les symboles pour les caractéristiques suivantes (autant pour paramètre que pour statistique):
- Moyenne
- Variance
- Écart-type
- Corrélation
(voir diapo 18 pour symboles)
Paramètre :
- Moyenne = mu
- Variance = sigma^2
- Écart-type = sigma
- Corrélation = rho
Statistique :
- Moyenne = M ou X barre
- Variance = s^2
- Écart-type = s
- Corrélation = r
Def. erreur d’inférence
Erreur quand on estime les paramètres à partir des statistiques
Est-ce que l’inférence qu’on fait sur la population à partir de l’échantillon est nécessairement vraie?
Non ça dépend si l’échantillon représente bien notre population
Caractéristiques d’un échantillon représentatif
- Est semblable à la population
- La forme et les caractéristiques de la courbe sont similaires (ex. asymétrie, aplatissement, etc.)
Comment peut-on moduler notre échantillon pour qu’il soit le + représentatif possible de notre population?
- Augmenter la taille de la population
- Échantillonage aléatoire simple (lois du hasard)
3 critères de l’échantillon aléatoire
1- Critère de la chance égales
2- Taille de l’échantillon
3- Critère de l’indépendance des réponses
Def. critère de la chance égale
Chaque individu de la population a une chance égale d’être choisi (randomisation)
Def. de l’indépendance des réponses
La réponse d’un participant ne doit pas être influencée par la réponse d’un autre participant (anonymat, confidentialité)
3 types d’échantillons aléatoires
1- Échantillon aléatoire simple
2- Échantillon aléatoire stratifié
3- Échantillon par grappes
Def. échantillon aléatoire simple
Chaque élément d’une population a une chance égale d’être choisi (hasard), peu importe ses caractéristiques
Def. échantillon aléatoire stratifié
- Le + précis
- Combine aléatoire et représentativité (respecte lois du hasard, mais augmente la représentativité)
- Les strates correspondent à des caractéristiques connues de la population
- Sert à représenter la population le + précisément possible
Def. échantillon par grappes
Par groupes de personnes qui sont choisis au hasard
Vrai ou faux: on doit nécessairement savoir la taille de la population pour inférer
Vrai
Explique pourquoi une taille élevée de l’échantillon est plus représentatif de la population
- Dans une population normalement distribuée, la majorité des observations sont proches de la moyenne. Plus on s’éloigne de la moyenne, plus les données sont rares.
- Plus la taille de l’échantillon est élevée = + on inclut les données extrêmes
- Donc taille élevée d’échantillon = échantillon représentatif
Pourquoi est-ce que les calculs de variance et d’écart-type sont différents entre l’échantillon et la population?
Population = divise par N
Échantillon = divise par n-1
- À cause des degrés de liberté :
Il existe des valeurs très extrêmes qui ne sont (probablement) pas prises en compte dans l’échantillon qui est + restreint -> échantillon = - de variance, ce qui est un biais -> division par n-1 exagère la variance de l’échantillon, ce qui permet une meilleure estimation de la variance de la population - Lorsqu’on calcule l’écart-type il faut faire la soustraction d’une valeur à la moyenne. Les critères de randomisation exigent que chaque différence (valeur-moyenne) soit indépendante, mais ce n’est pas le cas : un des écarts n’est jamais indépendant (on est tjrs capable d’en deviner un, car on sait que la somme de tous les écarts = 0). On fait donc n-1 pour l’éliminer.