Module 3: Statistiques descriptives + notions sur statistique inférentielle Flashcards
Qu’est-ce que les statistiques descriptives?
Des méthodes qui permettent de représenter de façon relativement sommaire, des informations colligées dans une base de données, sous la forme de variables avec des échelles de mesure.
Quelles sont les 3 façons que le contenu d’une variable est représenté dans les méthodes de statistiques descriptives?
- Par distribution de fréquence (tableau ou graphique)
- Par des indicateurs de tendance centrale
- Par des indicateurs de dispersion
Qu’est-ce qu’une fréquence?
Nb de fois que l’observation se dégage d’un ensemble donné
Qu’est-ce qu’une distribution de fréquence? De quelle manière peut-on la représenter?
Le profil des valeurs de l’observation
4 manières de le représenter:
- Distribution de fréquence avec %
- Distribution de fréquence groupée avec %
- Histogramme de fréquence
- Diagramme à branches et feuilles
Qu’est-ce que la fréquence absolue d’un score?
Nb de fois qu’il apparait dans une distribution de fréquence
Qu’est-ce que la fréquence relative d’un score?
Correspond au % d’observations qui ont obtenu ce score.
Que montre une distribution de fréquence par tableau?
- Montre la fréquence d’apparition de chaque valeur d’intérêt (fréquence absolue)
- Donne aussi la fréquence relative de chaque valeuer et la fréquence pour les données valides qui exclura les données manquantes
- Présente le cumul des fréquences du score le plus bas jusqu’au score le plus élevé sur une éhelle de 0 à 100%. Fréquence cumulée permet de connaitre quelle proportion de l’échantillon obtient une valeur plus petite ou égale à une valeur cible sur la variable étudiée.
- Très complets, mais peu utilisés, car avec un grand nb de participants et de multiples variables, ils exigent un espace trop important pour présenter l’information sur la description de l’échantillon. Souvent utilisés dans échantillons de quelques participants.
Qu’est-ce qu’une distribution de fréquence groupée?
Données sont regroupées en différentes catégories et les statistiques de fréquences absolues et relatives sont présentées pour ces données groupées.
- Certaines informations sont présentées avec moins de précision
Qu’est-ce qu’un histogramme comme méthode graphique pour présenter des distributions de fréquence?
Représentation où chaque barre constitue une fréquence pour une valeur ou un regroupement de valeurs.
- Comme les histogrammes utilisent souvent les regroupements de valeurs, on perd en précision, mais on gagne sur la vue d’ensemble de la distribution et, visuellement, l’histogramme permet d’apprécier la normalité de la distribution.
Utile quand nb élevé de participants.
Qu’est-ce qu’un diagramme en feuille comme méthode graphique pour présenter des distributions de fréquence?
Souvent généré par les programmes informatiques de statistiques et est un compromis entre le tableau de fréquence et l’histogramme
Principes:
- Chaque score est divisé en 2 parties (la dizaine et l’unité)
- La colonne tige présente toutes les dizaines qui s’appliquent dans la distribution
- La colonne feuille présente horizontalement toutes les valeurs en unités correspondant aux scores pour chacune des dizaines
- La colonne de droite représente les fréquences de chaque ligne de score, donc, de chaque dizaine
Offre une représentation visuelle des données sans perte d’informations reliées à l’utilisation de l’histogramme
Qu’est-ce que le diagramme à boite comme méthode graphique pour présenter des distributions de fréquence?
Représente la distribution des scores sur une échelle à l’aide d’une boite avec 2 moustaches dont les 5 courtes lignes horizontales correspondent aux valeurs des quatres quartiles
Début de la moustache inf. = rang centile 1 se situe au score le plus bas
Bas de la boite = rang centile 25
Ligne noire dans la boite = médiane, rang centile 50
Haut de boite = rang centile 75
Haut de moustache = rang centile 100
- Donne vue ensemble, peu importe le nb de scores
- Comme il utilise les rangs centiles à titre de démarcation, on sait que la proportion des scores inclus entre 2 pts est de 25%
- On retrouve 50% des scores dans la boite (rangs centiles 25 à 75)
- On retrouve tjrs 50% des scores au-dessus et en-dessous de la ligne médiane dans la boite
- Dans certains cas, des valeurs extrêmes éloignées des valeurs attendues sont illustrées par des cercles ou des étoiles
Qu’est-ce qu’une tendance centrale?
Fait référence à des mesures qui permettent de localiser le centre d’une distribution de scores.
Le but est de résumer en un seul nombre la valeur typique ou la plus représentative d’un ensemble de scores.
Il existe 3 mesures de tendance centrale:
- Moyenne
- le mode
- Médiane
Quels sont les valeurs de la moyenne, du mode et de la médiane lorsque la disribution est parfaitement normale?
Les valeurs de la moyenne, du mode et de la médiane sont =.
Que représente la moyenne?
La mesure de tendance centrale le plus couramment utilisée.
Se calcule en additionnant les valeurs observées de chaque participant divisées par le nb de participants observés.
Qu’est-ce que le mode?
La valeur la plus fréquente d’un ensemble de données.
Rarement employé seul pour mesurer la tendance centrale, car avec un petit nb d’observations, chaque valeur est unique = pas de mode
Qu’est-ce que la médiane?
Observation située au millieu d’une distribution de scores. C’est la valeur de part et d’autre de laquelle se site la moitée des observations.
On établit la liste des observations individuelles par ordre croissant ou décroissant et la position de la médiane se calcule différemment selon si le nb est pair ou impair.
Si pair: N/2
Si impair: N+1 / 2
Préfère-t-on généralement utiliser la moyenne ou la médiane? Explique.
On préfère la moyenne à la médiane, car la moyenne est calculée en utilisant un maximum d’informations de toutes les observations. La moyenne fait intervenir les valeurs de toutes les observations, alor que la médiane représente l’information d’une ou 2 observations.
La moyenne est cependant très sensible aux valeurs extrêmes, alors que la médiane ne l’est pas.
Quels éléments permettent de déterminer le niveau de dispersion des scores autour d’une valeur centrale?
- Étendue
- variance
- Écart-type
Qu’est-ce que l’étendue?
Écart entre la plus grande et la plus petite valeur d’une distribution.
Bien que l’étendue correspond à une seule valeur, on préfère généralement présenter la plus grande et la plus petite valeur d’une distribution ex: 40-80 pour ilustrer l’étendue. Comporte l’avantage d’indiquer au lecteur un ordre de gradeur pour les valeurs de la distribution.
Que mesure la variance et l’écart-type?
Mesurent la dispersion ou l’écart de chaque observation autour de la moyenne
Quel symbole est utilisé pour représenter la variance d’une population?
sigma^2
Quel symbole est utilié pour représenter la variance d’un échantillon?
s^2