cours 2 Flashcards by Charlotte Desnoyers

vrai ou faux
L’étendue des données collectées est souvent trop grande pour en déduire les
caractéristiques ou les tendances globales par un examen visuel rapide.

vrai

How well did you know this?

Not at all

Perfectly

but du cours 2

étudier comment à partir de tableaux et de graphiques on peut:
* Résumer les principales caractéristiques de la distribution des données;
* Comparer la composition, la moyenne, la variabilité de plusieurs groupes;
* Mettre en évidence des relations entre variables;
* Détecter des valeurs exceptionnelles ou aberrantes;
* Estimer des probabilités d’évènements;
* Détecter les lois qui régissent le phénomène à l’étude

How well did you know this?

Not at all

Perfectly

série statistique simple

une seule variable observée (mesurée) pour un
ensemble d’éléments (l’échantillon).

How well did you know this?

Not at all

Perfectly

série statistique douple/triple/etc

on observe alors deux, trois, ou de multiples variables sur chaque élément

How well did you know this?

Not at all

Perfectly

qu’arrive t-il si la variable est quantitative ou semi-quantitative

chaque niveau (catégorie)
représente une classe d’observations. On dénombre alors les éléments de chaque
classe, puis on peut les représenter sous forme de tableau de contingence ou de
diagramme en bâtons

How well did you know this?

Not at all

Perfectly

outils de visualisation

tableau de contigence
diagramme en bâton
histogramme
diagramme en moustache

How well did you know this?

Not at all

Perfectly

tableau de contigence

Il est possible de faire des tableaux à plusieurs dimensions, simplement en ajoutant des variables
on peut créer le tableau avec la fonction table()

How well did you know this?

Not at all

Perfectly

diagramme en bâton

Pour les variables qualitatives ou semi-quantitatives.
Peut aussi être utilisé pour les variables quantitatives discrètes (si le nombre de classes est restreint)
Par contre, pour tout graphique, il faut prendre l’habitude de
fournir un titre et des noms d’axes

How well did you know this?

Not at all

Perfectly

étapes de construction d’un histogramme

Calcul du nombre de classes
Calcul de l’intervalle de classe
Identifier les bornes des classes
Attribuer chacune des observations à une seule classe
Compter combien d’observations sont présentes dans chaque
classe
Vérifier que la somme des fréquences absolues est bien égale
à n (nombre d’observations)
Identifier la classe qui a le plus de valeurs pour déterminer la
borne supérieure de l’axe des y (fréquence absolue)
Dessiner la structure de l’histogramme avec l’axe des x et y
Dessiner le bâton pour chacune des classes en fonctions de
sa fréquence absolue

How well did you know this?

Not at all

Perfectly

Calcul du nombre de classes

Pour les variables quantitatives continues, ou les variables
discrètes qui ont trop de classes, il faut diviser la plage de variation en classes et assigner chaque élément à une de ces classes.

How well did you know this?

Not at all

Perfectly

règle de Sturges

Nb de classes = 1 + 3.3*log10n

How well did you know this?

Not at all

Perfectly

règle de Yule

Nb de classes = 2.54racine carré de n

How well did you know this?

Not at all

Perfectly

comment identifier l’intervalle de classe

h = étendue de variation / nb de classes

How well did you know this?

Not at all

Perfectly

étendue de variation

max – min

How well did you know this?

Not at all

Perfectly

par quoi est définie une classe

par sa borne inférieure et sa borne supérieure

How well did you know this?

Not at all

Perfectly

borne inférieure de la première classe

devrait coïncider environ avec le min des données.

How well did you know this?

Not at all

Perfectly

bornes inférieures des autres classes

Study These Flashcards

déterminées par additions
successives de h.

indices de classe

Study These Flashcards

valeurs centrales des classes (si l’intervalle de
classe est 1, les indices seront 0.5, 1.5, 2.5, etc.

Identifier les bornes

Study These Flashcards

Il faut faire coïncider les bornes et indices de classes avec des nombres
comportant peu de décimales (des chiffres “ronds”).
Il est rare qu’il soit justifié d’avoir des classes inégales.
Les classes ne doivent jamais se chevaucher.

fréquence absolue ou effectif de la classe

Study These Flashcards

Le nombre d’éléments appartenant à chaque classe

diagramme à moustache

Study These Flashcards

Autre façon très utilisée d’illustrer des données quantitatives.
Illustre la médiane, l’écart interquartile, l’étendue de variation, et les valeurs extrêmes

écart interquartile

Study These Flashcards

intervalle entre 1er et 3e quartile (qui comprend donc 50% des observations)

série statistique double

Study These Flashcards

Correspond à un ensemble d’éléments pour lesquels on a observé/mesuré deux
variables
Pour avoir une série statistique, il faut au moins une variable aléatoire.
La seconde variable peut être aléatoire ou contrôlée

pour représenter les séries statistiques doubles graphiquement

Study These Flashcards

Si on a une variable quantitative et une variable qualitative ou semi-quantitative: série d’histogrammes ou de diagramme en bâtons, ou de diagrammes à moustache
Si les deux variables sont quantitatives, on devrait tracer un diagramme de
dispersion.

unité des graphiques

Le but est de transmettre rapidement l’information contenue dans les données. Le graphique le plus simple est souvent le plus clair. Les graphiques devraient éviter toute ambiguïté dans l’interprétation. Éviter les petites polices, et les contrastes de couleurs qui ne sont pas détectés par les personnes daltoniennes

paramètres de position

valeurs centrales autour desquelles se groupent les valeurs observes * Moyenne * Médiane * Mode

paramètres de dispersion

renseignent quant à l’étalement de la distribution des valeurs autour des valeurs centrales. * Variance * Écart-type * Coefficient de variation

moyenne (𝜇x )

moyenne de la distribution théorique (population statistique) des éléments x Pour les variables quantitatives continues, la moyenne arithmétique calculée sur les données brutes est toujours plus précise

médiane

Mex = valeur de l’observation qui se situe au centre de la série statistique classée en ordre croissant. La médiane sépare la série en deux groupes égaux Si n est pair, la médiane est entre les deux valeurs centrales. Par convention, on en fait la moyenne

mode

Mox = valeur d’une variable ayant la plus grande fréquence Pour une variable quantitative on divise en classes

distribution polymodale

s’il y a plusieurs classes non contigües dont la fréquence est nettement plus élevée que celles des autres classes

caractéristiques de la moyenne

- facile àcalculer - l’indicateur le plus précis (pour distribution unimodale), car minimise la Somme des Carrés des Écarts SCEE - très affectée par les valeurs extrêmes

caractéristiques de la médiane

- difficile à calculer (il faut trier les données) - plus précise que le mode - moins affectée que la moyenne par les valeurs extrêmes (dans les cas d’asymétrie) - contient moins d’information que la moyenne car basée seulement sur les rangs et non les valeurs - ne requiert pas des mesures aussi précises que la moyenne

caractéristiques de la mode

difficile à calculer mais facile à identifier sur un graphique - pas affecté par les valeurs extrêmes (indique bien la tendance centrale d’une distribution asymétrique) - convient bien dans les cas polymodaux et pour les variables qualitatives

variance

s2x pour un échantillon 𝜎2 (sigma au carré) pour une population entière (statistique) ou distribution théorique Mesure la variabilité des valeurs autour de la Moyenne

nombre de degré de liberté

n-1

pourquoi soustraire 1 dans le nombre de degré de liberté

On soustrait 1 pour éliminer le biais dû au fait qu’on doit utiliser les données x une première fois pour calculer la moyenne avant de calculer la variance. Sans cette correction, la variance serait toujours sous-estimée (donc biaisée).

quand est ce qu'un estimateur statistique est non biaisé

si la moyenne des valeurs de cet estimateur pour tous les sous-ensembles possibles de taille n est égale à la valeur de l’estimateur pour toute la population.

vrai ou faux La variance augmente quand variabilité augmente

vrai

écart type

Symboles: 𝜎 pour une pop ou distribution théorique sx pour un échantillon C’est simplement la racine carrée de la variance

cours 2 Flashcards

présentation des données (41 cards)