cours 2 Flashcards

présentation des données (41 cards)

1
Q

vrai ou faux
L’étendue des données collectées est souvent trop grande pour en déduire les
caractéristiques ou les tendances globales par un examen visuel rapide.

A

vrai

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

but du cours 2

A

étudier comment à partir de tableaux et de graphiques on peut:
* Résumer les principales caractéristiques de la distribution des données;
* Comparer la composition, la moyenne, la variabilité de plusieurs groupes;
* Mettre en évidence des relations entre variables;
* Détecter des valeurs exceptionnelles ou aberrantes;
* Estimer des probabilités d’évènements;
* Détecter les lois qui régissent le phénomène à l’étude

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

série statistique simple

A

une seule variable observée (mesurée) pour un
ensemble d’éléments (l’échantillon).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

série statistique douple/triple/etc

A

on observe alors deux, trois, ou de multiples variables sur chaque élément

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

qu’arrive t-il si la variable est quantitative ou semi-quantitative

A

chaque niveau (catégorie)
représente une classe d’observations. On dénombre alors les éléments de chaque
classe, puis on peut les représenter sous forme de tableau de contingence ou de
diagramme en bâtons

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

outils de visualisation

A

tableau de contigence
diagramme en bâton
histogramme
diagramme en moustache

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

tableau de contigence

A

Il est possible de faire des tableaux à plusieurs dimensions, simplement en ajoutant des variables
on peut créer le tableau avec la fonction table()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

diagramme en bâton

A

Pour les variables qualitatives ou semi-quantitatives.
Peut aussi être utilisé pour les variables quantitatives discrètes (si le nombre de classes est restreint)
Par contre, pour tout graphique, il faut prendre l’habitude de
fournir un titre et des noms d’axes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

étapes de construction d’un histogramme

A
  1. Calcul du nombre de classes
  2. Calcul de l’intervalle de classe
  3. Identifier les bornes des classes
  4. Attribuer chacune des observations à une seule classe
  5. Compter combien d’observations sont présentes dans chaque
    classe
  6. Vérifier que la somme des fréquences absolues est bien égale
    à n (nombre d’observations)
  7. Identifier la classe qui a le plus de valeurs pour déterminer la
    borne supérieure de l’axe des y (fréquence absolue)
  8. Dessiner la structure de l’histogramme avec l’axe des x et y
  9. Dessiner le bâton pour chacune des classes en fonctions de
    sa fréquence absolue
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q
  1. Calcul du nombre de classes
A

Pour les variables quantitatives continues, ou les variables
discrètes qui ont trop de classes, il faut diviser la plage de variation en classes et assigner chaque élément à une de ces classes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

règle de Sturges

A

Nb de classes = 1 + 3.3*log10n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

règle de Yule

A

Nb de classes = 2.54racine carré de n

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

comment identifier l’intervalle de classe

A

h = étendue de variation / nb de classes

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

étendue de variation

A

max – min

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

par quoi est définie une classe

A

par sa borne inférieure et sa borne supérieure

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

borne inférieure de la première classe

A

devrait coïncider environ avec le min des données.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

bornes inférieures des autres classes

A

déterminées par additions
successives de h.

18
Q

indices de classe

A

valeurs centrales des classes (si l’intervalle de
classe est 1, les indices seront 0.5, 1.5, 2.5, etc.

19
Q
  1. Identifier les bornes
A

Il faut faire coïncider les bornes et indices de classes avec des nombres
comportant peu de décimales (des chiffres “ronds”).
Il est rare qu’il soit justifié d’avoir des classes inégales.
Les classes ne doivent jamais se chevaucher.

20
Q

fréquence absolue ou effectif de la classe

A

Le nombre d’éléments appartenant à chaque classe

21
Q

diagramme à moustache

A

Autre façon très utilisée d’illustrer des données quantitatives.
Illustre la médiane, l’écart interquartile, l’étendue de variation, et les valeurs extrêmes

22
Q

écart interquartile

A

intervalle entre 1er et 3e quartile (qui comprend donc 50% des observations)

23
Q

série statistique double

A

Correspond à un ensemble d’éléments pour lesquels on a observé/mesuré deux
variables
Pour avoir une série statistique, il faut au moins une variable aléatoire.
La seconde variable peut être aléatoire ou contrôlée

24
Q

pour représenter les séries statistiques doubles graphiquement

A

Si on a une variable quantitative et une variable qualitative ou semi-quantitative: série d’histogrammes ou de diagramme en bâtons, ou de diagrammes à moustache
Si les deux variables sont quantitatives, on devrait tracer un diagramme de
dispersion.

25
unité des graphiques
Le but est de transmettre rapidement l’information contenue dans les données. Le graphique le plus simple est souvent le plus clair. Les graphiques devraient éviter toute ambiguïté dans l’interprétation. Éviter les petites polices, et les contrastes de couleurs qui ne sont pas détectés par les personnes daltoniennes
26
paramètres de position
valeurs centrales autour desquelles se groupent les valeurs observes * Moyenne * Médiane * Mode
27
paramètres de dispersion
renseignent quant à l’étalement de la distribution des valeurs autour des valeurs centrales. * Variance * Écart-type * Coefficient de variation
28
moyenne (𝜇x )
moyenne de la distribution théorique (population statistique) des éléments x Pour les variables quantitatives continues, la moyenne arithmétique calculée sur les données brutes est toujours plus précise
29
médiane
Mex = valeur de l’observation qui se situe au centre de la série statistique classée en ordre croissant. La médiane sépare la série en deux groupes égaux Si n est pair, la médiane est entre les deux valeurs centrales. Par convention, on en fait la moyenne
30
mode
Mox = valeur d’une variable ayant la plus grande fréquence Pour une variable quantitative on divise en classes
31
distribution polymodale
s’il y a plusieurs classes non contigües dont la fréquence est nettement plus élevée que celles des autres classes
32
caractéristiques de la moyenne
- facile àcalculer - l’indicateur le plus précis (pour distribution unimodale), car minimise la Somme des Carrés des Écarts SCEE - très affectée par les valeurs extrêmes
33
caractéristiques de la médiane
- difficile à calculer (il faut trier les données) - plus précise que le mode - moins affectée que la moyenne par les valeurs extrêmes (dans les cas d’asymétrie) - contient moins d’information que la moyenne car basée seulement sur les rangs et non les valeurs - ne requiert pas des mesures aussi précises que la moyenne
34
caractéristiques de la mode
difficile à calculer mais facile à identifier sur un graphique - pas affecté par les valeurs extrêmes (indique bien la tendance centrale d’une distribution asymétrique) - convient bien dans les cas polymodaux et pour les variables qualitatives
35
variance
s2x pour un échantillon 𝜎2 (sigma au carré) pour une population entière (statistique) ou distribution théorique Mesure la variabilité des valeurs autour de la Moyenne
36
nombre de degré de liberté
n-1
37
pourquoi soustraire 1 dans le nombre de degré de liberté
On soustrait 1 pour éliminer le biais dû au fait qu’on doit utiliser les données x une première fois pour calculer la moyenne avant de calculer la variance. Sans cette correction, la variance serait toujours sous-estimée (donc biaisée).
38
quand est ce qu'un estimateur statistique est non biaisé
si la moyenne des valeurs de cet estimateur pour tous les sous-ensembles possibles de taille n est égale à la valeur de l’estimateur pour toute la population.
39
vrai ou faux La variance augmente quand variabilité augmente
vrai
40
écart type
Symboles: 𝜎 pour une pop ou distribution théorique sx pour un échantillon C’est simplement la racine carrée de la variance
41