Module 3: Statistiques descriptives + notions sur statistique inférentielle Flashcards

1
Q

Qu’est-ce que les statistiques descriptives?

A

Des méthodes qui permettent de représenter de façon relativement sommaire, des informations colligées dans une base de données, sous la forme de variables avec des échelles de mesure.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelles sont les 3 façons que le contenu d’une variable est représenté dans les méthodes de statistiques descriptives?

A
  • Par distribution de fréquence (tableau ou graphique)
  • Par des indicateurs de tendance centrale
  • Par des indicateurs de dispersion
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est-ce qu’une fréquence?

A

Nb de fois que l’observation se dégage d’un ensemble donné

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce qu’une distribution de fréquence? De quelle manière peut-on la représenter?

A

Le profil des valeurs de l’observation

4 manières de le représenter:
- Distribution de fréquence avec %
- Distribution de fréquence groupée avec %
- Histogramme de fréquence
- Diagramme à branches et feuilles

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qu’est-ce que la fréquence absolue d’un score?

A

Nb de fois qu’il apparait dans une distribution de fréquence

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce que la fréquence relative d’un score?

A

Correspond au % d’observations qui ont obtenu ce score.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Que montre une distribution de fréquence par tableau?

A
  • Montre la fréquence d’apparition de chaque valeur d’intérêt (fréquence absolue)
  • Donne aussi la fréquence relative de chaque valeuer et la fréquence pour les données valides qui exclura les données manquantes
  • Présente le cumul des fréquences du score le plus bas jusqu’au score le plus élevé sur une éhelle de 0 à 100%. Fréquence cumulée permet de connaitre quelle proportion de l’échantillon obtient une valeur plus petite ou égale à une valeur cible sur la variable étudiée.
  • Très complets, mais peu utilisés, car avec un grand nb de participants et de multiples variables, ils exigent un espace trop important pour présenter l’information sur la description de l’échantillon. Souvent utilisés dans échantillons de quelques participants.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce qu’une distribution de fréquence groupée?

A

Données sont regroupées en différentes catégories et les statistiques de fréquences absolues et relatives sont présentées pour ces données groupées.

  • Certaines informations sont présentées avec moins de précision
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Qu’est-ce qu’un histogramme comme méthode graphique pour présenter des distributions de fréquence?

A

Représentation où chaque barre constitue une fréquence pour une valeur ou un regroupement de valeurs.

  • Comme les histogrammes utilisent souvent les regroupements de valeurs, on perd en précision, mais on gagne sur la vue d’ensemble de la distribution et, visuellement, l’histogramme permet d’apprécier la normalité de la distribution.

Utile quand nb élevé de participants.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Qu’est-ce qu’un diagramme en feuille comme méthode graphique pour présenter des distributions de fréquence?

A

Souvent généré par les programmes informatiques de statistiques et est un compromis entre le tableau de fréquence et l’histogramme

Principes:
- Chaque score est divisé en 2 parties (la dizaine et l’unité)
- La colonne tige présente toutes les dizaines qui s’appliquent dans la distribution
- La colonne feuille présente horizontalement toutes les valeurs en unités correspondant aux scores pour chacune des dizaines
- La colonne de droite représente les fréquences de chaque ligne de score, donc, de chaque dizaine

Offre une représentation visuelle des données sans perte d’informations reliées à l’utilisation de l’histogramme

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Qu’est-ce que le diagramme à boite comme méthode graphique pour présenter des distributions de fréquence?

A

Représente la distribution des scores sur une échelle à l’aide d’une boite avec 2 moustaches dont les 5 courtes lignes horizontales correspondent aux valeurs des quatres quartiles

Début de la moustache inf. = rang centile 1 se situe au score le plus bas
Bas de la boite = rang centile 25
Ligne noire dans la boite = médiane, rang centile 50
Haut de boite = rang centile 75
Haut de moustache = rang centile 100

  • Donne vue ensemble, peu importe le nb de scores
  • Comme il utilise les rangs centiles à titre de démarcation, on sait que la proportion des scores inclus entre 2 pts est de 25%
  • On retrouve 50% des scores dans la boite (rangs centiles 25 à 75)
  • On retrouve tjrs 50% des scores au-dessus et en-dessous de la ligne médiane dans la boite
  • Dans certains cas, des valeurs extrêmes éloignées des valeurs attendues sont illustrées par des cercles ou des étoiles
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qu’est-ce qu’une tendance centrale?

A

Fait référence à des mesures qui permettent de localiser le centre d’une distribution de scores.

Le but est de résumer en un seul nombre la valeur typique ou la plus représentative d’un ensemble de scores.

Il existe 3 mesures de tendance centrale:
- Moyenne
- le mode
- Médiane

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quels sont les valeurs de la moyenne, du mode et de la médiane lorsque la disribution est parfaitement normale?

A

Les valeurs de la moyenne, du mode et de la médiane sont =.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Que représente la moyenne?

A

La mesure de tendance centrale le plus couramment utilisée.

Se calcule en additionnant les valeurs observées de chaque participant divisées par le nb de participants observés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est-ce que le mode?

A

La valeur la plus fréquente d’un ensemble de données.

Rarement employé seul pour mesurer la tendance centrale, car avec un petit nb d’observations, chaque valeur est unique = pas de mode

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Qu’est-ce que la médiane?

A

Observation située au millieu d’une distribution de scores. C’est la valeur de part et d’autre de laquelle se site la moitée des observations.

On établit la liste des observations individuelles par ordre croissant ou décroissant et la position de la médiane se calcule différemment selon si le nb est pair ou impair.
Si pair: N/2
Si impair: N+1 / 2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Préfère-t-on généralement utiliser la moyenne ou la médiane? Explique.

A

On préfère la moyenne à la médiane, car la moyenne est calculée en utilisant un maximum d’informations de toutes les observations. La moyenne fait intervenir les valeurs de toutes les observations, alor que la médiane représente l’information d’une ou 2 observations.

La moyenne est cependant très sensible aux valeurs extrêmes, alors que la médiane ne l’est pas.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Quels éléments permettent de déterminer le niveau de dispersion des scores autour d’une valeur centrale?

A
  • Étendue
  • variance
  • Écart-type
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Qu’est-ce que l’étendue?

A

Écart entre la plus grande et la plus petite valeur d’une distribution.

Bien que l’étendue correspond à une seule valeur, on préfère généralement présenter la plus grande et la plus petite valeur d’une distribution ex: 40-80 pour ilustrer l’étendue. Comporte l’avantage d’indiquer au lecteur un ordre de gradeur pour les valeurs de la distribution.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Que mesure la variance et l’écart-type?

A

Mesurent la dispersion ou l’écart de chaque observation autour de la moyenne

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Quel symbole est utilisé pour représenter la variance d’une population?

A

sigma^2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Quel symbole est utilié pour représenter la variance d’un échantillon?

A

s^2

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

À quoi sert l’écart-type?

A

Ramène l’indice de dispersion à une échelle plus facilement appréciable avec la distribution à l’étude

24
Q

Qu’est-ce que la distribution normale?

A

Distribution théorique en forme de cloche et qui est appelée normale, car elle représente bien les distributions de plusieurs phénomènes observés dans la nature.
Cette distribution est dite théorique, car il est rare que la distribution d’un échantillon de scores soit parfaitement normale. Si cela s’avérait être le cas, la courbe de distribution des scores serait parfaitement symétrique et en forme de cloche autour de la moyenne.

Il devrait pouvoir observé un % + élevé de données près de la moyenne et un pourcentage de plus en plus faible à mesure que l’on s’éloigne vers les extrémités de la distribution.

Si distribution parfaitement normale:
- Entre 1 écart-type au-dessus et en-dessous de la moyenne, on retrouve 68% des scores
- Entre 2 écart-types en dessous et au-dessus de la moyenne, on retrouve 96% des scores
- Entre 3 écart-types en-dessous et au-desssus de la moyenne, on retrouve 99% des scores

25
Q

Qu’est-ce que le score z?

A

Permet à chaque valeur d’une distribution NORMALE de scores d’être exprimée de façon standardisée. Cette transformation permet de comparer des distributions de scores en utilisant une échelle unique (z).

Prend en considération la tendance centrale et la dispersion d’une distribution normale, permet donc de situer une observation par rapport aux résultats attendus pour cette population

Les probabilités pour les score z positifs s’appliquent aussi pour les scores z négatifs, car la courbe normale est symétrique.

26
Q

Qu’est-ce que la distribution d’échantillonnage vs distribution normale?

A

S’apparente bcp à la distribution normale. Représente la distribution des moyennes de plusieurs échantillons tirés d’une même population, alors que
La distribution normale représente la distribution des valeurs de plusieurs individus d’un même échantillon

Distribution d’échantillonnage: Moyenne de plusieurs échantillons (unité), moyenne de la population, Erreur standardisée de la moyenne (mesure de dispersion)

Distribution normale: Valeurs de plusieurs individus (unités), Moyenne de l’échantillon, Écart-type (mesure de dispersion)

27
Q

Qu’est-ce que l’intervalle de confiance?

A

Intervalle de valeur dans lequel nous savons, avec un niveau de certitude déterminé préalablement que la moyenne d’une population pour une variable donnée devrait se trouver.

Une probabilité de 95% est utilisé, donc il y a 95% de chance que la véritable moyenne de la population visée se trouve dans l’intervation de confiance calculée

Permet de déterminer si les 2 moyennes de 2 échantillons diffèrent de façon significative.

28
Q

Qu’est-ce que le niveau alpha/le niveau de signification pré-établi?

A

Représente la probabilité de conclure que les moyennes sont différentes, alors qu’elles sont équivalentes. La valeur de 5% est généralement utilisée.

29
Q

Qu’est-ce que la valeur P?

A

Probabilité réelle d’énoncer une conclusion éronnée à partir des résultats d’un test statistique. Elle est donnée après chaque test statistique et c’est celle-ci qu’on retrouve dans les articles.

30
Q

Quelle est la conclusion lorsque la valeur P du test statistique est plus petite/inférieure à la valeur préétablie (alpha)?

A

On conclut à des différences significatives entre les 2 moyennes. p < ou = 0,05

31
Q

Quels sont les 2 types de tests utilisés pour comparer les moyennes de 2 échantillons?

A
  • Test paramétriques
  • Test non-paramétriques
32
Q

Qu’est-ce qu’un test paramétrique?

A
  • Utilisent les paramètres des échantillons (moyenne, variance, écart-type) pour det. si diff. significatives entre les moyennes
  • 3 prémisses à respecter:
    1. Variable d’intérêt est distribuée selon une courbe normale ou une une courbe avec déviation raisonnable de la normalité d’une distribution
    2. Homogénéité des variances: la variabilité ou dispersion intra-groupe pour la variable doit être similaire dans les échantillons. Certaines différences de variances peuvent être acceptées.
    3. Indépendance ou dépendance des échantillons
33
Q

Quels sont les facteurs influencant les tests paramétriques? Comment ces facteurs influencent-ils les tests paramétriques?

A
  • L’écart entre les moyennes des échantillons comparés. Plus l’écart est grand, plus grande est la probabilité de conclure que les moyennes de ces échantillons sont différentes.
  • Taille des échantillons influence l’erreur standardisée de la moyenne
  • Dispersion des données à l’int. des échantillons influence l’erreur standardisée de la moyenne.

En présence d’une variabilité + faible dans les scores (écart-type + petit) ou d’un échantillon + grand, on diminue l’erreur standardisée des moyennes ce qui diminue la largeur des courbes normales représentant chaque échantillon. Ceci augmente la probabilité de conclure que les échantillons sont différents.

34
Q

Qu’est-ce qu’un test non-paramétrique?

A
  • Test qui n’utilise pas les paramètres habituels des échantillons (moyenne, variance, écart-type) pour dét. des différences significatives entre les groupes. Ils sont plutôt basés sur les rangs des valeurs dans les distributions ou sur des fréquences.

S’utilisent quand prémisses de normalité des données et d’homogénéité des variances ne sont pas véritablement respectées. Se produit lorsque le nb de participants est petitet que les données peuvent difficilement être normalement distribuées.

Les données de 10 participants et - ne peuvent être jugés représentatives de l’ensemble de la population.

35
Q

Quelles échelles de mesure sont utilisés avec les tests non-paramétriques?

A

Échelles de mesure nominale ou ordiale qui en principe ne présentent pas de moyenne et d’écart-type, car ils utilisent les rangs ou les fréquences pour calculer les stats qui permettent de det. des différences significatives entre les échantillons.

36
Q

Sur quels critères reposent la sélection de tests statistiques dans le cas d’analyses de différence?

A
  • Respect des prémisses de base (normalité des distributions, homogénéité des variances)
  • Types d’échelles de mesure (nominale, ordinale, par intervalle, proportionnelle)
  • Nb d’échantillons ou de groupe (>2 ou <2)
  • Types d’échantillons
37
Q

Quels sont les types d’échantillons? Expliquer.

A
  • Dépendant: lorsque les données proviennent des mêmes participants mesurés à plusieurs reprises dans le t.
  • Indépendant: Lorsqu’ils proviennent de participants différents
38
Q

Quels tests sont utilisés pour les échantillons indépendants?

A

Paramétriques:
- Test T données ind.
- ANOVA

Non-paramétriques:
- Mann-Whitney
- Chi-carré
- Kruskal-Wallis

39
Q

Dans quel contexte utilise-t-on le test T pour échantillons indépendants?

A
  • S’utilise lorsqu’on compare les moyennes de 2 échantillons différents et que l’on désire déterminer si elles sont significativement différentes.
  • Principes de normalité et d’homogénéité des distributions sont respectées
  • Échantillons ind.
40
Q

Dans quel contexte utilise-t-on le test Mann-Whitney?

A
  • Qd principes de normalité et homogénéité des distributions ne sont pas respectées
  • Échantillons ind.
41
Q

Dans quel contexte utilise-t-on le test ANOVA?

A
  • Échantillons ind.
  • En présence de + de 2 échantillons ind. respectant les prémisses de normalité et homogénéité des variances
42
Q

Dans quel contexte utilise-t-on le test Kruskal-Wallis?

A
  • En présence de + de 2 échantillons ind.
  • Prémisses de normalité des distributions et de l’homogénéité des variances ne sont pas respectées
43
Q

Dans quel contexte le test Chi-carré est-il utilisé?

A

S’applique lorsque la variable d’intérêt est mesurée à partir d’une échelle de mesure nominale dichotomique (slm 2 rep possibles)
- S’applique à des analyses de 2 échantillons ou plus
- Échantillons ind.
- Compare les fréquences

44
Q

Quels tests sont utilisés pour les échantillons dépendants?

A

Paramétrique:
- Test T pour données pairées
- ANOVA à mesures répétées

Non-paramétriques:
- Wilcoxon signed rank
- ANOVA de Friedman

45
Q

Dans quel contexte le test T pour échantillons dépendants est-il utilisé?

A
  • Qd même groupe de participant est mesuré 2fois à la suite du passage du temps ou d’une intervention. Première mesure est utilisée comme controle de la 2e.
  • Éhantillon dépendant
46
Q

Dans quel contexte le Wilcoxon Signed Rank Test est-il utilisé ?

A
  • Lorsque les prémisses de normalité et homogénéité ne sont pas respectées
  • Basé sur le rang des observations et surtout sur le rang de la différence entre les 2 observations d’un même participant et non sur leur valeur absolue
  • Échantillon dépendant
47
Q

Dans quel contexe utilise-t-on le ANOVA à mesures répétées?

A
  • Échantillon dépendant
  • En présence de + de 2 temps de mesure
  • Prémisses de normalité et d’homogénéité s’appliquent
  • Basé sur les différences entre les temps de mesure
48
Q

Dans quel contexte utilise-t-on le test ANOVA de Friedman?

A
  • Échantillons dépendants
  • En présence de + de 2 temps de mesure
  • Prémisses de normalité et homogénéité non respectées
  • Basé sur le rang des observations plutôt que sur leurs valeurs absolues pour chaque temps de mesure
49
Q

Expliquer le diagramme de dispersion.

A

Chaque pt est un couple de valeurs (X,Y) représentant, pour chaque participant, les coordonnées pour les variables X et Y.

Ensemble des pts montre globalement la relation entre les 2 variables.

Pour quantifier le degré d’association, on doit avoir recours à la corrélation simple: permet de déterminer la direction et la force de la relation entre 2 variables et si elle est statistiquement significative

50
Q

Grâce à quel coefficient se vérifie la relation entre 2 variables?

A

Coefficient de corrélation

51
Q

Quels sont les types de coefficient de corrélation?

A
  • Coefficient de corrélation de Pearson (r)
  • Coefficient de corrélation de Spearman (rho, p)
52
Q

Quels sont les prémisses de base à vérifier pour le choix du coefficient de corrélation?

A
  • Relation entre les deux variables est linéaire
  • Pour chaque valeur de X, la variance de la variable Y est équivalente
53
Q

Expliquer le coefficient de corrélation de Pearson.

A

Utiliser pour calculer le degré d’association entre 2 variables ayant des échelles par intervalle ou proportionnelle

Caractéristiques du coefficient:
- Valeur entre -1 et 1. + la valeur approche de 0, + l’association est faible entre les 2 variables
- Valeur +: 2 variables évoluent dans même sens
- Valeur -: 2 variables évoluent en sens contraire

Dans le cas de petits échantillons, un seul participant peut influencer énormément les résultats de l’association.

54
Q

Expliquer comment déterminer s’il y a une association réelle entre 2 variables après avoir calculé le coefficient de corrélation.

A

La valeur t du test est comparé à une valeur t critique correspondant à un niveau de signification (alpha) prédéterminé à 5%. Si la valeur calculée est > que la valeur critique, alors l’association entre les deux variables sera jugée statistiquement significative.

55
Q

Expliquer le coefficient de corrélation de Spearman.

A
  • Utilisé lorsqu’une des 2 échelles est de type ordinal
56
Q

Comment interpréter le résultat des coefficients de corrélation?

A

Très faible/nulle: 0-0,25
faible: 0,26-0,49
Modéré: 0,50-0,69
Élevé: 0,70-0,89
Très élevé: 0,90-1,00

Lorsque nous utilisons un même test clinique à 2 reprises, afin de mesurer sa fidélité, un coefficient de corrélation inférieur à 0,7 est insuffisant, mais dans certains contextes une corrélation de 0,5 peut être jugé suffisant.