Statistiques Flashcards
(39 cards)
Quel est la différence entre une population et un échantillon?
-Population : toutes observations possibles pour un groupe défini
-Échantillon : sous-groupe de la population (sélectionné aléatoirement
Quelles sont les statistiques qui décrivent une distribution de fréquence?
-moyenne
-médiane (0% de la distribution d’un bord, 50% de l’autre)
-mode (point le plus haut/classe plus fréquente)
-intervalle
-écart type
-variance
-CV
-intervalle interquartile
Qu’est-ce qui distingue une distribution unimodale et bimodale?
La distribution bimodale a 2 modes mais juste une médiane et une moyenne.
Qu’est-ce que la variance?
Écart type au carré
EXAM. Qu’est-ce que le CV et quelle est l’équation pour le calculer?
dispersion autour de la moyenne, écart-type relatif à la moyenne
CV = (écart-type / moyenne) x 100
Qu’est-ce que l’intervalle interquartile et comment on le calcule?
Mesure de dispersion pour distribution non gaussienne, intervalle entre 25e centile et 75e centile (représente le 50% du milieu de la distribution)
EI = Q3-Q1
À quoi sert un test de normalité et nomme une test pour calculer la normalité?
-Test permettant de savoir si tes résultats forme une cloche gaussienne (distribution symétrique autour de la moyenne).
-Test de Kolmogorov-Smirnov
Comment augmenter la normalité de ton test?
Augmenter la quantité de données ou raffiner les classes
J’ai une distribution normale, quel type de test devrais-je faire?
Un test paramétrique
J’ai des données qui ne semblent pas avoir une distribution normale, qu’est-ce que je peux faire?
Faire un graph en transformant les données (les mettre au carré ou faire le log)
Dans une distribution normale, quels sont les % des données dans +/-1, +/-2 et +/-3 écart-type?
+/- 1 écart type = 68.26% de la population
+/- 2 écart type = 95.44% de la population
+/- 3 écart type = 99.72% de la population
**on a environ 0.3% de chance d’être à plus de 3 écart-type de la moyenne, donc souvent on va refaire la mesure ou l’analyse avant de rejeter la données.
Qu’est-ce que l’erreur standard de la moyenne (SEM) et comment on la calcule?
Déterminer l’intervalle de confiance autour de la moyenne calculée (donne une idée si la moyenne est bonne ou pas)
SEM = écart type/ (racine carré de N)
Comment déterminer une vraie moyenne?
Exercice: en évaluant 31 contrôles de qualité, vous avez obtenu une moyenne de 210umol/L et un écart-type est de 4.2umol/L. Quel est le CV et entre quelles valeurs se situent la vrai moyenne?
Vraie moyenne = moyenne échantillon ± t* SEM (puisque pas possible de savoir la vraie moyenne d’une population)
CV = 4.2/210*100 = 2%
SEM = 4.2/√31 = 0,75 umol/L
Dans tableau de référence: t pour 95% de probabilité, bilatéral, avec 30 degrés de liberté (N-1) = 2,04
Donc: vrai moyenne = 210 umol/L ± (2,04 * 0,75 umol/L) = entre 208,5 à 211,8 umol/L, avec 95% de probabilité
Quand on compare 2 échantillons provenant de 2 populations, on observe des différences entre les moyennes et les écarts-types des 2 échantillons. Quelles sont les différentes hypothèses à tester pour savoir si la différence est réelle?
Hypothèse nulle ou alternative
Hypothèse nulle (Moyenne 1 = Moyenne 2, Variance 1 = Variance 2)
Hypothèse alternative (moyenne et variance différente)
-bilatérale (Moyenne 1 ≠ Moyenne 2)
-unilatérale: Moyenne 1 > Moyenne 2 ou Moyenne 1 < Moyenne 2
Dans quelle situation peut-on utiliser un test de T et quelles sont les 2 prérequis?
-utilisé pour comparer la moyenne de deux groupes
-les données doivent être distribuées de façon normale et avoir des variances similaires (tester avec test F)
Comment peut-on savoir si nos deux moyennes de tests différents ont des variances similaires?
Grâce au test de F qui compare Fcalculé (variance 1 / variance 2) avec une table de valeur de Fcritique. Si Fcrit>Fcalc, accepte l’hypothèse nulle (variance 1 = 2).
Exercice (Test de F): Vous avez 2 groupes
A) n=33, moy 2260 mg/L, ET 582 mg/L
B) n=29, moy 2650 mg/L, ET 473 mg/L
Est-ce que les variances des deux groupes sont similaires et pourriez-vous procéder au test de T?
1) Fcalc = (variance 1/variance2) = (ET1)^2/ (ET2)^2 = (582)^2/ (473)^2= 1,52
2) Fcrit selon le tableau = 1.84
Degrés de liberté:
Numérateur N=33, df= 32
Dénominateur N=29, df= 28
3) Fcalc (1.52) < Fcrit (1.84) → j’accepte l’hypothèse nulle et je suppose que les variance son égale
4) possible de faire test de T (Si valeur absolue T < Tcritique → accepter hypothèse nulle)
EXAM. Qu’est-ce que la sensibilité et la spécificité, et comment les calculer?
Sensibilité: Capacité à identifier correctement les vrais positifs (vrais malades)
-sensibilité = VP/ (VP+FN) = VP/total des malades
-ex: sensibilité de 80% = 8 patients malades sur 10 auront un résultat positif
Spécificité: Capacité du test à identifier les vrais négatif (non malades)
-spécificité = VN / (VN+FP) = VN/non malades
-spécificité 90% = 9 sujets non malades sur 10 auront un résultat négatif
Qu’est-ce que le seuil et comment il affecte la sensibilité et la spécificité?
-seuil : cutoff, détermine sensibilité et spécifique
-la sensibilité et la spécificité sont toujours réciproques
-seuil plus bas → sensibilité augmentée et spécificité diminuée
-seuil plus haut → sensibilité diminuée et spécificité augmentée
EXAM. Qu’est-ce que le VPP et VPN, et comment les calculer?
Valeur prédictive positive (VPP) : proportion de patients avec résultat positif qui ont effectivement la maladie
-VPP = VP / (VP + FP) = VP / (tous les +)
Valeur prédictive négative (VPN) : Proportion des patients avec résultat négatif qui ne sont effectivement pas malade
-VPN = VN / (VN+FN) = VN / (tous les -)
Comment calculer l’exactitude diagnostique?
exactitude diagnostique = (VP + VN) / total
*c’est comme un % de fois qu’on teste les bons dans les deux sens
Est-ce que la sensibilité, la spécificité, la VPP et la VPN sont affectés par la prévalence d’une maladie?
Seulement les VPP et VPN sont fortement influencé par la prévalence
Ex: pour une même sensibilité (seuil), un test performe mieux quand il y a une haute prévalence de la maladie que quand il y a une plus faible prévalence (trop de faux négatifs)
EXAM. À quoi sert la courbe ROC et comment est-elle construite?
-Permet de choisir le seuil optimal et de comparer deux tests entre eux
-elle est construite en mettant sur un graph le taux de vrais positifs (sensibilité) en fonction du taux de faux positifs (1- spécificité) pour différents seuils choisis
-plus la surface sous la courbe ROC est grande, plus le test est performant (donc courbe ROC linéaire = pourri)
Dans quelles situations il faut préférer la sensibilité vs la spécificité?
-Si on veut exclure = mieux d’avoir un seuil qui favorise la sensibilité
-Si on veut catégoriser/diagnostiquer = favoriser spécificité au détriment de la sensibilité