Introduction à l'analyse statistique inférentielle Flashcards
(33 cards)
Inférence statistique
Il y a deux types d’erreurs qui peuvent venir «fausser» (invalider) les résultats d’une étude:
1) les erreurs systématiques (les biais) – vues dans la 1ère moitié de la session.
2) les erreurs aléatoires (la chance, le hasard) – vues dans la 2e moitié de la session.
* L’inférence statistique permet de jauger l’effet du hasard (de la chance) sur les résultats d’une étude.
Inférence statistique : c’est quoi et elle sert à quoi*****
Définition: Champ de la statistique qui a pour objet de déterminer la probabilité que des événements surviennent seulement par chance (c.-à-d., en raison du hasard).
Applications (utilité):
Estimer les paramètres d’une population (p.ex.: incidence cumulée, prévalence, moyenne) avec une certaine marge d’erreur;
Estimer des différences entre des mesures (p.ex.: moyennes, médianes, proportions) et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard;
Estimer des associations entre des variables et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard;
Faire des prédictions au sujet d’une variable dépendante et déterminer la probabilité qu’elles soient réelles ou le fruit du hasard.
Estimation de paramètres
Lors d’une étude, l’estimation des caractéristiques d’une population (p.ex.: une moyenne, un taux d’incidence) se fonde sur les valeurs observées dans un échantillon;
Même si cet échantillon a été sélectionné aléatoirement, ses caractéristiques ne sont qu’une approximation des valeurs réelles dans la population;
De plus, plusieurs échantillons de taille identique issus de la même population n’auront pas exactement les mêmes caractéristiques (la même moyenne, par exemple);
C’est ce qu’on appelle l’erreur d’échantillonnage (voir prochaine diapo);
Comment pouvons-nous savoir si les caractéristiques que l’on rapporte dans une étude sont précises ou non ? Quelles représentent bien les valeurs réelles de la population?
Estimation de paramètres***
Afin de tenir compte de l’erreur d’échantillonnage, on rapporte souvent une caractéristique donnée de la population (p.ex.: incidence, prévalence) avec sa marge d’erreur;
Cette marge d’erreur porte le nom d’intervalle de confiance;
MARGE ERREUR= INTERVALLE DE CONFIANCE
Définition: L’intervalle de confiance (IC), c’est l’intervalle de valeurs qui a de fortes probabilités (généralement 95%) de contenir la vraie valeur du paramètre d’intérêt;
Pourquoi 95% relié à cette idée de «normalité statistique» abordée au cours 9 (voir prochaine diapo pour un rappel);
Dans certaines études, la marge d’erreur peut être plus ou moins grande (p.ex.: IC99% ou IC90%);
Estimation de paramètres
L’importance de la marge d’erreur (c.-à-d., la largeur de l’intervalle de confiance) dépend de la taille de l’échantillon (le n):
- Un grand échantillon implique une petite marge d’erreur (et donc un intervalle de confiance plus étroit) et vice versa;
- C’est pour cette raison que dans plusieurs études, la section méthode comporte une sous-section appelée «sample size calculation» (calcul de la taille de l’échantillon requis) ou «power analysis » (analyse de puissance statistique);
- On souhaite ainsi déterminer, avant le début de l’étude, le nombre de patients requis afin de produire des estimés de paramètres qui sont relativement précis (c.-à-d., qui ont une marge d’erreur relativement étroite).
Comparaison de mesures**
L’inférence statistique peut aussi être utilisée afin de comparer les caractéristiques de deux ou plusieurs groupes (voir diapos suivantes pour exemple) afin de déterminer si leurs différences sont réelles ou le fruit du hasard;
C’est alors un processus qui porte le nom de «vérification d’hypothèses statistiques»;
Ce processus comporte 4 étapes. Elles sont décrites dans les prochaines diapos;
Note: Ces étapes sont rarement (voire jamais) écrites textuellement dans les articles de recherche, mais certains mots-clés nous permettent de les déceler.
Comparaison de mesures : recette générale étape 1
Formuler l’hypothèse nulle (H0) et l’hypothèse alternative (HA)
H0: Dans la population, il n’y a pas de différence entre les unités contrôles et les unités d’intervention pour ce qui est de la durée médiane de séjour (par exemple);
HA: Dans la population, il y a une différence entre les unités contrôles et les unités d’intervention pour ce qui est de la durée médiane de séjour (par exemple);
Note: ces hypothèses ne sont jamais écrites dans les articles de recherche. On prend pour acquis que tout le monde sait ça ou pense comme ça!
Comparaison de mesures : recette générale étape 2
Définir la marge d’erreur (synonyme: seuil de signification statistique [statistical significance], seuil α)
Par convention, on fixe α à 5% (0,05); plus rarement, on le fixe à 1% (0,01); ce qui veut dire :
5%: On accepte de se tromper 1 fois / 20;
1%: On accepte de se tromper 1 fois / 100;
On «accepte de se tromper», car on travaille avec un échantillon et on sait qu’il y a toujours un certain risque que la chance nous joue des tours;
Utilité: c’est un critère de décision. On s’en sert à l’étape 4 pour décider si on accepte l’hypothèse nulle ou si on la rejette en faveur de l’hypothèse alternative.
Comparaison de mesures : recette générale étape 3
Effectuer le test statistique approprié:
L’algorithme de décision (diapo suivante) donne la liste des principaux tests statistiques rencontrés dans la littérature. Il y a deux catégories de tests:
Test paramétrique: catégorie de tests statistiques utilisés pour des variables qui suivent une distribution normale (ou une autre forme connue de distribution des données);
Test non paramétrique: catégorie de tests statistiques utilisés lorsque les données ne suivent pas une distribution connue;
Note: L’algorithme est un guide de lecture: Je ne vous demanderai jamais, par exemple, de me dire quel test est approprié pour comparer la différence entre deux moyennes. Il faut juste savoir que ces tests servent à comparer des mesures.
Effectuer le test statistique approprié (suite)
Quel que soit le test statistique utilisé dans une étude, une valeur p est toujours produite;
Valeur p: C’est la probabilité d’observer par hasard seulement un score aussi extrême que celui observé dans l’échantillon de l’étude si H0 est vraie:
Dans notre exemple, c’est la probabilité que la différence entre la durée médiane de séjour des unités contrôle (3.27 jours) et celle des unités d’intervention (3.25 jours) soit le fruit du hasard ou d’erreurs d’échantillonnage;
Dans le tableau de la diapo 17, une valeur p = 0.40 est rapportée pour la comparaison des durées médianes de séjour. Ça veut dire quoi?
Comparaison de mesures : recette générale étape 4
Interpréter les résultats du test statistique:
L’interprétation se fait par rapport au seuil de significativité statistique défini à l’étape 2 (diapo 19):
Si p ≤ α, on rejette l’hypothèse nulle (H0) et on accepte l’hypothèse alternative (HA). On conclut que la différence observée entre les deux groupes d’unités n’est pas le fruit du hasard; qu’elle est réelle ou «statistiquement significative».
Si p > α on accepte l’hypothèse nulle (H0) et on conclut qu’il n’y a pas de différence entre les durées médianes de séjour des deux groupes. On conclut que la différence observée entre les groupes est le fruit du hasard; qu’elle «n’est pas statistiquement significative». C’est le cas dans notre exemple (p = 0,40; ce qui est > que notre seuil de significativité statistique α = 0,05).
- on formule hypothèse
- on défini la marge d’erreur 9ex : on accepte de se tromper une fois sur 20 ou une fois sur 100
- on fait le test statistique approprié
- interprétation
Estimer des associations (correlation) entre des variables et déterminer la probabilité qu’elles soient réelles
Estimer des associations bivariées
L’inférence statistique (ou vérification d’hypothèses statistiques) permet également de déterminer s’il existe des associations (corrélations [r]) entre deux variables; nommées variable indépendante et variable dépendante;
On suit alors les 4 mêmes étapes décrites pour les mesures de comparaison:
Formulation des hypothèses nulle et alternative (tacite);
H0: Dans la population, il n’y a pas de corrélation entre les variables (r = 0);
HA: Dans la population, il y a une corrélation entre les variables (r ≠ 0);
Détermination du seuil de significativité statistique (α = 0,05);
Réalisation du test statistique (une mesure de corrélation, r);
Interprétation de la corrélation et de la valeur p;
tests paramétriques et non paramétriques servant à mesurer l’association entre deux variables
but : mesure l’association entre deux variables
test paramétriques : coefficient de corrélation de Pearson
test non paramétriques : coefficient de correlation Spearman ou test de kendall
But : mesure association entre deux variables dichotomiques (deux valeurs)
test paramétriques :
test non paramétriques : coefficient phi
Estimer des associations bivariées*****
Coefficient de corrélation (r): Valeur qui permet de décrire l’intensité, la direction et la signification statistique de l’association linéaire entre deux variables:
3 caractéristiques:
Direction (ou sens):
Positive : coefficient r > 0
Négative : coefficient r < 0
Valeur nulle: coefficient r = 0
Intensité ou force (varie de – 1,00 à + 1,00):
Forte: r ≥ ±0,70**
Modérée: r entre ± 0,31 et 0,69
Faible: r < ±0,30**
Valeur p (interprétée en fonction du seuil α choisi):
Si p ≤ 0,05, l’association est dite «statistiquement significative»
Si p > 0,05, l’association est dite «non significative»
bivariés : deux variables indépendantes
multivariés : plus de 2 variables indépendantes
Estimer des associations bivariées
Interprétation: Il y a une association modérée et positive entre l’âge et le temps de récupération. Cette association est statistiquement significative au seuil de 5%.
L’association est:
Modérée, car r est entre 0,31 et 0,69
Positive car plus l’âge avance, plus le temps de récupération est long.
Statistiquement significative, car p < 0,05.
Estimer des associations bivariées
Puisqu’un coefficient de corrélation est un estimé du degré d’association entre deux variables (force et direction), il pourrait, dans certains articles, être rapporté avec son intervalle de confiance à 95% (IC95%).
L’IC95% aurait alors la même signification que précédemment: nous indiquer l’étendue des valeurs attendues de cette corrélation dans la population 19 fois sur 20 (ou 95% du temps).
Mesure de prédiction/ analyse de régression
L’inférence statistique (ou vérification d’hypothèses statistiques) permet également de prédire la valeur d’une variable dépendante en se fondant sur la valeur d’une ou de plusieurs variables indépendantes;
On suit alors les 4 mêmes étapes décrites précédemment:
Formulation des hypothèses nulle et alternative (tacite);
H0: Dans la population, il n’y a pas d’association entre les variables ;
HA: Dans la population, il y a une association entre les variables;
Détermination du seuil de significativité statistique (α = 0,05);
Réalisation du test statistique (une analyse de régression);
Interprétation des coefficients de régression, et de la valeur p;
Mesures de prédiction: régression
Que veut dire régression, quelles sont ses trois caractéristiques
Régression: Procédure statistique qui permet de prédire la valeur d’une variable dépendante en se fondant sur la valeur d’une ou de plusieurs variables indépendantes;
3 caractéristiques:
Donne la formule de la droite qui s’ajuste le mieux au nuage de points décrivant la relation entre les valeurs de deux variables. Cette formule est rarement donnée dans les articles scientifiques;
Produit un coefficient (bêta [β]) qui donne l’amplitude du changement de la variable dépendante pour chaque unité de changement de la variable indépendante (analogue à une corrélation, car la régression est aussi une mesure de l’association entre des variables);
Valeur p (interprétée en fonction du seuil α choisi):
Si p ≤ 0,05, l’association est dite «statistiquement significative» ;
Si p > 0,05, l’association est dite «non significative»;
Formule d’une droite (de régression):
𝑦= 𝛽0+ 𝛽1 𝑥1
y = valeur de la variable dépendante (VD);
𝛽_0 = point d’origine de la droite sur l’axe des y (l’ordonnée);
Aussi appelée «intersection» ou «ordonnée à l’origine»;
C’est la valeur de y quand x1 = 0;
𝛽_1 = pente de la droite de régression;
A le même signe (+ ou -) que r, mais pas la même valeur
Aussi appelé «coefficient de régression» (analogue à une corrélation);
C’est l’influence d’une unité de changement de x (la VI) sur y (la VD);
C’est ce que vous devrez apprendre à interpréter;
x = valeur de la variable indépendante (VI);
Interprétation de mesures de prédiction
Interprétation: TAD = 59,311 + 0,22(poids)
Pour chaque Kg additionnel gagné on observe une augmentation de la tension artérielle diastolique de 0,22 mm Hg. Il s’agit d’une augmentation, car il y a un + avant le coefficient;
Cette relation est statistiquement significative:
Au seuil de 5% car p < 0,05;
En conclusion:
La régression décrit (tout comme la corrélation) la relation (association) entre deux variables;
Son intérêt (utilité) tient au fait qu’on peut aussi l’utiliser (contrairement à la corrélation) afin de: 1) prédire des valeurs de la VD; 2) décrire la relation entre une VD et plusieurs VI
Régression linéaire
Coefficient de régression (β): Valeur qui permet de décrire l’intensité, la direction et la signification statistique de l’association entre une VI et une VD continue:
3 caractéristiques:
Direction (ou sens):
Facteur de risque (Positif): coefficient de régression β > 0
Facteur de protection (Négatif): coefficient de régression β < 0
Valeur nulle: coefficient de régression β = 0
Intensité ou force:
Plus le coefficient β s’éloigne de la valeur nulle, plus l’association est forte, peu importe la direction (contrairement à une corrélation, le coefficient de régression n’est pas limité aux valeurs se situant entre -1 et +1);
Valeur p (interprétée en fonction du seuil α choisi):
Si p ≤ 0,05, l’association est dite «statistiquement significative»
Si p > 0,05, l’association est dite «non significative»
Les types de tests statistiques de régression : régression linéaire simple, régression multiple, régression logistique
Régression linéaire simple : prédit la valeur d’une variable dépendante en se fondant sur la valeur d’UNE variable indépendante. type de variable continu VI et VD
Régression multiple : prédit la valeur d’une variable dépendante d’après les valeurs de plusieurs variables indépendantes. Est une extension de l’analyse de la régression linéaireé Type de variable; VI : nominale ou continues. VD : continu
Régression logistiques (peut être aussi simple ou multiple : détermine quelles sont les variables qui ont un impact sur la probabilité de survenue d’un évènement et estime les risques relatifs. VI : nominale ou continue. VD : nominale ou dichotomique