Examen final Flashcards
(38 cards)
Qu’est-ce qu’une analyse bivariée ?
- Elle permet d’étudier la relation entre deux variables (variable dépendante et indépendante).
- La famille de tests utilisée dépend du type de variables (nominale, continue, ordinale).
Quels sont les avantages des statistiques bivariées ?
- Permet de comprendre le sens des relations.
- Permet de comprendre la force des relations.
- Permet de faire du « ménage » dans nos données (les réorganiser).
Quelles sont les limites des statistiques bivariées ?
- Analyse uniquement une relation simple.
- Limite les interprétations possibles.
- Limite notre compréhension du monde (la nature complexe des relations).
Quels sont les postulats d’utilisation ?
Quel test statistique choisir ?
Ensemble de règles à respecter dans l’utilisation des statistiques pour assurer la validité des résultats.
- Ils sont associés à chaque famille de test.
- Quand les postulats d’utilisation ne sont pas respectés, cela mène à une fausse sensibilité du test.
- On vérifie les postulats avant de réaliser le test et d’analyser les résultats.
Qu’est-ce que la signification ?
Étape 1 de l’analyse des résultats.
Teste l’hypothèse selon laquelle la relation observée avec nos données est équivalente à celle observée dans la population ou si elle est attribuable à la chance/au hasard.
- Représentée par p ou sig. : la probabilité que l’hypothèse nulle soit vraie lorsque comparée à l’hypothèse testée.
* = p ≤ 0,05 | ** = p ≤ 0,01 | *** = p ≤ 0,001
- Significatif à p<0,05 : rejet de H0, un lien existe entre nos deux variables.
- Supérieur à 0,05 : ne peut pas rejeter l’hypothèse nulle.
Est-ce que ma relation entre X et Y est statistiquement significative ?
Qu’est-ce que la force (association) de la relation ?
Étape 2 de l’analyse des résultats.
Qualifie la relation et établit si la différence est attribuable à la taille de l’échantillon ou non.
- Il est différent pour chaque test statistique.
- Connaitre le domaine d’étude pour identifier la force de la relation.
- Un coefficient de force de plus de 0,80 peut indiquer de la colinéarité (les deux variables mesurent le même phénomène).
Est-ce que l’impact de X sur Y est fort, modéré ou faible ?
Qu’est-ce que le barème selon Rea & Parker (1992) ?
- Des effets forts ne sont pas nécessairement intéressants.
- La force des relations est souvent en fonction du champ ou du domaine de recherche.
En sciences sociales, peu important. Alors qu’en sciences natures, très important.
Qu’est-ce que le sens de la relation ?
Étape 3 de l’analyse des résultats.
On transpose en mots concrets la relation entre nos variables.
1. Tableaux croisés et tests de moyenne :
- Quel groupe a la fréquence ou la moyenne la plus élevée ?
- On compare les deux groupes sur la variable dépendante.
2. Corrélation :
- Relation positive : Plus X, plus Y.
- Relation négative : Plus X, moins Y.
Quelles sont les conditions de la corrélation vs la causalité ?
- Causalité : certains facteurs doivent causer un événement, la cause précède la conséquence.
- Corrélation/Covariation : relation entre deux variables.
- Les explications alternatives sont exclues.
EXEMPLE
Le crime et le prix des maisons : causalité ou corrélation?
1. Une différence de 0,1% de la densité criminelle dans les quartiers de Londres est associée à une hausse des prix de l’immobilier de 1%.
- Lorsque le crime augmente, le prix des maisons baisse.
2. Éloigner une maison d’un km d’un hot spot criminel augmente sa valeur de 4000$.
- Lorsque le prix des maisons augmente, le taux de crimes augmente (plus de biens de valeur, pas le même type de criminalité, violence intrafamiliale).
3. Le prix de vente des maisons (1995-1998) est moins élevé si le niveau de crime de l’année précédente est plus élevé.
- Donc, le crime et le prix des maisons s’inter-influencent.
Qu’est-ce que le tableau de contingence ?
Permet de :
1. Tester le lien d’indépendance entre deux variables.
2. Synthétiser l’information.
- Moyen de représenter simultanément deux caractères observés sur une même population et d’étudier le lien qui les unit.
Quelle sorte de variables (continue, dichotomique, nominale) ?
Que sont les postulats d’utilisation utilisant le Chi carré ?
- Avec un échantillonnage aléatoire.
- Le total ne doit pas être plus petit que 20.
- La fréquence espérée ne doit pas être inférieure à 5.
Qu’est-ce que la signification avec Chi carré ?
- Il sert à tester des hypothèses.
- Existe-t-il un lien entre deux variables nominales ? - Il est utile pour savoir s’il existe un lien entre deux variables nominales (signification de la relation).
- Significatif à p<0,05 : rejet de H0, une relation existe entre nos deux variables.
- Lorsque c’est supérieur, nous ne pouvons rejeter avec certitude l’hypothèse nulle. -
Associée au nombre de sujets (n).
- Une très petite différence entre deux groupes est significative avec 1000 sujets.
- À l’inverse, avec de petits échantillons, on a besoin de grandes différences pour que ce soit significatif.
Qu’est-ce que le tableau de contingence utilisant le Chi carré ?
- Comparer les résultats obtenus dans notre étude aux résultats théoriquement obtenus à l’aide du hasard.
- Plus la différence entre les deux ensembles de résultats est élevée, plus la valeur du Chi carré est élevée.
= Plus la probabilité que le lien observé entre ces deux variables soit réel est élevée.
En théorie vs en pratique (résultats).
Qu’est-ce que la force de la relation avec le Chi carré ?
- La valeur du Chi est directement influencée par le nombre de sujets et la force de la relation.
- Le Phi (Pearson’s coefficient of mean-square contingency) : mesure dérivée du Chi carré.
- Élimine l’effet de la taille de l’échantillon en divisant le chi carré par n, et en extrayant la racine carrée.
- Utilisé dans les tableaux 2x2.
- Tableau de plus de 2x2 : la valeur du phi dépasse 1 = le rend moins intéressant.
- Influencé par le nombre de catégories.
Qu’est-ce que le V de Cramer ?
Dans la force de la relation.
La mesure d’association la plus populaire basée sur une variation du Chi carré.
- Varie de 0 à 1.
- Facile à utiliser et à interpréter.
- Utilisé dans les tableaux supérieurs à 2x2.
Que sont les tests de différences de moyenne ?
-
Comparer les moyennes de plusieurs groupes.
- Une variable nominale (groupale).
- Une variable continue ou ordinale. -
Critères pour choisir le bon test à utiliser.
- Paramétrique ou Non paramétrique (normalité de la distribution, N > 30).
- Pas normal = automatiquement NON paramétrique.
- Nombre de groupes à comparer.
Qu’est-ce que le T de Student ?
- Postulats d’utilisation non respectés = fausse sensibilité du test.
- Pour qu’il soit valide :
- Les distributions sont normales.
Distributions non normales : moyenne non représentative (quel test ?).
- Les variances sont comparables (test de Levene).
Les formes de la variance de chaque groupe sont-elles similaires ?
Qu’est-ce que la signification du T de Student ?
- *Existe-t-il un lien entre une variable dichotomique et une variable continue (ou ordinale) ? *
- Utile pour savoir s’il existe un lien entre deux variables.
Qu’est-ce que la force de la relation du T de Student ?
Le Eta2.
- Coefficient d’association (ou de force) des tests de moyennes paramétriques.
- Entre la variable catégorielle (nominale) et la variable continue.
- Varie entre 0 et 1.
- Indication de la proportion de la variance expliquée.
SPSS : commande Means.
Qu’est-ce que le sens de la relation avec le T de Student ?
- Pour les tests de moyennes (comme pour les tableaux de contingence), on ne parle pas de relation positive ou négative.
- Analysé à l’aide des moyennes de vos groupes.
Quelle analyse peut-on faire avec la variance simple
(à un facteur) ou Oneway ANOVA ?
- Vise à comparer trois groupes ou plus.
- Ratio F : teste l’hypothèse d’une différence de moyennes entre les groupes.
- Il ne fait pas comprendre la nature de ces différences.
Il faut utiliser une autre série d’analyses afin de connaître plus en détail quels groupes sont significativement différents desquels.
Comment peut-on neutraliser les limites de l’utilisation de la moyenne ?
- Pour les distributions asymétriques, valeurs extrêmes, petits groupes, etc.
-
Tests non paramétriques utilisent les rangs occupés dans une distribution, donnés par la médiane.
EXEMPLE : dans une étude de 100 participants, la personne au score le plus élevé a le rang 100 tandis que celle au score le plus faible a le rang 1.
Quelle est l’utilité des analyses corrélationnelles ?
Tester le lien (dépendance) entre des variables sur des échelles de mesure continue ou ordinale.
Le choix dépend :
- De la nature des variables.
- De la distribution des variables.
Mesure ordinale : 7 choix ou plus.