2 - Exploration et visualisation de données Flashcards
(86 cards)
Détecter et corriger le biais dans les données
Pour que nos analyses soient vraiment ____
fiables
Détecter et corriger le biais dans les données
Être conscient des biais pour quelles 2 raisons?
pour pouvoir les identifier dans un article et avoir un regard critique par rapport aux résultats (pour éviter de se faire pogner)
Détecter et corriger le biais dans les données
Exemple
- Dans quel 3 cas la relation statistique n’est pas évidente? explique
- Quel est l’impact d’avoir ces affaires la?
C’est plus une courbe qu’une droite
Certains points sont solitaires (données aberrantes)
Peu de données à gauche et sont tous dans le même coin et données à droite a plus de données et sont plus éparpillées
.
Impact : biaise nos conclusions et fait qu’on pose pas les bonnes conclusions
Détecter et corriger le biais dans les données
Exemple
- Les modèles linéaires assument souvent une ____ ____ des données, et une ____ des ____ pour chaque variable
Les modèles linéaires assument souvent une distribution linéaire des données, et une homogénéité des variances pour chaque variables
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
- Si on revient sur ce que nous avons vu au premier cours, donne une équation
- Avec les tests paramétriques, on tente d’ajuster un modèle statistique à quoi? Puis on utilise ce modèle pour faire quoi?
Résultati = bXi + erreuri
Avec les tests paramétriques, on tente d’ajuster un modèle statistique à nos données. Puis on utilise ce modèle pour estimer nos paramètres dans la population.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Exemple: Étude visant à mieux comprendre le lien entre le racisme et la quantité de contact avec les autres groupes ethniques.
* VD: Score de racisme
* VI: Score de contact (X)
* L’ajustement du modèle ci-haut aux données vise à trouver la valeur que l’on doit donner à b pour prédire le racisme à partir du contact tout en minimisant les erreurs de prédictions.
- Est ce que ce problème est biaisé? Si oui ou si non, pourquoi?
Ce problème est biaisé car pas basé sur toute la population, plutôt sur un échantillon. Même si on essaye de le mettre le plus représentatif que possible, on va toujours avoir une erreur standard à calculer.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
L’ajustement du modèle se fait sur un échantillon, mais l’objectif est de pouvoir faire des inférences sur la population
- Explique les 4 étapes
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
- Il faut donc éviter les biais pouvant survenir dans ces trois contextes, nomme les
- Biais dans l’estimation des paramètres
- Biais sur l’erreur standard et l’intervalle de confiance
- Biais sur les tests statistiques et les valeurs de p
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Nous allons nous concentrer sur deux types de biais, nomme les
- Données aberrantes
- Violation des postulats de base.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
- Quelle est la définition
- donne un exemple de donnée aberrante
Définition: Donnée dont la valeur est très différente du reste des valeurs dans la distribution.
Exemple : quelqu’un qui a 100% alors que les autres ont tous 30/40%.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
- Est-ce que cette donnée est représentative de l’échantillon?
non
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
- Les données aberrantes vont venir biaiser le calcul de quels 2 calculs?
Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type
- Comment ça impacte la moyenne (2)
- Comment ça impacte l’ÉT? Et cela impact sur quoi d’autre + explique
- Peut augmenter ou diminuer artificiellement la moyenne, et influencer le rejet/non-rejet de H0
- Augmente la taille de l’écart-type, ce qui augmente l’erreur standard (erreur qu’on fais au niveau de la prédiction de nos scores)
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Donnée aberrante
Les données aberrantes vont venir biaiser le calcul de la moyenne et de l’écart-type
- Quels sont les deux impacts lorsque les données aberrantes biaisent le calcul de la moyenne et ÉT?
Le fit de notre modèle est donc moins bon et on estime des paramètres qui représentent pas nos données
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
- Donne la def des postulats de base
- Qu’arrive t il si les postulats sont pas respectés (2)?
Conditions devant être respectées pour utiliser un test statistique paramétrique basé sur le modèle linéaire. Si les conditions ne sont pas respectées, le test peut donner un résultat inexact et mener à des conclusions erronées
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
- Nomme les 4 postulats
- Additivité et linéarité
- Normalité
- Homoscédasticité / homogénéité des variances
- Indépendance des observations
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de linéarité
- Explique le postulat
*Lorsqu’on applique un modèle linéaire sur nos données, on assume qu’elles varient linéairement (duh).
*Si le postulat de linéarité n’est pas respecté, les tests paramétriques basé sur le modèle linéaire ne peuvent décrire correctement la relation entre deux ou plusieurs variables.
*Si pas linéaire = modèle nécessairement pas bon
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de linéarité
- quelles sont les 2 choses qu’on peut dire sur ce modèle
Le modèle indiquerait ici une relation très faible… conclusion erronée.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
- L’ajustement de données à un modèle linéaire implique la distribution normale à plusieurs niveaux, nomme et explique les 3 niveaux
- Estimation des paramètres.
* Affecté par une distribution non-normale des résidus (erreur). - Intervalles de confiance.
*On utilise les valeurs de la distribution normale pour calculer les bornes. - Test de l’hypothèse nulle.
* Lorsque tests statistiques utilisent distributions reliées à la distribution normale (ex. F, t, c2)
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
V ou F
pour pouvoir utiliser les tests paramétriques, nos données doivent se distribuer normalement
F
Ce n’est pas tout à fait exact. Notre distribution d’échantillonnage et nos erreurs doivent se distribuer normalement.
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
Théorème central limite
- Donne la def de ce théorème et explique
Peu importe la forme de la distribution de la population, les paramètres de cette population se distribueront normalement si les échantillons sont suffisamment grands.
Donc le postulat de normalité est surtout important avec les petits échantillons.
Même si données pas normales, si échantillon assez grand, on s’en fou de la normalité
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat de normalité
Théorème central limite
- Selon ce théorème, quel est le minimum échantillon pour asssumer que l’échantillon est distribué normalement et respecte le postulat de normalité?
Minimum échantillon n = 30 : peut assumer que l’échantillon est distribué normalement et respecte le postulat de normalité
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
- Nomme les 2 designs qu’on aborde
Designs à plusieurs groupes ou conditions
Designs corrélationnels
Détecter et corriger le biais dans les données
Qu’est-ce qu’un biais?
Postulats de base
Postulat d’homogénéité des variances (homoscédasticité)
Designs à plusieurs groupes ou conditions
- Explique ce postulat
- Donne un exemple
- Comment corriger?
- Ce postulat assume que les échantillons dans les différents groupes/conditions proviennent de populations avec des variances comparables.
- Super variabilité dans les gens ayant pas de cours de stats et peu de variabilité dans les gens ayant eu cours de stats : résultats de l’erreur standard ne seront pas correspondant au groupe avec et sans stats
Le Levene peut corriger cela, mais on veut tout de même éviter le plus possible cela