Prétraitement Données Flashcards
(19 cards)
Pourquoi le pré-traitement des données est-il important ?
Il permet de transformer les données brutes en données analysables, fiables et structurées.
Quels sont les problèmes fréquents dans les données brutes ?
Données incomplètes, bruitées, erronées ou mal structurées.
Quelles sont les étapes clés du pré-traitement ?
Fusion, vérification des doublons, gestion des erreurs de saisie, traitement des valeurs manquantes et extrêmes.
Qu’est-ce qu’un doublon et comment le traiter ?
C’est une répétition du même participant ; il faut le supprimer ou vérifier s’il s’agit de deux cas distincts.
Comment gérer les valeurs erronées ?
Corriger si possible, sinon marquer comme valeur manquante.
Quels types de données manquantes distingue-t-on ?
Données manquantes ponctuelles et systématiques.
Quelles méthodes permettent de traiter les données manquantes ?
Imputation, list-wise deletion, pair-wise deletion.
Qu’est-ce qu’un outlier ?
Une valeur extrême très éloignée de la moyenne, pouvant être une erreur ou un cas légitime.
Comment détecter un outlier ?
Avec un z-score, un box-plot ou la distance de Mahalanobis.
Quelles sont les solutions face aux outliers ?
Suppression, transformation, tests non paramétriques, winsorisation, imputation, trimming.
Pourquoi analyser la distribution d’une variable ?
Pour vérifier la normalité et déterminer les tests statistiques appropriés.
Quels tests servent à vérifier la normalité ?
Shapiro-Wilk (petits échantillons), Kolmogorov-Smirnov (grands échantillons).
Que mesurent la skewness et la kurtosis ?
La skewness mesure l’asymétrie, la kurtosis l’aplatissement de la distribution.
Pourquoi transformer des données ?
Pour normaliser la distribution et limiter l’effet des valeurs extrêmes.
Qu’est-ce que le z-score ?
Une standardisation des données à moyenne 0 et écart-type 1.
Quelle est la différence entre standardiser les données et un test psychométrique ?
La standardisation des données modifie l’échelle ; celle d’un test garantit sa validité et fiabilité.
Qu’est-ce que le versionnage des données ?
Le suivi de toutes les modifications apportées aux fichiers pour assurer transparence et reproductibilité.
Quels rappels d’autres cours sont utiles ici ?
Cours 6 sur Open Science (documentation), cours 14 sur la psychométrie (standardisation).