Prétraitement Données Flashcards

(19 cards)

1
Q

Pourquoi le pré-traitement des données est-il important ?

A

Il permet de transformer les données brutes en données analysables, fiables et structurées.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quels sont les problèmes fréquents dans les données brutes ?

A

Données incomplètes, bruitées, erronées ou mal structurées.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelles sont les étapes clés du pré-traitement ?

A

Fusion, vérification des doublons, gestion des erreurs de saisie, traitement des valeurs manquantes et extrêmes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Qu’est-ce qu’un doublon et comment le traiter ?

A

C’est une répétition du même participant ; il faut le supprimer ou vérifier s’il s’agit de deux cas distincts.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Comment gérer les valeurs erronées ?

A

Corriger si possible, sinon marquer comme valeur manquante.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quels types de données manquantes distingue-t-on ?

A

Données manquantes ponctuelles et systématiques.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quelles méthodes permettent de traiter les données manquantes ?

A

Imputation, list-wise deletion, pair-wise deletion.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qu’est-ce qu’un outlier ?

A

Une valeur extrême très éloignée de la moyenne, pouvant être une erreur ou un cas légitime.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Comment détecter un outlier ?

A

Avec un z-score, un box-plot ou la distance de Mahalanobis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Quelles sont les solutions face aux outliers ?

A

Suppression, transformation, tests non paramétriques, winsorisation, imputation, trimming.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Pourquoi analyser la distribution d’une variable ?

A

Pour vérifier la normalité et déterminer les tests statistiques appropriés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quels tests servent à vérifier la normalité ?

A

Shapiro-Wilk (petits échantillons), Kolmogorov-Smirnov (grands échantillons).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Que mesurent la skewness et la kurtosis ?

A

La skewness mesure l’asymétrie, la kurtosis l’aplatissement de la distribution.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Pourquoi transformer des données ?

A

Pour normaliser la distribution et limiter l’effet des valeurs extrêmes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qu’est-ce que le z-score ?

A

Une standardisation des données à moyenne 0 et écart-type 1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Quelle est la différence entre standardiser les données et un test psychométrique ?

A

La standardisation des données modifie l’échelle ; celle d’un test garantit sa validité et fiabilité.

17
Q

Qu’est-ce que le versionnage des données ?

A

Le suivi de toutes les modifications apportées aux fichiers pour assurer transparence et reproductibilité.

18
Q

Quels rappels d’autres cours sont utiles ici ?

A

Cours 6 sur Open Science (documentation), cours 14 sur la psychométrie (standardisation).