CM Flashcards
(52 cards)
C’est quoi le principe ETL
- Extract : on identifie et on extrait les données brutes
- Transform : on va transformer ces données brutes pour les rendre facilement exploitables
- Load : on va charger ces données transformées dans une base
Dans quels domaines on va utiliser les sciences de la donnée
Math
Analyse
Optimisation
Statistiques
Programmation informatique
Définir la donnée
Tout est fait de données —> photo, vidéo, recherche, réseaux sociaux
Population définition
Groupe d’objets d’intérêt
Définition variable
Une mesure, une propriété ou une caractéristique qui peut changer ou varier
—> opposé d’une constante
Variable qualitative
Décrit des qualités ou des caractéristiques (comme le pays, l’origine, le sexe)
Variable quantitative
Caractéristiques mesurables
—> taille, poids, température
Définition statistiques
Mesure calculée sur une ou plusieurs variables
Type de donnée quantitative et qualitative
Qualitative :
- nominale
- ordinale
Quantitative :
- discrète
- continue
Définir une variable qualitative ordinale et nominale
Ordinale : variables qualitatives avec ordonnancement (pas numériques mais peuvent être ordonnées)
Nominale : variables qualitatives sans ordonnancement
Définir une variable quantitative discrète et continu
- Discrète : les valeurs des données sont séparées et distinctes, ENTRE DEUX VALEURS CONSÉCUTIVES IL Y’A RIEN
- continue : les données sont infinies et ininterrompues, infinité de valeurs entre deux termes consécutifs
Comment on peut récolter des données
- questionnaire
- entretien
- observation
- analyse de documents
- web scraping
- mesures de machine
Comment on appelle les données collectées et les données collectées non traitées
Les données brutes
Données sources ou données primaires
Comment on obtient des données
- fait sur un événement naturel (mesure)
- sondage
- récolter de manière automatique
Rôle d’un data
Pas de créer la donnée mais de savoir l’exploiter
Comment structurer des données
- feuilles de calcul
- bases de données (Avec des tables)
Comment est organisé un tableau ?
- colonnes (columns) = variable
- rows (lignes) = valeur pour chaque variable
Sur quoi repose la base de données relationnelles
- structure
- modèle rigide
- langage
Base de données non relationnelles
Structure
Modèle flexible
Scalabilité horizontale
Définir la somme, la moyenne et la médiane
Somme : total des valeurs
Moyenne : total des valeurs divisé par le nombre de lignes
Médiane : valeur qui permet de couper l’ensemble des valeurs en deux parties égales
Définir la variance, l’écart type, le compte
- Variance : mesure de la dispersion par rapport à la moyenne
- Écart type : racine carrée de la variance
- compte : nombre d’occurence d’une valeur
C’est quoi une distribution
Répartition des fréquences des observations —> c’est la 1er étape de l’analyse des données
Comment représenter la distribution de variable
Histogramme
Courbes de densité
Boite à moustache
C’est quoi une corrélation
Mesure qui montre à quel point les paires de variables quantitatives évoluent ensemble