CM Flashcards

(52 cards)

1
Q

C’est quoi le principe ETL

A
  • Extract : on identifie et on extrait les données brutes
  • Transform : on va transformer ces données brutes pour les rendre facilement exploitables
  • Load : on va charger ces données transformées dans une base
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Dans quels domaines on va utiliser les sciences de la donnée

A

Math
Analyse
Optimisation
Statistiques
Programmation informatique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Définir la donnée

A

Tout est fait de données —> photo, vidéo, recherche, réseaux sociaux

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Population définition

A

Groupe d’objets d’intérêt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Définition variable

A

Une mesure, une propriété ou une caractéristique qui peut changer ou varier
—> opposé d’une constante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Variable qualitative

A

Décrit des qualités ou des caractéristiques (comme le pays, l’origine, le sexe)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Variable quantitative

A

Caractéristiques mesurables
—> taille, poids, température

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Définition statistiques

A

Mesure calculée sur une ou plusieurs variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Type de donnée quantitative et qualitative

A

Qualitative :
- nominale
- ordinale
Quantitative :
- discrète
- continue

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Définir une variable qualitative ordinale et nominale

A

Ordinale : variables qualitatives avec ordonnancement (pas numériques mais peuvent être ordonnées)
Nominale : variables qualitatives sans ordonnancement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Définir une variable quantitative discrète et continu

A
  • Discrète : les valeurs des données sont séparées et distinctes, ENTRE DEUX VALEURS CONSÉCUTIVES IL Y’A RIEN
  • continue : les données sont infinies et ininterrompues, infinité de valeurs entre deux termes consécutifs
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Comment on peut récolter des données

A
  • questionnaire
  • entretien
  • observation
  • analyse de documents
  • web scraping
  • mesures de machine
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Comment on appelle les données collectées et les données collectées non traitées

A

Les données brutes
Données sources ou données primaires

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment on obtient des données

A
  • fait sur un événement naturel (mesure)
  • sondage
  • récolter de manière automatique
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Rôle d’un data

A

Pas de créer la donnée mais de savoir l’exploiter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Comment structurer des données

A
  • feuilles de calcul
  • bases de données (Avec des tables)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Comment est organisé un tableau ?

A
  • colonnes (columns) = variable
  • rows (lignes) = valeur pour chaque variable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Sur quoi repose la base de données relationnelles

A
  • structure
  • modèle rigide
  • langage
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Base de données non relationnelles

A

Structure
Modèle flexible
Scalabilité horizontale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Définir la somme, la moyenne et la médiane

A

Somme : total des valeurs
Moyenne : total des valeurs divisé par le nombre de lignes
Médiane : valeur qui permet de couper l’ensemble des valeurs en deux parties égales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Définir la variance, l’écart type, le compte

A
  • Variance : mesure de la dispersion par rapport à la moyenne
  • Écart type : racine carrée de la variance
  • compte : nombre d’occurence d’une valeur
22
Q

C’est quoi une distribution

A

Répartition des fréquences des observations —> c’est la 1er étape de l’analyse des données

23
Q

Comment représenter la distribution de variable

A

Histogramme
Courbes de densité
Boite à moustache

24
Q

C’est quoi une corrélation

A

Mesure qui montre à quel point les paires de variables quantitatives évoluent ensemble

25
Différence entre corrélation et causalité
- corrélation : explique à quel point les variables sont liées mais n’explique pas pourquoi ni comment - causalité : pourquoi ces variables sont liées
26
Définir la corrélation de Pearson + comprise en quoi et quoi
Entre -1 et 1 - Mesurer la force et la direction de la relation linéaire entre deux variables quantitatives
27
À qui correspondent les colonnes et les lignes
Colonnes = variable Lignes = données
28
Qu’utilise-t-on pour les données
- excel - tableau - python
29
Rôle de pandas
Librairie python permettant de construire et de manipuler des tableaux de données
30
Que peut on faire avec pandas
- effectuer des opération - pré-filtrer - organiser les colonnes / lignes
31
Qu’est ce que la théorie de Gestalt définit ?
Définit les principes de la perception
32
Quels sont les types de perception de la théorie Gestalt ?
- proximité - similarité - continuité
33
Principe de la théorie de la proximité
Les éléments les plus proches vont être perçus comme appartenant à un même groupe
34
Expliquer le principe de la similarité
Les éléments ayant le plus de similarités graphiques vont induire un sens identique, des fonctions similaires ou une importance commune
35
Définir le principe de la continuité
Plus la proximité des éléments visuels est importante, plus nous les voyons dans la continuité comme s’ils ne formaient plus qu’une partie unique
36
Types de graphe
- diagramme en bâton (histogramme) - graphe de ligne - nuage de points - camembert
37
Types de données textuelles
- structurées (json) - séminaire structuré (HTML) - non structuré (livre)
38
Rôle du web scraping et principe
Télécharger et récupérer le texte d’une page internet (Si la page possède des liens vers d’autres pages on appelle cela le CRAWLING)
39
Avec quel logiciel on fait le scraping ?
Beautiful soup BS4
40
C’est quoi le TAL
TRAITEMENT AUTOMATIQUE DES LANGUES - discipline de l’informatique qui permet aux machines de comprendre, générer et analyser le langage humain (texte ou parole) —> combine des techniques mathématiques et linguistiques
41
Applications pour le TAL (traitement automatique de la langue)
- traduction automatique (Google traduction) - analyse de sentiments - assistants vocaux (Siri) - résumé automatique de texte - génération de texte (chatGPT)
42
Étapes du traitement automatique de la langue
- PARSER : récupérer le texte et le formater - ANALYSER : nettoyer et catégoriser
43
Les librairies les plus utilisées pour un graphique
- Matplotlib - Seaborn - Plotly - Bokeh
44
Règles de base d’un graphe
- choisir le bon format - vérifier que la représentation colle bien à l’idée et surtout aux données - avoir un titre et une légende - choisir les bonnes couleurs - choisir la bonne échelle - ne pas laisser d’éléments superflus - ne pas mélanger les données qui n’ont aucun rapport
45
À ces prémices, l’ia c’était quoi ?
À ces prémices l’ia n’était qu’un ensemble d’algorithme servant à effectuer des tâches récurrentes très souvent en force brute
46
Définir le machine Learning
(Aussi appelé apprentissage automatique) c’est une discipline regroupant les connaissances des mathématiques, statistiques et informatiques
47
Méthodes de machine Learning
- modèles graphiques - réseaux de neurones - arbres de décisions - régressions - algorithme génétiques
48
Qu’est ce que les poids
Ce sont des paramètres de nombres variables permettant aux modèles d’apprendre
49
Étapes du développement d’une ia
- optimiser les données selon une fonction donnée - classifier les données - approximer un comportement - générer des données
50
Quel est l’intérêt principal des algorithmes d’optimisation
Réduire le temps d’apprentissage d’un modèle en ajustant ses paramètres de manière plus efficace —> réduire les erreurs
51
Méthodes d’optimisation la plus utilisée pour ajuster les paramètres des modèles d’apprentissage en ligne
Gradient descendant
52
Quelle dimension est utilisée pour la réduction de la dimensionnalité
Analyse en composantes principales (ACP/PCA)