CM01 Flashcards

Question 1

Q

Validation croisée

Answer

A

Choix d’un N (5-10), partition de X en Xi, on apprend ^fi sur X/Xi, on calcule ^Rvc=1/N ∑^ri, on apprend ^f sur toutes les données -> on utilise tout pour l’apprentissage, ^Rvc estimateur sans biais de ^R(^f) mais coûteux (N sous-modèles) et pas d’estimateur sans biais de la variance (ri non indépendants)

Question 2

Q

Classifieur linéaire SVM

Answer

A

Support Vector Machines
f(x) = w.x + b (équation droite avec marge, f(x)=-1,0,1)
Largeur de la marge 1/||w||, minimiser ||w2||=w.w
Cas non séparable, minimisation quadratique 1/2 w.w + C∑ek (termes d’erreur, distance par rapport à la marge de leur zone), C petit maximise marge, C grand minimise erreur.

Question 3

Q

Classifieur Adaboost

Answer

A

Méthode ensembliste (plusieurs classifieurs simples), à chaque itération les exemples mal classés prennent de l’importance (n elements = n+1 droites possibles) k itérations = k^2 frontières possibles, classifieurs simples additionnés selon pondérations. Attention, trop de classifieurs simples = surapprentissage (validation croisée à faire), choix du classifieur simple (ou plus complexe)..

Question 4

Q

Autres approches

Answer

A

SVM non linéaire avec noyau (projection des données dans un autre espace)
analyse discriminante, méthode générant des données et les classant avec des probas d’appartenance à une classe
plus proche voisin : simple mais efficace quand beaucoup de données, clustering puis recherche du plus ressemblant, multi-classes
Arbre de décision : dimension par dimension on sépare au mieux (arbre binaire découpe en 2 selon chaque critère)
Forêt aléatoire : sous ensemble de données, arbre… approche ensembliste

CM01 Flashcards

(4 cards)