CM01 Flashcards
(4 cards)
Validation croisée
Choix d’un N (5-10), partition de X en Xi, on apprend ^fi sur X/Xi, on calcule ^Rvc=1/N ∑^ri, on apprend ^f sur toutes les données -> on utilise tout pour l’apprentissage, ^Rvc estimateur sans biais de ^R(^f) mais coûteux (N sous-modèles) et pas d’estimateur sans biais de la variance (ri non indépendants)
Classifieur linéaire SVM
Support Vector Machines
f(x) = w.x + b (équation droite avec marge, f(x)=-1,0,1)
Largeur de la marge 1/||w||, minimiser ||w2||=w.w
Cas non séparable, minimisation quadratique 1/2 w.w + C∑ek (termes d’erreur, distance par rapport à la marge de leur zone), C petit maximise marge, C grand minimise erreur.
Classifieur Adaboost
Méthode ensembliste (plusieurs classifieurs simples), à chaque itération les exemples mal classés prennent de l’importance (n elements = n+1 droites possibles) k itérations = k^2 frontières possibles, classifieurs simples additionnés selon pondérations. Attention, trop de classifieurs simples = surapprentissage (validation croisée à faire), choix du classifieur simple (ou plus complexe)..
Autres approches
- SVM non linéaire avec noyau (projection des données dans un autre espace)
- analyse discriminante, méthode générant des données et les classant avec des probas d’appartenance à une classe
- plus proche voisin : simple mais efficace quand beaucoup de données, clustering puis recherche du plus ressemblant, multi-classes
- Arbre de décision : dimension par dimension on sépare au mieux (arbre binaire découpe en 2 selon chaque critère)
- Forêt aléatoire : sous ensemble de données, arbre… approche ensembliste