MEAA C1 Flashcards
(21 cards)
Fonction de décision
Pour 𝒴={0,1}, 𝑔:𝒳→ℝ telle que 𝑓(𝑥)=0 si et seulement si 𝑔(𝑥)≤0 et 𝑓(𝑥)=1 si et seulement si 𝑔(𝑥)>0. Pour 𝒴={1,…,𝑐} on a 𝑐 fonctions de décision 𝑔_𝑐:𝒳→ℝ telles que
𝑓(𝑥)=argmax┬(𝑐∈⟦1,𝐶⟧)〖𝑔_𝑐 (𝑥)〗.
région de décision
Pour 𝒴={0,1} la fonction de décision partitionne l’espace 𝒳 en deux régions de décision :
ℛ_0={𝑥∈𝒳|𝑔(𝑥)≤0} et ℛ_1={𝑥∈𝒳|𝑔(𝑥)>0}.
Pour 𝒴={1,…,𝑐} on a 𝑐 régions :
ℛ_𝑐={𝑥∈𝒳|𝑔_𝑐 (𝑥)=max┬𝑘〖𝑔_𝑘 (𝑥)〗}.
g s’apparente à une proba d’appartenance à une classe d’étiquette
frontière de décision
l’ensemble des points de 𝒳 où une fonction de décision s’annule.
le problème d’apprentissage supervisé consiste à :
Quantifier la qualité d’une hypothèse
→ fonction coût.
Chercher une hypothèse optimale dans ℱ
→ apprentissage par optimisation.
espace des hypothèses
l’espace de fonctions ℱ” ⊆” 〖 𝒴〗^𝒳 décrivant les fonctions de modélisation. Cet espace est choisi en fonction de nos convictions par rapport au problème.
fonction de coût
(perte, erreur) 𝐿:𝒴^2→ℝ est une fonction utilisée pour quantifier la qualité d’une prédiction. 𝐿(𝑦,𝑓(𝑥)) est d’autant plus grande que l’étiquette 𝑓(𝑥) est éloignée de la vraie valeur 𝑦.
risque
l’espérance d’une fonction de coût, i.e. 𝑅(ℎ)=𝔼_𝒳 [𝐿(ℎ(𝑥),𝑦)].
La fonction 𝑓 recherchée vérifie donc :
𝑓=argmin┬(ℎ∈ℱ)𝔼 [𝐿(ℎ(𝑥),𝑦)].
Risque empirique : 𝑅_𝑛 (ℎ)=𝑛^(−1) ∑(𝑖=1)^𝑛〖𝐿(ℎ(𝑥^𝑖 ),𝑦^𝑖)〗
La minimisation de 𝑅_𝑛 (ℎ) est un problème mal posé au sens de Hadamard, car il y a une infinité de droites solutions, on veut l’optimum.
Le prédicteur n’est pas statistiquement consistant.
estimateur consistant
s’il converge en probabilité vers 𝜃 quand 𝑛 croît vers l’infini :
∀𝜖>0 lim┬(𝑛→∞)〖P(|𝜃_𝑛−𝜃|≥𝜖)=0〗.
La loi des grands nombres garantit :
∀ℎ∈ℱ 𝑅_𝑛 (ℎ)→┬(𝑛→∞) 𝑅(ℎ).
Ne garantit pas que min┬(ℎ∈ℱ)〖𝑅_𝑛 (ℎ)〗 converge vers le minimum du risque.
La consistance de la minimisation de 𝑅_𝑛 (ℎ) dépend de ℱ. Son étude est un des éléments de la théorie de l’apprentissage de Vapnik-Chervonenkis.
Coût 0/1 classification binaire
(0/1 loss) 𝐿:𝒴^2→ℝ
𝐿(𝑦,𝑓(𝑥))=(1−𝑦𝑓(𝑥))/2=(1 si 𝑓(𝑥)≠𝑦, 0sinon)
𝑅_𝑛 est le nombre moyen d’erreurs de prédiction.
Si 𝒴=ℝ (régression) : 𝐿(𝑦,𝑓(𝑥))=1 si 𝑦𝑓(𝑥)≤0.
𝐿 n’est pas dérivable.
𝐿 n’est pas «précise» (i.e. ne dépend pas de ‖𝑓(𝑥)−𝑦‖).
Erreur hinge classe binaire
𝐿:{−1,1}×ℝ→ℝ
𝐿(𝑦,𝑓(𝑥))=max┬〖(0,1−𝑦𝑓(𝑥))〗
𝐿 croît quand 𝑦𝑓(𝑥) s’éloigne de 1 à gauche.
Pas d’erreur si 𝑦𝑓(𝑥)>1.
Coût quadratique classe binaire
𝐿(𝑦,𝑓(𝑥))=[1−𝑦𝑓(𝑥)]^2
Les cas où 𝑦𝑓(𝑥) s’éloigne de 1 sont pénalisés.
Coût logistique classe binaire
𝐿(𝑦,𝑓(𝑥))=[1−𝑦𝑓(𝑥)]^2
Les cas où 𝑦𝑓(𝑥) s’éloigne de 1 sont pénalisés.
entropie croisée classification multi-classe
𝐿:{1,…,𝐶}×ℝ→ℝ
𝐿(𝑦,𝑓(𝑥))=−∑_(𝑐=1)^𝐶𝛿_𝑦𝑐 log〖𝑓_𝑐 (𝑥)〗.
Extension de Hinge classification multi-classe
𝐿(𝑦,𝑓(𝑥))=∑_(𝑐≠𝑦)▒[1+𝑓_𝑐 (𝑥)−𝑓_𝑦 (𝑥)] _+.
Idée : la fonction de décision pour la véritable classe (i.e. 𝑐=𝑦) prend une valeur supérieure à toutes les autres fonctions de décision (𝑐≠𝑦).
coût quadratique classification multi-classe
𝐿(𝑦,𝑓(𝑥))=[𝑦−𝑓(𝑥)]^2/2.
𝐿(𝑦,𝑓(𝑥))=|𝑦−𝑓(𝑥)|.
Coût 𝜖-insensible classification multu-clase
Étant donné 𝜖>0,
𝐿(𝑦,𝑓(𝑥))=max〖(0,|𝑦−𝑓(𝑥)|−𝜖〗).
- N’est pas dérivable ±𝜖.
coût de Huber classification multi-classe
𝐿(𝑦,𝑓(𝑥))={([𝑦−𝑓(𝑥)]^2/2 si |𝑦−𝑓(𝑥)|<𝜖
et 𝜖|𝑦−𝑓(𝑥)|−𝜖^2/2 sinon. )┤
−𝜖^2/2 permet d’avoir une fonction de classe 𝐶^0.
sur et sous apprentissage
sur-apprentissage lorsqu’un modèle, plutôt que de capturer la nature des objets à étiqueter, modélise aussi le bruit.
Un modèle qui est trop simple pour avoir de bonnes performances même sur les données utilisées pour le construire, sous-apprend.
compromis biais-variance
Excès d’erreur (par rapport au risque minimal 𝑅^⋆) :
𝑅(𝑓)−𝑅^⋆= (𝑅(𝑓)−min┬(ℎ∈ℱ)𝑅(ℎ) )┬estimation (𝜖_𝑒 variance) + ( min┬(ℎ∈ℱ)𝑅(ℎ)−𝑅^⋆ )┬approximation (𝜖_𝑎 biais)
ℱ plus «large» 𝜖_𝑒↑ (liée à la procédure d’optimisation) 𝜖_𝑎↓ (Liée au choix de ℱ )