MEAA C1 Flashcards

(21 cards)

1
Q

Fonction de décision

A

Pour 𝒴={0,1}, 𝑔:𝒳→ℝ telle que 𝑓(𝑥)=0 si et seulement si 𝑔(𝑥)≤0 et 𝑓(𝑥)=1 si et seulement si 𝑔(𝑥)>0. Pour 𝒴={1,…,𝑐} on a 𝑐 fonctions de décision 𝑔_𝑐:𝒳→ℝ telles que
𝑓(𝑥)=argmax┬(𝑐∈⟦1,𝐶⟧)⁡〖𝑔_𝑐 (𝑥)〗.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

région de décision

A

Pour 𝒴={0,1} la fonction de décision partitionne l’espace 𝒳 en deux régions de décision :
ℛ_0={𝑥∈𝒳|𝑔(𝑥)≤0} et ℛ_1={𝑥∈𝒳|𝑔(𝑥)>0}.
Pour 𝒴={1,…,𝑐} on a 𝑐 régions :
ℛ_𝑐={𝑥∈𝒳|𝑔_𝑐 (𝑥)=max┬𝑘⁡〖𝑔_𝑘 (𝑥)〗}.
g s’apparente à une proba d’appartenance à une classe d’étiquette

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

frontière de décision

A

l’ensemble des points de 𝒳 où une fonction de décision s’annule.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

le problème d’apprentissage supervisé consiste à :

A

Quantifier la qualité d’une hypothèse
→ fonction coût.
Chercher une hypothèse optimale dans ℱ
→ apprentissage par optimisation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

espace des hypothèses

A

l’espace de fonctions ℱ” ⊆” 〖 𝒴〗^𝒳 décrivant les fonctions de modélisation. Cet espace est choisi en fonction de nos convictions par rapport au problème.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

fonction de coût

A

(perte, erreur) 𝐿:𝒴^2→ℝ est une fonction utilisée pour quantifier la qualité d’une prédiction. 𝐿(𝑦,𝑓(𝑥)) est d’autant plus grande que l’étiquette 𝑓(𝑥) est éloignée de la vraie valeur 𝑦.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

risque

A

l’espérance d’une fonction de coût, i.e. 𝑅(ℎ)=𝔼_𝒳 [𝐿(ℎ(𝑥),𝑦)].

La fonction 𝑓 recherchée vérifie donc :
𝑓=argmin┬(ℎ∈ℱ)⁡𝔼 [𝐿(ℎ(𝑥),𝑦)].

Risque empirique : 𝑅_𝑛 (ℎ)=𝑛^(−1) ∑(𝑖=1)^𝑛〖𝐿(ℎ(𝑥^𝑖 ),𝑦^𝑖)〗
La minimisation de 𝑅_𝑛 (ℎ) est un problème mal posé au sens de Hadamard, car il y a une infinité de droites solutions, on veut l’optimum.
Le prédicteur n’est pas statistiquement consistant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

estimateur consistant

A

s’il converge en probabilité vers 𝜃 quand 𝑛 croît vers l’infini :
∀𝜖>0 lim┬(𝑛→∞)⁡〖P(|𝜃_𝑛−𝜃|≥𝜖)=0〗.

La loi des grands nombres garantit :
∀ℎ∈ℱ 𝑅_𝑛 (ℎ)→┬(𝑛→∞) 𝑅(ℎ).

Ne garantit pas que min┬(ℎ∈ℱ)⁡〖𝑅_𝑛 (ℎ)〗 converge vers le minimum du risque.
La consistance de la minimisation de 𝑅_𝑛 (ℎ) dépend de ℱ. Son étude est un des éléments de la théorie de l’apprentissage de Vapnik-Chervonenkis.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Coût 0/1 classification binaire

A

(0/1 loss) 𝐿:𝒴^2→ℝ
𝐿(𝑦,𝑓(𝑥))=(1−𝑦𝑓(𝑥))/2=(1 si 𝑓(𝑥)≠𝑦, 0sinon)
𝑅_𝑛 est le nombre moyen d’erreurs de prédiction.
Si 𝒴=ℝ (régression) : 𝐿(𝑦,𝑓(𝑥))=1 si 𝑦𝑓(𝑥)≤0.
𝐿 n’est pas dérivable.
𝐿 n’est pas «précise» (i.e. ne dépend pas de ‖𝑓(𝑥)−𝑦‖).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Erreur hinge classe binaire

A

𝐿:{−1,1}×ℝ→ℝ
𝐿(𝑦,𝑓(𝑥))=max┬⁡〖(0,1−𝑦𝑓(𝑥))〗
𝐿 croît quand 𝑦𝑓(𝑥) s’éloigne de 1 à gauche.
Pas d’erreur si 𝑦𝑓(𝑥)>1.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Coût quadratique classe binaire

A

𝐿(𝑦,𝑓(𝑥))=[1−𝑦𝑓(𝑥)]^2
Les cas où 𝑦𝑓(𝑥) s’éloigne de 1 sont pénalisés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Coût logistique classe binaire

A

𝐿(𝑦,𝑓(𝑥))=[1−𝑦𝑓(𝑥)]^2
Les cas où 𝑦𝑓(𝑥) s’éloigne de 1 sont pénalisés.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

entropie croisée classification multi-classe

A

𝐿:{1,…,𝐶}×ℝ→ℝ
𝐿(𝑦,𝑓(𝑥))=−∑_(𝑐=1)^𝐶𝛿_𝑦𝑐 log⁡〖𝑓_𝑐 (𝑥)〗.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Extension de Hinge classification multi-classe

A

𝐿(𝑦,𝑓(𝑥))=∑_(𝑐≠𝑦)▒[1+𝑓_𝑐 (𝑥)−𝑓_𝑦 (𝑥)] _+.
Idée : la fonction de décision pour la véritable classe (i.e. 𝑐=𝑦) prend une valeur supérieure à toutes les autres fonctions de décision (𝑐≠𝑦).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

coût quadratique classification multi-classe

A

𝐿(𝑦,𝑓(𝑥))=[𝑦−𝑓(𝑥)]^2/2.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q
A

𝐿(𝑦,𝑓(𝑥))=|𝑦−𝑓(𝑥)|.

15
Q

Coût 𝜖-insensible classification multu-clase

A

Étant donné 𝜖>0,
𝐿(𝑦,𝑓(𝑥))=max⁡〖(0,|𝑦−𝑓(𝑥)|−𝜖〗).
- N’est pas dérivable ±𝜖.

16
Q

coût de Huber classification multi-classe

A

𝐿(𝑦,𝑓(𝑥))={([𝑦−𝑓(𝑥)]^2/2 si |𝑦−𝑓(𝑥)|<𝜖
et 𝜖|𝑦−𝑓(𝑥)|−𝜖^2/2 sinon. )┤
−𝜖^2/2 permet d’avoir une fonction de classe 𝐶^0.

17
Q

sur et sous apprentissage

A

sur-apprentissage lorsqu’un modèle, plutôt que de capturer la nature des objets à étiqueter, modélise aussi le bruit.
Un modèle qui est trop simple pour avoir de bonnes performances même sur les données utilisées pour le construire, sous-apprend.

18
Q

compromis biais-variance

A

Excès d’erreur (par rapport au risque minimal 𝑅^⋆) :
𝑅(𝑓)−𝑅^⋆= (𝑅(𝑓)−min┬(ℎ∈ℱ)⁡𝑅(ℎ) )┬estimation (𝜖_𝑒 variance) + ( min┬(ℎ∈ℱ)⁡𝑅(ℎ)−𝑅^⋆ )┬approximation (𝜖_𝑎 biais)
ℱ plus «large» 𝜖_𝑒↑ (liée à la procédure d’optimisation) 𝜖_𝑎↓ (Liée au choix de ℱ )