6. Segmentation (25%) Flashcards

(73 cards)

1
Q

Qu’est-ce qu’un taux équitable ?

A

Un taux équitable est un taux pour lequel un risque avec une plus grande fréquence de sinistralité ou sévérité va produire un plus grand taux

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Quelles sont les 3 étapes pour la construction d’un système de classification des risques ?

A
  1. Identification de caractéristique de risque qui différencie un groupe d’un autre
    2, Établissement des classes de risques
  2. Développement et testing des classes de risques
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Quelles sont les considérations que l’actuaire doit prendre lors de la sélection de caractéristique de risque ?

A
  • Relation entre la caractéristique et le résultat attendu
  • Causalité
  • Objectivité
  • Praticité (Coût et effort pour obtenir l’info)
  • Vérifiable
  • Les lois
  • Pratiques de l’industrie
  • Pratiques de l’entreprise
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Nomme 3 objectifs de la segmentation ?

A

Lors de la tarification, une segmentation est faite pour différencier les différents types de risque.

  1. Cet exercice vient offrir une certaine équité individuelle aux assurés,
  2. il permet aussi à l’assureur d’avoir une meilleure compréhension des risques assurés et de prendre des décisions informées, d’avoir des prix adéquats et d’avoir une bonne santé financière.

3.La segmentation des risques offre aussi une protection contre l’anti-sélection.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qu’est-ce que l’anti-sélection ou la sélection adverse ?

A

Actions prises par un parti qui utilise des caractéristiques de risques ou autres informations pour créer un désavantage financier à un autre parti qui n’a pas toute l’information. (Asymétrie de l’information)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Quelles sont les conséquences d’une mauvaise segmentation ou pas de segmentation tout simplement ?

A

Exemple classique d’anti-sélection avec un assureur qui n’effectue aucune segmentation et un compétiteur qui effectue une segmentation. À chaque année, les bons assurés vont aller chez le compétiteur alors que des mauvais vont arriver. Le portefeuille s’empire à chaque année et la profitabilité sera toujours mauvaise.

Offrir des couvertures à un prix “équitable” permet aux assureurs d’avoir une meilleure compréhension du risque offert et de prendre de meilleures décisions en conséquence. Au final, dans un marché compétitif, il y aura une plus grande disponibilité de couvertures abordables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Nomme au moins 3 différentes techniques utilisées pour faire la segmentation

A
  1. Analyse par tableaux univariés
  2. Minimum Biais
  3. GLM
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Nomme 1 avantage et 1 inconvénient de l’analyse par tableau univarié

A

Avantage : Très simple à concevoir et à communiquer à des personnes non-techniques

Inconvénient : Avec plusieurs variables, il est important de comprendre le biais distributionnel et la dépendance. Les analyses par tableau ne permettent pas de bien illustrer les corrélations entre les différentes variables.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Explique ce qu’est le biais distributionnel (distributional biais)

A

Assume que la distribution des expositions est uniforme dans toutes les variables de tarification alors qu’en réalité la distribution en exposition des classes d’une caractéristique peu être différente pour les classes d’une autre variable.

Conducteurs Homme Femme
Jeune 700 300
Vieux 500 500

Sans ajustement, un biais distributionnel mènera à un double-compte avec l’analyse simple par tableau. Il est possible d’utiliser la procédure du biais minimum.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Explique ce qu’est la dépendance

A

Dépendance : Quand savoir la classe de risque d’une autre caractéristique influence la relativité d’une autre caractéristique de risque. Par exemple, si un jeune conducteur coûte 20% plus cher que le conducteur moyen, mais qu’un jeune homme coûte 30% plus cher que le conducteur moyen, il y a dépendance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Nomme 1 avantage et 1 inconvénient de la méthode minimum biais

A

Avantage : Permet de régler le problème de biais distributionnel

Inconvénient : Ne permet pas de prendre en compte les problèmes de dépendance

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nomme 1 avantage et 1 inconvénient des GLM

A

Avantage : Gère beaucoup mieux la corrélation et peut gérer un peu de dépendance.
Reste relativement simple à interpréter , surtout quand on compare aux modèles d’apprentissage automatique.

Inconvénient : Les GLM assument que la partie aléatoire de chaque observation est indépendante des autres.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Nommes au moins 3 limites des GLM

A

Les GLM donnent une crédibilité complète aux données.
→ Si le niveau d’une variable catégorielle n’est représenté que par une observation, cette observation donnera le niveau de la relativité et sera accordé une crédibilité complète

Les GLM assument que la partie aléatoire de chaque observation est indépendante des autres.
→ Des risques d’une même région peuvent être affectés par le même phénomène
Les GLM

La prédiction d’un risque dépend des données provenant d’autres segments, potentiellement très différents.
→ Ce qu’on prédit pour un client peut être influencé par des données venant d’un autre groupe très différent, ce qui peut fausser l’analyse.

Les prédictions du modèle dépendent de la composition des facteurs tarifaires présents dans les données.
→ Si on change la proportion de certains profils dans nos données, cela peut changer les résultats, même si le modèle reste le même.

L’estimation par maximum de vraisemblance est souvent inférieure à la moyenne de la distribution des prédictions.

La fonction de liaison peut introduire un biais dans la prédiction du modèle et modifier de manière significative les bornes inférieure et supérieure des résultats.

Les diagnostics du modèle ne sont valides que dans les segments pour lesquels le modèle a été conçu et utilisé.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quel est l’objectif de la régularisation ?

A

L’objectif principal de la régularisation est d’ajuster des modèles de régression comportant un grand nombre de variables, tout en évitant le surapprentissage (overfitting) sur les données d’entraînement.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Quels sont les 3 types de GLM régularisé qui ont un estimateur de maximum de vraisemblance pénalisé ?

A
  • Lasso
  • Elastic net
  • Ridge
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Parmis les 3 GLM avec un estimateur de maximum de vraisemblance pénalisé, lesquels permettent d’avoir des paramètres estimés égaux à 0

A

Lasso et Élastic net

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Nomme 2 différentes façons outre que par les estimateur de maximum de vraisemblance pénalisé de choisir des variables à inclure et exclure du modèle

A
  1. Méthode stepwise
  2. Approche Baysienne
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Nomme au moins 3 modèles de classification non linéaire

A
  1. Les arbres de classification
  2. Bagging
  3. Les forêts aléatoires
  4. GBM
  5. BART
  6. Multivariate Adaptive Regression Splines (MARS)
  7. Neural Nets and Deep Learning
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Nomme 1 avantage et 1 inconvénient des arbres de classification

A

Avantage : Facile à expliquer

Inconvénient : 1. Instabilité des arbres de décision : Les résultats peuvent varier fortement selon l’échantillon de données utilisé, ce qui rend les arbres sensibles et peu stables (variance élevée). Cela peut poser problème en actuariat, où les données sont souvent déséquilibrées. Des techniques comme la validation croisée, l’agrégation de modèles (ensembling) ou l’échantillonnage stratifié peuvent aider à atténuer ce problème.
2. Manque de continuité (lack of smoothness): Les arbres peuvent attribuer des résultats très différents à des groupes similaires, ce qui complique l’interprétation et l’extrapolation, surtout lorsqu’il faut prédire pour des catégories peu ou pas représentées dans les données.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Explique ce qu’est le bagging

A

Bagging (Bootstrap Aggregating)

Le bagging est une méthode d’ensemble qui consiste à :
1. Créer plusieurs jeux de données en rééchantillonnant l’ensemble d’origine (avec la méthode du bootstrap).
2. Entraîner un modèle (souvent un arbre de décision) sur chacun de ces jeux.
3. Combiner les prédictions de tous les modèles :
* Moyenne pour les problèmes de régression,
* Vote majoritaire pour la classification.

🎯 Objectif : Réduire la variance et améliorer la stabilité du modèle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Explique ce quest une foret aléatoire

A

Random Forest

La random forest est une amélioration du bagging appliquée aux arbres de décision, avec un ajout clé :

👉 À chaque nœud de l’arbre, seule une sous-partie aléatoire des variables est utilisée pour faire le meilleur split.

Cela permet :
* Plus de diversité entre les arbres,
* Moins de corrélation entre eux,
* Meilleure précision que le bagging seul.

📌 En résumé :

Random Forest = Bagging + Sélection aléatoire de variables à chaque split
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Quels sont les hyperparametres à choisir dans une foret aléatoire

A

Lorsqu’on utilise un modèle de foret aléatoire, il faut faire le choix des hyperparametres suivants : Le nombre d’arbre, le nombre de variables explicatives considérations à chaque split, le nombre minimum d’observations dans un nœud

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Nomme une limitation et une facon de pallier à cette limitation pour les forets aléatoires

A

Une des limitations des forêts aléatoire et la complexité du modèle. Une facon de pallier à ca et de montrer un graphique de l’importance relative de chaque varaible dans le modèle.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Décrit le GBM

A

GBM (Gradient Boosting Machine)

Le GBM est un modèle d’ensemble basé sur une technique de boosting.

🔁 Contrairement au bagging (où les modèles sont entraînés en parallèle), le GBM construit les modèles de façon séquentielle :

Chaque nouvel arbre est entraîné pour corriger les erreurs du précédent.

🔍 Fonctionnement en résumé :
1. On commence avec un modèle simple (souvent une prédiction constante).
2. À chaque étape, on :
* Calcule les résidus (erreurs du modèle précédent),
* Entraîne un nouvel arbre pour prédire ces résidus,
* Met à jour la prédiction en ajoutant l’arbre avec un petit poids (learning rate).

🎯 Objectif : Minimiser une fonction de perte (comme l’erreur quadratique) en suivant le gradient, d’où le nom gradient boosting.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Donne des avantages et des inconvénients du GBM
✅ Avantages : * Très précis, * Gère bien les données complexes ou déséquilibrées. ⚠️ Inconvénients : * Sensible au surapprentissage (overfitting), * Plus lent à entraîner que les random forests.
26
Quels sont les hyperparametres a sélectionner pour le GBM
Lorsqu’on utilise un modèle GBM, il faut faire le choix des hyperparamètres suivants : Le nombre d’arbres, la taille maximum de chaque arbre et le parametre d’apprentissage
27
Nommer les objectifs d’un système de classification des risques?
Créer une bonne segmentation des risques pour : - être compétitif sur le marché - éviter l’anti-sélection - améliorer la stabilité financière
28
On vous demande de juger la pertinence d’une certaine classe de risque. Par exemple, les homme de 78 ans ayant eu 2 accidents dans la dernière année. Nommer 4 critères sur lesquels vous pourriez baser votre analyse de classe de risque.
Crédibilité : pas un groupe très crédible Homogénéité : Probablement très homogène Stabilité : Peu stable d’année en année Réactivité : Trop …
29
Dans un GLM, on assume que la variable réponse suit une distribution. Quelles sont les distributions possible? Des exemples?
Une distribution qui fait partie de la famille exponentielle. Normale, Gamma, log-normale, binomiale, binomiale négative, Poisson, etc.
30
Qu'est-ce que la composante systématique ?
correspond à la part de la variation des résultats liée aux valeurs des variables explicatives
31
Qu'est-ce que la composante aléatoire?
désigne la part des résultats due à des causes extérieures aux variables explicatives de notre modèle, comprenant la « pure randomness » imprévisible même théoriquement, ainsi que les variations potentiellement explicables par des variables non incluses dans le modèle.
32
Quel est le lien entre la distribution de la variable réponse et la prédiction du modèle?
La prédiction du GLM sera l’espérance de la distribution pour une certaine observation. On peut ensuite s’attendre à ce que l’observation suive la distribution avec l’espérance donnée.
33
Qu'est-ce que le prédicteur linéaire?
g(u) = B_0 + B_1 * x_1 + B_2 * X_2 + ...
34
Qu'est-ce que la fonction de lien?
C'est la fonction qui fait le lien entre le prédicteur linéaire et la moyenne (u) de la distribution : la prédiction.
35
Quel est l'intérêt principal de la fonction de lien?
Borner le domaine de la prédiction
36
Pourquoi la fonction de lien log est-elle aussi populaire?
Elle produit un modèle multiplicatif.
37
Comment retrouve-t-on la variance de la distribution que suit la variable réponse?
En multipliant le paramètre de dispersion avec la fonction de variance V(u)
38
Définir l'écart-type associé à un coefficient beta qui est produit avec le modèle.
Un coefficient est le résultat d'un processus aléatoire. Si ce processus était répété un grand nombre de fois, l'écart-type du coefficient serait de tant.
39
Définir une p-value et son utilité
Puisqu'un coefficient est obtenu d'un processus aléatoire, il est possible que sa véritable valeur soit de 0, mais qu'on ait obtenu une valeur différente simplement par chance. La p-value quantifie la probabilité que la valeur du coefficient soit 0 et que la valeur obtenue ne soit qu'un résultat aléatoire. Elle permet donc d'identifier les variables significatives dans un modèle.
40
Qu'est-ce qu'un interval de confiance ?
Interval de confiance : Plage de valeurs du coefficients pour lesquelles, l’hypothèse nulle avec un seuil de valeur p serait rejetée.
41
Pourquoi prendre le logarithme d'une variable explicative est-il parfois désirable lorsqu'on travaille avec la fonction de lien log?
En prenant le logarithme de la variable explicative, on se retrouve à avoir une relation linéaire en la variable réponse et la variable explicative.
42
Dans un GLM utilisant la fonction de lien logarithmique, vous avec la variable AOI, et vous utilisez le logarithme de cette variable dans le modèle. Si le coefficient de cette variable est 0.8, quel est l'effet de double le montant d'assurance? De le quadrupler?
Doubler : 2^0.8 = 1.74 fois plus grand Quadrupler : 4^0.8 = 3.03 fois plus grand
43
Comment traiter une variable catégorielle? Comment interpréter un coefficient de 0.34 si la fonction de lien est logarithmique?
l'interprétation des résultats pour les variables catégorielles est toujours relatif au niveau de base (qui n'a pas de coefficient). Un coefficient de 0.34, donne une prédiction de exp(0.34) = 1,405. Donc, une augmentation de 40,5% de la _____ (fréquence, sévérité) (1,405 - exp(0) (niveau de base)/100) relatif au niveau de base.
44
Quand on travaille avec une variable catégorielle, la sélection du niveau de base a-t-il un impact?
Oui!
45
Comment traiter les poids dans un GLM? Quel est l'impact d'inclure ceux-ci et quand veut-on les inclure?
Inclure les poids, impact la variance de la distribution choisie (Y_i).
46
Comment traiter un offset dans un GLM? Quel est l'impact d'inclure celui-ci et quand veut-on l'inclure?
Impacte la moyenne
47
Décrire les options de distribution pour un GLM pour modéliser une variable continue et dans quelles situations sont-elles les meilleures
Gamma, inverse Gaullienne. Modéliser le montant de réclamations
48
Décrire les options de distribution pour un GLM pour modéliser une variable de fréquence et des exemples de situation où elle sont appropriées
Les distributions de fréquence sont : Poisson, Binomiale négative. Modéliser le nombre de réclamations
49
Décrire les options de distribution pour un GLM logistique et des exemples de situation où elle sont appropriées
Binomiale avec fonction de lien logis/logistique.
50
C'est les odds pour un modèle logistique ?
Les ods = U/(1-U), La fonction de lien pour un modèle logistique est ln [U/(1-U)] = B_0 + B_1 *X_1 + B_2 * X_2 + ... les ods = exp(B_0 + B_1 *X_1 + B_2 * X_2 + ..._
51
Est-ce problématique d'inclure des variables corrélées dans un GLM?
Un GLM peut gérer des corrélations entre certaines variables, c'est même sa force par rapport aux techniques univariées. Cependant, si la corrélation est trop forte, il aura de la difficulté et pourrait devenir instable.
52
Qu'est-ce que la multicolinéarité?
La multicolinéarité désigne une situation où deux ou plusieurs prédicteurs dans un modèle sont fortement prédictifs d'un troisième, entraînant une instabilité dans le modèle, même si ces prédicteurs ne sont pas fortement corrélés individuellement, ce qui complique leur détection à l'aide d'une matrice de corrélation. Statistique pour déterminer la multicolinéarité est : VIF (variance inflation factor)
53
Qu'est-ce que le VIF?
Le VIF (facteur d'inflation de la variance) est une statistique utilisée pour détecter la multicolinéarité, mesurant l'augmentation de l'erreur standard d'un prédicteur due à la collinéarité avec d'autres prédicteurs. Un VIF supérieur à 10 est généralement considéré comme élevé, nécessitant une analyse approfondie de la structure de collinéarité pour décider comment gérer ce problème dans le modèle.
54
Nommer 2 limitations des GLM
- Ils assignent une pleine crédibilité aux données - Ils assument que la composante aléatoire d'une observation est indépendante de la composante aléatoire des autres observations (violer quand il y a plusieurs instances de la même police dans les données ou un évènement qui a affecté plusieurs risques)
55
La construction d'un modèle peut être divisées en 9 étapes, en nommer au moins 5.
1. Déterminer les objectifs 2. Communiquer avec les parties prenantes 3. Collecte et traitement des données 4. Analyse exploratoire des données 5. Spécifier la forme du modèle 6. Évaluer l'extrant du modèle 7. Valider le modèle 8. Transformer le modèle en produit 9. Réévaluer le modèle et le reconstruire
56
Décrire les données nécessaire pour construire un modèle de classification des risques (p.e. GLM)
Les données de réclamation doivent être sur une base individuelle. Il doit être possible d'associer la perte à une police : il faut les informations de police qui sont associées à la réclamation.
57
Votre gestionnaire vous demande s'il serait préférable de construire un modèle pour la sévérité et un modèle pour la fréquence ou tout simplement un seul modèle pour la prime pure. Quelles seraient les différentes choses à considérer dans votre réponse?
- Il est possible que les données pour construire des modèles freq/sev ne soient pas disponibles - Construire et entretenir deux modèles prend plus de temps et d'énergie - Il est possible que certains signaux dans les données soient mieux captés par la stratégie à deux modèles - Les modèles freq/sev sont généralement plus stables - Un modèle de prime pure a parfois tendance à "overfit" les données quand une variable est significative pour la fréquence, mais pas la sévérité (ou vice-versa) - La distribution tweedie assume que la sévérité et la fréquence vont dans la même direction, ce qui n'est pas toujours vrai.
58
Il est généralement conseiller de construire un modèle de fréquence et un modèle de sévérité. Quelle autre considération pourrait pousser votre compagnie à construire plusieurs modèles de classification?
Il peut être désirable d'avoir un modèle par type de risque : responsabilité civile, bâtiment, contenu. Il peut même être désirable d'avoir un modèle par péril : (par exemple, feu, eau, vent pour le type de risque "bâtiment")
59
On vous fourni des données de réclamations pour les années 2020-2023. Les pertes ont été développées, projetées et les primes sont projetées et à niveau. Quelles autres transformations (2) sur votre variable cible pourraient être considérées avant de construire un modèle?
- Capper les réclamations (enlever les pertes majeures) - Enlever les catastrophes et les traiter d'une autre façon
60
Nommer 3 façons de gérer la non-linéarité entre la variable réponse et une des variables explicatives d'un GLM. Nommer une limite de chaque méthode
1. Regrouper la variable continue (traiter la variable continue comme une variable catégorielle, de cette façon un coefficient va être estimé pour chaque niveau) - N'assure pas la continuité (reversal) (les coefficients de chaque niveau sont estimés indépendamment des autres) 2. Utiliser des termes polynomiaux - Perte d'interprétabilité - Comportement erratique dans les extrêmes 3. Utiliser une fonction linéaire par morceaux - Les "breakpoints" doivent être sélectionnés manuellement
61
Nommer deux statistiques qui permettent d'évaluer l'ajustement d'un GLM sur les données d'entrainement et une petite définition.
1. Log-vraisemblance 2. Déviance - Deux fois la différence entre la log-vraisemblance du modèle et du modèle saturé
62
Pour faire une étude des résidus, plutôt que d'observer les résidus brutes du GLM, nommer deux autres options et une brève description de celles-ci.
1. Résidus de déviance - Résidus ajustés pour la distr. du GLM 2. Résidus de travail - (y - u) * g'(u) : permet de les regrouper
63
On vous demande de comparer deux modèles non-emboîtés, quel test pourriez-vous utiliser?
AIC et BIC. Le but est d'avoir le plus petit indice possible.
64
L'étude des résidus d'un GLM peut permettre d'identifier quoi?
Du signal dans les données qui n'est pas capté par le modèle. C'est le cas quand les résidus ne semblent pas aléatoires. Il est alors possible de considérer un changement de distribution ou de nouvelles variables.
65
Il peut être possible de "plot" les résidus d'un GLM en fonction de 3 éléments différents. Nommer les et ce qu'on peut observer en les utilisant.
- Prédicteur linéaire - Les valeurs d'une variable du GLM - Le poids
66
Est-il possible de comparer 2 modèles par log-vraisemblance ou déviance qui n'ont pas exactement le même jeu de données ?
Non, pour utiliser le log-vraisemblance ou la déviance comme statistique de comparaison il faut que les données utilisées pour construire les 2 modèles soient identiques
67
Quel test statistique est effectué pour comparer 2 modèles emboités ?
Le test F
68
Ajouter une variable prédictive à un GLM va augmenter ou diminuer la déviance du nouveau modèle?
Diminuer la déviance, le modèle sera plus raffiné, donc la nouvelle déviance se rapprochera davantage de la déviance du modèle saturé (modèle avec toutes les variables explicatives)
69
Quel est l'équation de l'AIC et BIC
AIC = -2 * log-vraisemblance + 2 * P BIC = -2 * log-vraisemblance + p * ln(n)
70
Lors de l'analyse graphique des résidus de déviance, quels éléments indique que le modèle est bien ajusté?
1. Les résidus sont aléatoire (y'a rien de prédictble, pas de pattern) 2. Les résidus sont normalement distribués (homoscedasticité)
71
Explique ce que sont les quantiles plots
- Quantile plots sont utilisés pour visualiser la capacité des modèles à différencier les meilleurs et les pires risques. - **Étapes pour créer les quantile plots** : 1. Trier les données selon les prédictions du modèle A. 2. Diviser les données en quantiles égaux (ex : quintiles, déciles). 3. Calculer les primes pures moyennes prédites et réelles dans chaque quantile. 4. Tracer ces primes pour le modèle A. 5. Répéter pour le modèle B. - **Critères d’évaluation** : 1. **Précision prédictive** : Comparer la prime prédite avec la prime réelle. 2. **Monotonie** : Les primes devraient augmenter progressivement entre les quantiles. 3. **Lift (distance verticale)** : Un grand écart entre les quantiles extrêmes montre une meilleure distinction entre les bons et mauvais risques. Ces critères aident à identifier quel modèle offre la meilleure différenciation des risques.
72
Explique ce que sont les loss ratio chart
Exactement la même chose que les quantiles plots, mais c'est des loss ratio au lieu des primes
73
Qu'est-ce que la sensivité et donne un exemple ou on veut la maximiser? Qu'est-ce que la Spécificité et donne un exemple ou on veut la maximiser?
Sensitivité = vrai positifs/tous les positifs Spécifité = vrai négatifs/tous les négatifs - **Sensibilité (ou taux de vrais positifs )** : Mesure la capacité du modèle à détecter correctement les événements positifs (ex : identifier les fraudes). Plus le seuil de discrimination est bas, plus la sensibilité est élevée. Par exemple, un seuil à 25% augmente la détection des fraudes, mais génère plus de faux positifs. - **Spécificité (ou taux de vrais négatifs)** : Mesure la capacité du modèle à identifier correctement les événements négatifs (ex : non-fraudes). Un seuil plus élevé maximise la spécificité, en limitant les faux positifs, mais risque de manquer des cas de fraude (faux négatifs). - **Trade-off entre sensibilité et spécificité** : Abaisser le seuil augmente la détection des fraudes (sensibilité) mais augmente aussi les faux positifs. Inversement, augmenter le seuil améliore la spécificité mais diminue la détection des fraudes.