6. Segmentation (25%) Flashcards
(73 cards)
Qu’est-ce qu’un taux équitable ?
Un taux équitable est un taux pour lequel un risque avec une plus grande fréquence de sinistralité ou sévérité va produire un plus grand taux
Quelles sont les 3 étapes pour la construction d’un système de classification des risques ?
- Identification de caractéristique de risque qui différencie un groupe d’un autre
2, Établissement des classes de risques - Développement et testing des classes de risques
Quelles sont les considérations que l’actuaire doit prendre lors de la sélection de caractéristique de risque ?
- Relation entre la caractéristique et le résultat attendu
- Causalité
- Objectivité
- Praticité (Coût et effort pour obtenir l’info)
- Vérifiable
- Les lois
- Pratiques de l’industrie
- Pratiques de l’entreprise
Nomme 3 objectifs de la segmentation ?
Lors de la tarification, une segmentation est faite pour différencier les différents types de risque.
- Cet exercice vient offrir une certaine équité individuelle aux assurés,
- il permet aussi à l’assureur d’avoir une meilleure compréhension des risques assurés et de prendre des décisions informées, d’avoir des prix adéquats et d’avoir une bonne santé financière.
3.La segmentation des risques offre aussi une protection contre l’anti-sélection.
Qu’est-ce que l’anti-sélection ou la sélection adverse ?
Actions prises par un parti qui utilise des caractéristiques de risques ou autres informations pour créer un désavantage financier à un autre parti qui n’a pas toute l’information. (Asymétrie de l’information)
Quelles sont les conséquences d’une mauvaise segmentation ou pas de segmentation tout simplement ?
Exemple classique d’anti-sélection avec un assureur qui n’effectue aucune segmentation et un compétiteur qui effectue une segmentation. À chaque année, les bons assurés vont aller chez le compétiteur alors que des mauvais vont arriver. Le portefeuille s’empire à chaque année et la profitabilité sera toujours mauvaise.
Offrir des couvertures à un prix “équitable” permet aux assureurs d’avoir une meilleure compréhension du risque offert et de prendre de meilleures décisions en conséquence. Au final, dans un marché compétitif, il y aura une plus grande disponibilité de couvertures abordables.
Nomme au moins 3 différentes techniques utilisées pour faire la segmentation
- Analyse par tableaux univariés
- Minimum Biais
- GLM
Nomme 1 avantage et 1 inconvénient de l’analyse par tableau univarié
Avantage : Très simple à concevoir et à communiquer à des personnes non-techniques
Inconvénient : Avec plusieurs variables, il est important de comprendre le biais distributionnel et la dépendance. Les analyses par tableau ne permettent pas de bien illustrer les corrélations entre les différentes variables.
Explique ce qu’est le biais distributionnel (distributional biais)
Assume que la distribution des expositions est uniforme dans toutes les variables de tarification alors qu’en réalité la distribution en exposition des classes d’une caractéristique peu être différente pour les classes d’une autre variable.
Conducteurs Homme Femme
Jeune 700 300
Vieux 500 500
Sans ajustement, un biais distributionnel mènera à un double-compte avec l’analyse simple par tableau. Il est possible d’utiliser la procédure du biais minimum.
Explique ce qu’est la dépendance
Dépendance : Quand savoir la classe de risque d’une autre caractéristique influence la relativité d’une autre caractéristique de risque. Par exemple, si un jeune conducteur coûte 20% plus cher que le conducteur moyen, mais qu’un jeune homme coûte 30% plus cher que le conducteur moyen, il y a dépendance
Nomme 1 avantage et 1 inconvénient de la méthode minimum biais
Avantage : Permet de régler le problème de biais distributionnel
Inconvénient : Ne permet pas de prendre en compte les problèmes de dépendance
Nomme 1 avantage et 1 inconvénient des GLM
Avantage : Gère beaucoup mieux la corrélation et peut gérer un peu de dépendance.
Reste relativement simple à interpréter , surtout quand on compare aux modèles d’apprentissage automatique.
Inconvénient : Les GLM assument que la partie aléatoire de chaque observation est indépendante des autres.
Nommes au moins 3 limites des GLM
Les GLM donnent une crédibilité complète aux données.
→ Si le niveau d’une variable catégorielle n’est représenté que par une observation, cette observation donnera le niveau de la relativité et sera accordé une crédibilité complète
Les GLM assument que la partie aléatoire de chaque observation est indépendante des autres.
→ Des risques d’une même région peuvent être affectés par le même phénomène
Les GLM
La prédiction d’un risque dépend des données provenant d’autres segments, potentiellement très différents.
→ Ce qu’on prédit pour un client peut être influencé par des données venant d’un autre groupe très différent, ce qui peut fausser l’analyse.
Les prédictions du modèle dépendent de la composition des facteurs tarifaires présents dans les données.
→ Si on change la proportion de certains profils dans nos données, cela peut changer les résultats, même si le modèle reste le même.
L’estimation par maximum de vraisemblance est souvent inférieure à la moyenne de la distribution des prédictions.
La fonction de liaison peut introduire un biais dans la prédiction du modèle et modifier de manière significative les bornes inférieure et supérieure des résultats.
Les diagnostics du modèle ne sont valides que dans les segments pour lesquels le modèle a été conçu et utilisé.
Quel est l’objectif de la régularisation ?
L’objectif principal de la régularisation est d’ajuster des modèles de régression comportant un grand nombre de variables, tout en évitant le surapprentissage (overfitting) sur les données d’entraînement.
Quels sont les 3 types de GLM régularisé qui ont un estimateur de maximum de vraisemblance pénalisé ?
- Lasso
- Elastic net
- Ridge
Parmis les 3 GLM avec un estimateur de maximum de vraisemblance pénalisé, lesquels permettent d’avoir des paramètres estimés égaux à 0
Lasso et Élastic net
Nomme 2 différentes façons outre que par les estimateur de maximum de vraisemblance pénalisé de choisir des variables à inclure et exclure du modèle
- Méthode stepwise
- Approche Baysienne
Nomme au moins 3 modèles de classification non linéaire
- Les arbres de classification
- Bagging
- Les forêts aléatoires
- GBM
- BART
- Multivariate Adaptive Regression Splines (MARS)
- Neural Nets and Deep Learning
Nomme 1 avantage et 1 inconvénient des arbres de classification
Avantage : Facile à expliquer
Inconvénient : 1. Instabilité des arbres de décision : Les résultats peuvent varier fortement selon l’échantillon de données utilisé, ce qui rend les arbres sensibles et peu stables (variance élevée). Cela peut poser problème en actuariat, où les données sont souvent déséquilibrées. Des techniques comme la validation croisée, l’agrégation de modèles (ensembling) ou l’échantillonnage stratifié peuvent aider à atténuer ce problème.
2. Manque de continuité (lack of smoothness): Les arbres peuvent attribuer des résultats très différents à des groupes similaires, ce qui complique l’interprétation et l’extrapolation, surtout lorsqu’il faut prédire pour des catégories peu ou pas représentées dans les données.
Explique ce qu’est le bagging
Bagging (Bootstrap Aggregating)
Le bagging est une méthode d’ensemble qui consiste à :
1. Créer plusieurs jeux de données en rééchantillonnant l’ensemble d’origine (avec la méthode du bootstrap).
2. Entraîner un modèle (souvent un arbre de décision) sur chacun de ces jeux.
3. Combiner les prédictions de tous les modèles :
* Moyenne pour les problèmes de régression,
* Vote majoritaire pour la classification.
🎯 Objectif : Réduire la variance et améliorer la stabilité du modèle.
Explique ce quest une foret aléatoire
Random Forest
La random forest est une amélioration du bagging appliquée aux arbres de décision, avec un ajout clé :
👉 À chaque nœud de l’arbre, seule une sous-partie aléatoire des variables est utilisée pour faire le meilleur split.
Cela permet :
* Plus de diversité entre les arbres,
* Moins de corrélation entre eux,
* Meilleure précision que le bagging seul.
📌 En résumé :
Random Forest = Bagging + Sélection aléatoire de variables à chaque split
Quels sont les hyperparametres à choisir dans une foret aléatoire
Lorsqu’on utilise un modèle de foret aléatoire, il faut faire le choix des hyperparametres suivants : Le nombre d’arbre, le nombre de variables explicatives considérations à chaque split, le nombre minimum d’observations dans un nœud
Nomme une limitation et une facon de pallier à cette limitation pour les forets aléatoires
Une des limitations des forêts aléatoire et la complexité du modèle. Une facon de pallier à ca et de montrer un graphique de l’importance relative de chaque varaible dans le modèle.
Décrit le GBM
GBM (Gradient Boosting Machine)
Le GBM est un modèle d’ensemble basé sur une technique de boosting.
🔁 Contrairement au bagging (où les modèles sont entraînés en parallèle), le GBM construit les modèles de façon séquentielle :
Chaque nouvel arbre est entraîné pour corriger les erreurs du précédent.
🔍 Fonctionnement en résumé :
1. On commence avec un modèle simple (souvent une prédiction constante).
2. À chaque étape, on :
* Calcule les résidus (erreurs du modèle précédent),
* Entraîne un nouvel arbre pour prédire ces résidus,
* Met à jour la prédiction en ajoutant l’arbre avec un petit poids (learning rate).
🎯 Objectif : Minimiser une fonction de perte (comme l’erreur quadratique) en suivant le gradient, d’où le nom gradient boosting.