Tree algorithm Flashcards

(9 cards)

1
Q

Qu’est-ce que le “gradient boosting” dans le contexte des arbres de décision ?

A

Technique d’ensemble ajoutant des arbres séquentiellement pour corriger les erreurs précédentes, en se concentrant sur les résidus.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Comment le “gradient boosting” diffère-t-il d’une “random forest” ?

A

Random forest : arbres indépendants sur sous-ensembles aléatoires ; gradient boosting : arbres séquentiels corrigeant les erreurs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Qu’est-ce qu’un “arbre faible” (weak tree) dans le cadre de XGBoost et pourquoi est-il utile ?

A

Arbre simple et peu profond ; utile car chaque arbre suivant corrige ses erreurs, formant un modèle puissant.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Pourquoi les arbres de décision simples sont-ils susceptibles de souffrir de surajustement (overfitting) ?

A

Tendance à devenir trop complexe, capturant le bruit des données d’entraînement, donc faible généralisation.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Citez deux hyperparamètres clés de XGBoost liés à la structure de l’arbre.

A

Profondeur maximale (max_depth) et nombre minimum d’échantillons pour diviser un nœud (min_child_weight).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Qu’est-ce que le taux d’apprentissage (learning rate) dans XGBoost et quelle est son analogie avec le golf ?

A

Contrôle la contribution de chaque arbre ; comme un putter (lent mais précis) vs driver (rapide mais risqué) au golf.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Mentionnez deux avantages de XGBoost par rapport à d’autres algorithmes pour les données tabulaires.

A

Gère les données manquantes, les interactions non linéaires, et est optimisé pour les processeurs multi-cœurs.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Dans quels cas XGBoost pourrait-il ne pas être le choix idéal pour un problème de modélisation ?

A

Non idéal pour données non tabulaires, très petits jeux de données, besoin d’interprétabilité ou d’inférence très rapide.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Comment la bibliothèque xgbfir peut-elle être utile lors de l’utilisation de XGBoost ?

A

Identifie et rapporte les interactions de caractéristiques découvertes par le modèle dans les données.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly