Tree algorithm Flashcards
(9 cards)
Qu’est-ce que le “gradient boosting” dans le contexte des arbres de décision ?
Technique d’ensemble ajoutant des arbres séquentiellement pour corriger les erreurs précédentes, en se concentrant sur les résidus.
Comment le “gradient boosting” diffère-t-il d’une “random forest” ?
Random forest : arbres indépendants sur sous-ensembles aléatoires ; gradient boosting : arbres séquentiels corrigeant les erreurs.
Qu’est-ce qu’un “arbre faible” (weak tree) dans le cadre de XGBoost et pourquoi est-il utile ?
Arbre simple et peu profond ; utile car chaque arbre suivant corrige ses erreurs, formant un modèle puissant.
Pourquoi les arbres de décision simples sont-ils susceptibles de souffrir de surajustement (overfitting) ?
Tendance à devenir trop complexe, capturant le bruit des données d’entraînement, donc faible généralisation.
Citez deux hyperparamètres clés de XGBoost liés à la structure de l’arbre.
Profondeur maximale (max_depth) et nombre minimum d’échantillons pour diviser un nœud (min_child_weight).
Qu’est-ce que le taux d’apprentissage (learning rate) dans XGBoost et quelle est son analogie avec le golf ?
Contrôle la contribution de chaque arbre ; comme un putter (lent mais précis) vs driver (rapide mais risqué) au golf.
Mentionnez deux avantages de XGBoost par rapport à d’autres algorithmes pour les données tabulaires.
Gère les données manquantes, les interactions non linéaires, et est optimisé pour les processeurs multi-cœurs.
Dans quels cas XGBoost pourrait-il ne pas être le choix idéal pour un problème de modélisation ?
Non idéal pour données non tabulaires, très petits jeux de données, besoin d’interprétabilité ou d’inférence très rapide.
Comment la bibliothèque xgbfir peut-elle être utile lors de l’utilisation de XGBoost ?
Identifie et rapporte les interactions de caractéristiques découvertes par le modèle dans les données.