Pourquoi ne pas dimension échantillonnage utilisé avec des machines augmentant de gradient (GBM)?

https://datascience.stackexchange.com/questions/2537

16-10-2019
|

Question

GBM, comme les forêts aléatoires, construire chaque arbre sur un échantillon différent de l'ensemble de données et, par conséquent, en passant par l'esprit des modèles d'ensemble, produisent plus exactitudes. Cependant, je ne l'ai pas vu GBM utilisé avec un échantillonnage de dimension à chaque fraction de l'arbre comme est pratique courante avec les forêts aléatoires.

Y at-il des tests qui montrent que l'échantillonnage dimensions avec GBM diminuerait sa précision en raison de laquelle cela est évité, soit sous forme de littérature ou de l'expérience pratique?

La solution

GradientBoostingClassifier / GradientBoostingRegressor ayez un max_features paramètre et XGBoost a colsample_bylevel et colsample_bytree paramètres qui contrôlent le nombre de caractéristiques sont échantillonnées pour chaque arbre / split.

Autres conseils

J'ai jamais lu (ou essayé) sur chaque sous-échantillonnage techniques nœud de l'arbre. Je ne dis pas qu'ils pourraient ne pas exister, mais il semble étrange l'énoncé « comme est une pratique courante avec les forêts aléatoires ».

Autre que cela, ou sous-échantillonnage bootstrapping l'échantillon pour chaque arbre de forêts aléatoires donne un gradient stochastique stimulant Éléments de l'apprentissage statistique, à la page 358, 10.12.2 Echantillonnage .

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange