Почему выборка размерности не используется с машинами повышения градиента (GBM)?

https://datascience.stackexchange.com/questions/2537

16-10-2019
|

Вопрос

GBM, такие как случайные леса, строят каждое дерево в другой выборке набора данных и, следовательно, проходя из духа ансамблевых моделей, дают более высокую точность. Тем не менее, я не видел, чтобы GBM использовалась с отбором отборов измерений при каждом разделении дерева, подобной, является обычной практикой со случайными лесами.

Существуют ли некоторые тесты, которые показывают, что размерная выборка с GBM снизит его точность, из -за чего это избегается, либо в литературной форме, либо в практическом опыте?

Решение

Sklearn's GradientBoostingClassifier / Gradientboostingregresress иметь max_features параметр и XGBOOST имеет colsample_bylevel а также colsample_bytree Параметры, которые контролируют, сколько функций отображается для каждого дерева / разделения.

Другие советы

Я никогда не читал (или испытал) методы субмонтации на каждом узле дерева. Я не говорю, что они могут не существовать, но это выглядит странно, что утверждение «как обычная практика со случайными лесами».

Кроме этого, подмены или начальная загрузка образца для каждого дерева из случайных лесов дает повышение стохастического градиента Фридман, 1999. Анкет Они дают лучшие результаты с помощью подчиненной, чем без, а также предоставлено также в Элементы статистического обучения, стр. 358, 10.12.2 Subsampling.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange