¿Por qué no se dimensión de muestreo utilizado con máquinas gradiente impulsar (GBM)?

https://datascience.stackexchange.com/questions/2537

16-10-2019
|

Pregunta

GBM, como los bosques aleatorios, construir cada árbol en una muestra diferente del conjunto de datos y, por tanto, va por el espíritu de los modelos de conjunto, producen mayores precisiones. Sin embargo, no he visto GBM siendo utilizado con el muestreo en cada dimensión escisión del árbol, como es la práctica común con los bosques aleatorios.

¿Hay algunas pruebas que demuestran que el muestreo dimensiones con GBM disminuiría su exactitud debido a lo cual se evita esto, ya sea en forma de la literatura o de la experiencia práctica?

Solución

GradientBoostingClassifier / GradientBoostingRegressor un signo max_features de parámetros y XGBoost tiene colsample_bylevel y colsample_bytree parámetros que controlan la cantidad de características se muestrean para cada árbol / división.

Otros consejos

nunca he leído (o tratado) submuestreo técnicas en cada nodo del árbol. No digo que no podría existir, pero parece extraña la afirmación "como es una práctica común con los bosques al azar".

Aparte de eso, el submuestreo o bootstrapping la muestra para cada árbol de bosques aleatorios da gradiente estocástico impulsar Friedman, 1999 . Ellos dan mejores resultados con submuestreo y que sin más detalles se dan también en elementos del aprendizaje estadístico, página 358, 10.12.2 El submuestreo .

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange