Perché non è la dimensione di campionamento utilizzato con macchine gradiente aumentando (GBM)?

https://datascience.stackexchange.com/questions/2537

16-10-2019
|

Domanda

GBM, come le foreste casuali, costruire ogni albero su un diverso campione del set di dati e, di conseguenza, passando dallo spirito di modelli Ensemble, produrre precisioni elevate. GBM Tuttavia, non ho visto in uso con il campionamento dimensione ad ogni scissione del albero come è prassi comune con foreste casuali.

Ci sono alcune prove che dimostrano che il campionamento tridimensionale con GBM diminuirebbe la sua precisione a causa del quale questo viene evitato, sia in forma di letteratura o in esperienza pratica?

Soluzione

GradientBoostingClassifier / GradientBoostingRegressor Have a max_features parametro e XGBoost ha colsample_bylevel e colsample_bytree parametri che controllano il modo molte caratteristiche vengono campionati per ogni albero / split.

Altri suggerimenti

Non ho mai letto (o tentato) sottocampionamento tecniche su ogni nodo dell'albero. Non dico che non potrebbero esistere, ma sembra strano l'affermazione "come è una pratica comune con foreste casuali".

Oltre a questo, sottocampionamento o bootstrap il campione per ogni albero da foreste casuali dà gradiente stocastico incrementare Friedman, 1999 . Essi danno risultati migliori con sottocampionamento che senza più dettagli sono dati anche in elementi di apprendimento statistico, pagina 358, 10.12.2 Subsampling .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange