Classement à partir xgboost - prévisions

https://datascience.stackexchange.com/questions/9862

16-10-2019
|

Question

Je tente de construire un classificateur 0-1 en utilisant package xgboost R. Ma question est de savoir comment les prédictions sont faites? Par exemple dans les forêts aléatoires, les arbres « vote » contre chaque option et la prédiction finale est basée sur la majorité. En ce qui concerne xgboost, le cas de régression est simple puisque la prévision sur le modèle tout est égal à la somme des predcitions pour les apprenants faibles (Boosting), mais qu'en est-classification?

classificateur xgboost Est-ce que fonctionne comme dans la forêt au hasard (je ne pense pas, car il peut renvoyer les probabilités de prédiction, non membres de la classe).

La solution

L'impulsion de gradient algorithme crée un ensemble d'arbre de décision.

Le processus de prévision utilisé utiliser comme suit:

pour chaque arbre, créer une « variable prédit » temporaire, l'application de l'arbre au nouvel ensemble de données.
utiliser une formule pour regrouper tous ces arbres. Selon le modèle:
- Bernoulli: 1 / (1 + exp (- (interception + SUM (pred temporaire))))
- poisson, gamma: exp (+ ordonnée à l'origine SUM (pred temporaire))
- AdaBoost: 1 / (1 + exp (-2 * (interception + SUM (en pred temporaire))))

La « variable prédit » temporaire est une probabilité, avoir aucun sens par lui-même.

Plus arbre que vous avez, plus lisse votre prédiction. (Comme pour chaque arbre, seul un ensemble de valeur finie est répartie sur vos observations)

Le processus de R est probablement optimisé, mais il suffit de comprendre le concept.

Dans la mise en œuvre de h2o de l'impulsion de gradient, la sortie est un indicateur 0/1. Je pense que le F1 score de est utilisé par défaut pour convertir la probabilité dans le drapeau. Je vais faire une recherche / test pour confirmer.

Dans cette même mise en œuvre, l'un de la sortie par défaut pour un résultat binaire est une matrice de confusion, ce qui est un excellent moyen d'évaluer votre modèle (et ouvrir un nouveau tas d'interrogations).

L'interception est « la valeur prédite initiale à laquelle les arbres font des ajustements ». Fondamentalement, il suffit d'un réglage initial.

En plus: documentation h2o.gbm

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange