Domanda

I stava cercando di costruire un classificatore utilizzando 0-1 pacchetto R xgboost. La mia domanda è come le previsioni sono fatte? Per esempio nelle foreste casuali, gli alberi "voto" contro ogni opzione e la previsione finale si basa sulla maggioranza. Per quanto riguarda xgboost, il caso regressione è semplice poiché la previsione su tutto il modello è uguale alla somma di predcitions per studenti deboli (alberi boosted), ma per quanto riguarda la classificazione?

non xgboost classificatore funziona allo stesso modo nella foresta casuale (io non la penso così, dal momento che può tornare probabilità predittiva, non l'appartenenza di classe).

È stato utile?

Soluzione

L'algoritmo di spinta gradiente creare un insieme di albero decisionale.

Il processo di previsione utilizzato qui utilizzare queste procedure:

  • per ogni albero, creare una temporanea "variabile previsto", applicando l'albero per il nuovo set di dati.
  • utilizzare una formula per aggregare tutti questi albero. A seconda del modello:
    • Bernoulli: 1 / (1 + exp (- (intercetta + SUM (pred temporanea))))
    • poisson, gamma: exp (intercetta + SUM (pred temporaneo))
    • AdaBoost: 1 / (1 + exp (-2 * (intercetta + SUM (pred temporanea))))

La temporanea "variabile previsto" è una probabilità, non avendo alcun senso dalla propria.

L'albero più hai, più liscia è la vostra previsione. (Come per ogni albero, solo un insieme finito di valore si sviluppa attraverso le vostre osservazioni)

Il processo di R è probabilmente ottimizzato, ma è sufficiente per capire il concetto.

Nell'attuazione h2o della spinta gradiente, l'uscita è un flag 0/1. Credo che il F1 punteggio viene utilizzato per default alla probabilità convertito in bandiera. Farò un po 'di ricerca / test per confermare che.

Nello stesso attuazione, una delle uscite predefinita per un risultato binario è una matrice di confusione, che è un ottimo modo per valutare il modello (e aprire un nuovo gruppo di interrogatori).

L'intercetta è "il valore previsto iniziale per cui gli alberi effettuare le regolazioni". In sostanza, solo una regolazione iniziale.

In aggiunta: documentazione h2o.gbm

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top