Frage

Ich habe versucht, einen 0: 1-Klassifizierer mit einem Xgboost R-Paket zu erstellen. Meine Frage ist, wie Vorhersagen getroffen werden? Zum Beispiel in zufälligen Wäldern "stimmen" Bäume gegen jede Option und die endgültige Vorhersage basiert auf der Mehrheit. In Bezug auf XGBOOST ist der Regressionsfall einfach, da die Vorhersage auf das gesamte Modell gleich der Summe der Vorhersagen für schwache Lernende (verstärkte Bäume) ist, aber was ist mit der Klassifizierung?

Funktioniert XGBOOST -Klassifikator genauso wie im zufälligen Wald (ich glaube nicht, da er Vorhersagewahrscheinlichkeiten und nicht die Klassenmitgliedschaft zurückgeben kann).

War es hilfreich?

Lösung

Der Gradienten -Boost -Algorithmus erzeugt eine Reihe von Entscheidungsbaum.

Der verwendete Vorhersageprozess hier Verwenden Sie diese Schritte:

  • Erstellen Sie für jeden Baum eine temporäre "vorhergesagte Variable" und wenden Sie den Baum auf den neuen Datensatz an.
  • Verwenden Sie eine Formel, um den gesamten Baum zu aggregieren. Abhängig vom Modell:
    • Bernoulli: 1/(1 + exp (-(Intercept + sum (temporäre Präd))))
    • Poisson, Gamma: exp (Intercept + Summe (temporäre Präd))
    • adaboost: 1 /(1 + exp (-2*(Intercept + sum (temporäre Präd))))

Die vorübergehende "vorhergesagte Variable" ist eine Wahrscheinlichkeit, die von selbst keinen Sinn hat.

Je mehr Baum Sie haben, desto glatt ist Ihre Vorhersage. (Wie bei jedem Baum wird nur ein endlicher Wertsatz in Ihren Beobachtungen verteilt)

Der R -Prozess ist wahrscheinlich optimiert, aber es reicht aus, um das Konzept zu verstehen.

In der H2O -Implementierung des Gradientenschubs ist die Ausgabe ein Flag 0/1. Ich denke, die F1 -Punktzahl wird standardmäßig verwendet, um die Wahrscheinlichkeit in Flag umzuwandeln. Ich werde einige Suche/Tests durchführen, um dies zu bestätigen.

In derselben Implementierung ist eine der Standardausgaben für ein binäres Ergebnis eine Verwirrungsmatrix, die eine großartige Möglichkeit ist, Ihr Modell zu bewerten (und eine ganz neue Gruppe von Befragungen zu öffnen).

Der Abfang ist "der anfängliche vorhergesagte Wert, an den Bäume Anpassungen vornehmen". Grundsätzlich nur eine anfängliche Einstellung.

Zusätzlich: H2O.GBM -Dokumentation

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top