Вопрос

Я пытался создать классификатор 0-1 с помощью пакета Xgboost R. Мой вопрос в том, как делаются прогнозы? Например, в случайных лесах деревья «голосуют» против каждого варианта, и окончательный прогноз основан на большинстве. В отношении XGBOOST, случай регрессии прост, поскольку прогнозирование всей модели равна сумме предшественников для слабых учащихся (повышенные деревья), но как насчет классификации?

Работает ли классификатор XGBOOST так же, как в случайном лесу (я так не думаю, поскольку он может вернуть предиктивные вероятности, а не членство в классе).

Это было полезно?

Решение

Алгоритм повышения градиента создает набор дерева решений.

Используемый процесс прогнозирования здесь Используйте эти шаги:

  • Для каждого дерева создайте временную «прогнозируемую переменную», применяя дерево к новому набору данных.
  • Используйте формулу, чтобы объединить все эти дерева. В зависимости от модели:
    • Bernoulli: 1/(1 + exp (-(Intercept + sum (временный предиск))))))))))))))))))
    • Пуассон, Гамма: Exp (Intercept + Sum (временный предиск))
    • Adaboost: 1 /(1 + exp (-2*(Intercept + sum (временный предиск)))))))))))

Временная «прогнозируемая переменная» является вероятностью, не имеет смысла самостоятельно.

Чем больше у вас дерева, тем более гладким является ваш прогноз (как и для каждого дерева, только конечный набор стоимости распространяется по вашим наблюдениям)

Процесс R, вероятно, оптимизирован, но этого достаточно, чтобы понять концепцию.

В реализации H2O Gradient Boost выход представляет собой флаг 0/1. я думаю F1 Оценка используется по умолчанию для преобразования вероятности в флаг. Я сделаю поиск/тест, чтобы подтвердить это.

В той же самой реализации одним из выводов по умолчанию для двоичного результата является матрица путаницы, которая является отличным способом оценить вашу модель (и открыть целую новую группу допросов).

Перехват - это «первоначальное прогнозируемое значение, в которое деревья вносят коррективы». В основном, просто начальная корректировка.

Кроме того: H2O.GBM Документация

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top