Перекрестная проверка для алгоритма C5.0

https://datascience.stackexchange.com/questions/6304

16-10-2019
|

Вопрос

Я хочу попробовать перекрестную проверку в k для r для алгоритма C5.0,

Ниже приведен код, который я использую. Может кто-нибудь предложить мне, как я могу включить K-Fold?

Classifi_c5.0 <- c5.0 (target ~.,, Data = training_data_smoted, trails = 500, control = c5.0control (mincases = mincases_count, noglobalpruning = false))))

Требуется ли это для перекрестной валидации для случайного леса?

Решение

Я бы сказал, что перекрестная проверка здесь не нужна, так как многократное разделение данных и переменных уже подразумевается в случайных лесах. Но это все еще хорошая практика, чтобы провести набор тестирования, который отличается от обучающего набора. В основном это связано с тем, что вы можете ввести изменения в своем случайном лесу, чтобы улучшить производительность в тестовых наборах в целом, тем самым вводя предвзятость, которую пытаются преодолеть случайные леса. Поэтому, если вы удержали часть своих данных и оценки окончательной производительности RF на этом удержании, установленном только на шаге прогноза, тогда все в порядке.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange