Перекрестная проверка для алгоритма C5.0
-
16-10-2019 - |
Вопрос
- Я хочу попробовать перекрестную проверку в k для r для алгоритма C5.0,
Ниже приведен код, который я использую. Может кто-нибудь предложить мне, как я могу включить K-Fold?
Classifi_c5.0 <- c5.0 (target ~.,, Data = training_data_smoted, trails = 500, control = c5.0control (mincases = mincases_count, noglobalpruning = false))))
- Требуется ли это для перекрестной валидации для случайного леса?
Решение
Я бы сказал, что перекрестная проверка здесь не нужна, так как многократное разделение данных и переменных уже подразумевается в случайных лесах. Но это все еще хорошая практика, чтобы провести набор тестирования, который отличается от обучающего набора. В основном это связано с тем, что вы можете ввести изменения в своем случайном лесу, чтобы улучшить производительность в тестовых наборах в целом, тем самым вводя предвзятость, которую пытаются преодолеть случайные леса. Поэтому, если вы удержали часть своих данных и оценки окончательной производительности RF на этом удержании, установленном только на шаге прогноза, тогда все в порядке.