Вопрос

У меня в руках проблема классификации, которую я хотел бы решить с помощью алгоритма машинного обучения (возможно, байесовского или марковского, вопрос не зависит от используемого классификатора).Учитывая ряд обучающих экземпляров, я ищу способ измерить производительность реализованного классификатора с учетом проблемы переобучения данных.

Это:учитывая N [1 ..100] обучающих выборок, если я запущу алгоритм обучения для каждой из выборок и использую эти же самые выборки для измерения пригодности, это может привести к проблеме переопределения данных - классификатор будет знать точные ответы для обучающих экземпляров, не обладая большой прогностической способностью, что сделает результаты пригодности бесполезными.

Очевидным решением было бы разделение образцов с ручной меткой на обучающие и тестовые;и я хотел бы узнать о методах отбора статистически значимых выборок для обучения.

Официальные документы, указатели на книги и PDF-файлы очень ценятся!

Это было полезно?

Решение

Вы могли бы использовать 10-кратная перекрестная проверка для этого.Я считаю, что это довольно стандартный подход к оценке производительности алгоритма классификации.

Основная идея состоит в том, чтобы разделить ваши обучающие выборки на 10 подмножеств.Затем используйте одно подмножество для тестовых данных и другие для обучающих данных.Повторите это для каждого подмножества и вычислите среднюю производительность в конце.

Другие советы

Как мистерБраунстоун сказал, что 10-кратная перекрестная проверка, вероятно, лучший способ.Недавно мне пришлось оценить производительность ряда различных классификаторов, для этого я использовал Веска.Который имеет API и множество инструментов, позволяющих вам легко тестировать производительность множества различных классификаторов.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top