Можем ли мы использовать модель, которая переполняет?

https://datascience.stackexchange.com/questions/12589

16-10-2019
|

Вопрос

Я нахожусь на проблемной задаче классификации с показателями AUC. Я сделал случайное раскол 70%, 30% для обучения и тестовых наборов. Мои первые попытки с использованием случайного леса с гиперпараметрами по умолчанию дали мне AUC 0,85 на тестовом наборе и 0,96 на тренировочном наборе. Таким образом, модель переполняет. Но оценка 0,85 достаточно хорош для моего бизнеса. Я также провел 5-кратную перекрестную проверку с той же моделью и одинаковыми гиперпараметрами, и результаты тестового набора были неизменно от 0,84 до 0,86

Мой вопрос: могу ли я поверить на оценку 0,85 и использовать эту модель в производстве?

Решение

Да, если ваш 0,85 AUC достаточно хорош для вашего варианта использования, это достаточно хорошая модель. Производительность в обучении показывает, насколько хорошо ваша модель знает набор обучения. Это нас на самом деле не волнует, это именно то, что модель пытается оптимизировать. Производительность в тестовом наборе является указанием того, насколько хорошо ваша модель обобщает. Это то, о чем мы заботимся, и ваша модель достигает около 0,85 в качестве оценки вашего обобщения. Различия между обучением и тестированием являются нормой, и в этом случае вы можете получить лучшую производительность, добавив более сильную регуляризацию, но если 0,85 достаточно хороша, сделайте это!

Другие советы

Мои первые попытки [...] дали мне AUC 0,85 на тестовом наборе и 0,96 на тренировочном наборе. Таким образом, модель переполняет.

Это не совсем так.

Видеть, (почти) Каждая оценка будет иметь лучший показатель прогнозирования по данным обучения, чем по данным тестирования. Это не означает, что каждая оценка переполняет.

Это нормально, хотя для того, чтобы получить лучший результат на тренировочном наборе, так как оценка построенный На нем это означает, что его параметры установлены благодаря этому. Тем не менее, ваша оценка может соответствовать вашим учебным данным более или менее.

Давайте возьмем ваш случайный пример. Если глубина слишком высока, вы будете в соответствии с учебными данными: переоценка. Анкет Если глубина недостаточно высока, ее будет трудно обобщить на другие данные: вы подразделение.

Подчеркнуть: 0.96 на поезде и 0.82 на тестовом наборе
Возможная хорошая подгонка: 0.96 на поезде и 0.89 на тестовом наборе
Переосмысление: 0.96 на поезде и 0.75 на тестовом наборе

Как хороший ученый данных, вы хотите, чтобы ваша модель соответствовала данным достаточно, чтобы хорошо обобщать, но не слишком много, чтобы не переполнять. Чтобы контролировать, как обобщается ваша модель, используется методы перекрестной проверки. Значение, которое вы получаете, довольно много, что вы получите с новым значением ± дисперсия, связанная с этой перекрестной проверкой

PS: использование перекрестной проверки слишком часто на тестовых данных делает вас, в некотором смысле, изучая эти данные, когда вы выбираете их, чтобы максимизировать свой тестовый балл. Это может привести к форме переживания для будущих новых данных.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange