Pregunta

Estoy en un problema de clasificación binaria con las métricas de AUC. Hice una división aleatoria 70%, 30% para entrenamiento y conjuntos de pruebas. Mis primeros intentos de usar bosque aleatorio con hiper-parametros predeterminados me dieron AUC 0.85 en el conjunto de pruebas y 0.96 en el conjunto de entrenamiento. Entonces, el modelo se vuelve a hacer. Pero el puntaje de 0.85 es lo suficientemente bueno para mi negocio. También hice una validación cruzada de 5 veces con el mismo modelo y los mismos hiperparametros y los resultados del conjunto de pruebas fueron consistentemente algo entre 0.84 y 0.86

Mi pregunta es: ¿Puedo creer en el puntaje 0.85 y usar este modelo en producción?

¿Fue útil?

Solución

Sí, si su 0.85 AUC es lo suficientemente bueno para su caso de uso, este es un modelo lo suficientemente bueno. El rendimiento en el conjunto de capacitación indica qué tan bien su modelo conoce el conjunto de capacitación. Esto realmente no nos importa, es justo lo que el modelo intenta optimizar. El rendimiento en el conjunto de pruebas es una indicación de qué tan bien se generaliza su modelo. Esto es lo que nos importa, y su modelo llega a alrededor de 0.85 como una estimación para su generalización. Las diferencias entre el entrenamiento y las pruebas son la norma y, en este caso, podría ser que pueda obtener un mejor rendimiento al agregar una regularización más fuerte, pero si 0.85 es lo suficientemente bueno, ¡adelante!

Otros consejos

Mis primeros intentos [...] me dieron AUC 0.85 en el conjunto de pruebas y 0.96 en el conjunto de entrenamiento. Entonces, el modelo se vuelve a hacer.

Esto no es completamente cierto.

Ver, (casi) Cada estimador tendrá una mejor puntuación de predicción en los datos de entrenamiento que en los datos de prueba. No significa que cada estimador se superponga.

Sin embargo, es normal tener una mejor puntuación en el conjunto de entrenamiento, ya que el estimador es construido En él, lo que significa que sus parámetros están ajustados gracias a él. Sin embargo, su estimador puede ajustar sus datos de entrenamiento más o menos.

Tomemos su ejemplo al azar. Si la profundidad es demasiado alta, encajará mucho a los datos de entrenamiento: sobrepeto. Si la profundidad no es lo suficientemente alta, será difícil generalizar a otros datos: usted poco fijo.

  1. Poco acorralado: 0.96 en el set de tren y 0.82 En el conjunto de pruebas
  2. Posible buen ajuste: 0.96 en el set de tren y 0.89 En el conjunto de pruebas
  3. Sobrecargado: 0.96 en el set de tren y 0.75 En el conjunto de pruebas

Como buen científico de datos, desea que su modelo se ajuste a los datos lo suficiente como para generalizar bien, pero no demasiado para no superarse. Para controlar cómo se generaliza su modelo, uno utiliza técnicas de validación cruzada. El valor que obtiene es bastante lo que obtendrá con un nuevo valor ± la varianza asociada a esta validación cruzada

PS: El uso de validación cruzada con demasiada frecuencia en los datos de prueba lo hace, en cierto sentido, aprender estos datos mientras los elige para maximizar su puntaje de prueba. Puede conducir a una forma de sobreajuste para futuros datos nuevos.

Licenciado bajo: CC-BY-SA con atribución
scroll top