La manipulación de un conjunto de funciones cada vez mayor regularidad

https://datascience.stackexchange.com/questions/634

16-10-2019
|

Pregunta

Estoy trabajando en un sistema de detección de fraude. En este campo, los nuevos fraudes aparecen regularmente, por lo que las nuevas características tienen que ser añadidos al modelo en forma continua.

Me pregunto cuál es la mejor manera de manejar la situación (desde la perspectiva proceso de desarrollo)? Simplemente añadiendo una nueva característica en el vector de características y re-entrenar el clasificador que parece ser un enfoque ingenuo, porque demasiado tiempo se gastará para la re-aprendizaje de las características de edad.

Estoy pensando en el camino de la formación de un clasificador para cada función (o un par de características relacionadas), y luego combinar los resultados de los clasificadores con un clasificador general. ¿Existe alguna desventaja de este enfoque? ¿Cómo puedo elegir un algoritmo para el clasificador general?

Solución

En un mundo ideal, que conserva todos los datos históricos, y de hecho ejecuta un nuevo modelo con la nueva característica extraída con carácter retroactivo a partir de datos históricos. Yo diría que el recurso de computación gastado en esto es bastante útil en realidad. ¿Es realmente un problema?

Sí, es una técnica ampliamente aceptada para construir un conjunto de clasificadores y combinar sus resultados. Se puede construir un nuevo modelo en paralelo sólo en nuevas características y medio en su predicción. Esto debe agregar valor, pero, nunca capturar la interacción entre los nuevos y viejos características de esta manera, ya que nunca aparecerán juntas en un clasificador.

Otros consejos

Esta es una idea que sólo apareció de la nada - lo que si hace uso de aleatoria Subespacial Muestreo (como de hecho ya se ha sugerido Sean Owen) para entrenar a un montón de nuevos clasificadores cada vez que un nuevo aparece de características (usando un subconjunto de características al azar, incluyendo el nuevo conjunto de características). Se podría formar a esos modelos en un subconjunto de muestras, así ahorrar un poco de tiempo de entrenamiento.

De esta manera usted puede tener nuevos clasificadores la posibilidad de tomar en nuevas y viejas características, y al mismo tiempo mantener sus antiguas clasificadores. Puede ser que incluso, tal vez utilizando una técnica de validación cruzada para medir el desempeño de cada clasificador, ser capaz de matar-off los peores resultados después de un tiempo, para evitar un modelo hinchado.

Lo que usted describe cae en la categoría de concepto de deriva en el aprendizaje de la máquina. Es posible encontrar ideas interesantes y aplicables en este resumen del papel y encontrará una taxonomía de la posible enfoques en estas diapositivas .

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange