Elija algoritmo de clasificación binaria

https://datascience.stackexchange.com/questions/384

16-10-2019
|

Pregunta

Tengo un problema de clasificación binaria:

Aproximadamente 1.000 muestras en conjunto de entrenamiento
10 atributos, incluyendo binaria, numérica y categórica

¿Qué algoritmo es la mejor opción para este tipo de problema?

Por defecto voy a comenzar con SVM (preliminares que tienen valores de atributos nominales convierten en características binarias), ya que se considera la mejor para los datos relativamente limpias y no es ruidoso.

Solución

Es difícil de decir sin saber un poco más sobre el conjunto de datos, y cómo separar el conjunto de datos se basa en su vector de características, pero probablemente sugerir el uso de los bosques al azar extrema sobre los bosques aleatorios estándar debido a su conjunto de muestras relativamente pequeñas.

Extreme bosques aleatorios son bastante similares a los bosques aleatorios estándar con la única excepción de que en lugar de optimizar escisiones en los árboles, bosque aleatorio extrema hace fracturas al azar. Al principio esto parecería como un negativo, pero por lo general significa que usted tiene significativamente mejor generalización y la velocidad, a pesar de las AUC en el conjunto de entrenamiento es probable que sea un poco peor.

La regresión logística es también una apuesta bastante sólida para este tipo de tareas, aunque con su relativamente baja dimensionalidad y el tamaño pequeño de la muestra me gustaría estar preocupado por el sobreajuste. Es posible que desee comprobar hacia fuera el uso de K-vecinos más cercanos ya que a menudo se comporta muy bajas serán con dimensionalidad, pero no suelen manejar las variables categóricas muy bien.

Si tuviera que escoger uno sin saber más sobre el problema sin duda colocar mis apuestas en los bosques al azar extrema, ya que es muy probable que le de buena generalización de este tipo de conjunto de datos, y también maneja una mezcla de numérica y los datos categóricos mejor que la mayoría de los otros métodos.

Otros consejos

Para los parámetros bajos, bastante limitado tamaño de la muestra, y una regresión logística binaria clasificador debe ser lo suficientemente potente montón. Se puede utilizar un algoritmo más avanzado, pero es algo excesivo.

Cuando variables categóricas son en la mezcla, alcanzo Bosques de decisión al azar, ya que maneja las variables categóricas directamente sin la 1-de-n codifica transformación. Esta pierde menos información.

lineal SVM debe ser un buen punto de partida. Echar un vistazo a esta guía para elegir el estimador de la derecha.

¿No recomendar el uso de métodos complejos primero. Utilice enfoques más rápido simples inicialmente (KNN, NBC, etc.), entonces progresar a través de regresión lineal, regresión logística, LDA, CART (RF), KREG, y luego a los mínimos cuadrados SVM, gradiente SVM ascenso, RNAs, y luego metaheurustics (codicioso subida de pendientes heurística con el gas, la inteligencia de enjambre, la optimización de colonias de hormigas, etc.)

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange