Clasificación de documentos de texto utilizando temas lineales/incrementales

https://datascience.stackexchange.com/questions/8114

16-10-2019
|

Pregunta

Estoy intentando clasificar los documentos de texto usando algunas dimensiones diferentes. Estoy tratando de crear temas arbitrarios para clasificar como tamaño y relevancia, que son de naturaleza lineal o gradual. Por ejemplo:

Tamaño: pequeño, pequeño, mediano, grande, enorme. Relevancia: mala, bien, buena, excelente, impresionante

Estoy entrenando al clasificador a mano. Por ejemplo, este documento representa una cosa 'pequeña', este otro documento está discutiendo una cosa 'grande'. Cuando pruebo SVM de múltiples etiquetas o múltiples clases para esto, no funciona bien y tampoco tiene sentido lógicamente.

¿Qué modelo debo usar que me ayude a predecir este tipo de datos lineal? Utilizo scikit-learn actualmente con un vector tfidf de las palabras.

Solución

Si desea que estas dimensiones de salida sean continuas, simplemente convierta sus métricas de tamaño y relevancia en objetivos de valor real. Entonces puedes realizar regresión En lugar de clasificación, utilizando cualquiera de una variedad de modelos. Incluso podría intentar entrenar una red neuronal de múltiples objetivos para predecir todos estos resultados a la vez.

Además, puede considerar primero usar un modelo de tema como LDA como su espacio de características.

Basado en los valores, parece que la "relevancia" podría ser una variable mejor capturada por técnicas de análisis de los sentimientos.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange