¿Pueden los conjuntos de datos genéricos ser adecuados para un análisis de sentimientos específicos?

https://datascience.stackexchange.com/questions/17810

22-10-2019
|

Pregunta

He usado el conjunto de datos de revisión de películas de Stanford para crear una experimentación del análisis de sentimientos.

Se las arregló para crear una aplicación básica además de Spark utilizando el algoritmo de clasificación Naive Bayes.

Pasos que hice para el preprocesamiento de la chispa Ml de tuberías

Tokenización
Bigrams

El conjunto de datos proporcionado anterior también tiene un conjunto de datos de prueba consigo mismo que está separado del conjunto de capacitación. Después de entrenarlo, obtuve alrededor del 97% de precisión, lo que creo que es bastante bueno para Naive Bayes.

Ahora puedo usar este modelo ML para predecir para otros textos, como correo electrónico/chat, etc., supongo que este conjunto de datos tiene una colección lo suficientemente grande de palabras para realizar buenas predicciones y ciertas palabras en inglés, independientemente del contexto comercial como "No Como este "," Esto no se ve bien "es lo mismo en diferentes dominios, como películas/correos electrónicos/chats, etc.

No he realizado el experimento ya que los datos que necesito conseguir pertenecen al cliente y, debido a restricciones de privacidad, no podemos acceder a los datos.

Cualquier ayuda/orientación sería muy apreciada.

Solución

Eso depende.

Básicamente, está preguntando si su muestra (datos de capacitación) es representativa de la población (todas las palabras escritas).

¿Estás haciendo análisis de sentimientos en reseñas de películas? Funcionará muy bien.
¿Estás haciendo análisis de sentimientos en las revisiones de televisión? Probablemente funcionará muy bien.
¿Estás haciendo un análisis de sentimientos en las reseñas de libros? Daría más de 50-50 probabilidades de que funcione.
¿Estás haciendo análisis de sentimientos en las publicaciones de Twitter? Ahora nos estamos volviendo inestables. Las personas tienden a escribir mucho menos, usan un lenguaje menos formal y usan más emojis que su modelo de revisión de películas no habría visto.

Dicho esto, definitivamente hay servicios de análisis de sentimientos "genéricos" como aquí. Pruebe su modelo contra la algoritmia sobre lo que consideraría un conjunto genérico de datos (por ejemplo, un montón de tweets) y ver cómo lo hace.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange