Pregunta

Necesito su ayuda para determinar el mejor enfoque para analizar oraciones específicas de la industria (es decir,reseñas de películas) para "positivo" versus "negativo".He visto bibliotecas como OpenNLP antes, pero es de nivel demasiado bajo: solo me da la composición básica de la oración;lo que necesito es una estructura de nivel superior:- con suerte con listas de palabras - con suerte capacitable en mi conjunto de datos

¡Gracias!

¿Fue útil?

Solución

Lo que buscas se denomina comúnmente Análisis de los sentimientos.Por lo general, el análisis de sentimientos no es capaz de manejar sutilezas delicadas, como el sarcasmo o la ironía, pero funciona bastante bien si se le agrega un gran conjunto de datos.

El análisis de sentimientos suele necesitar bastante preprocesamiento.Al menos tokenización, detección de límites de oraciones y etiquetado de partes del discurso.A veces, el análisis sintáctico puede resultar importante.Hacerlo correctamente es toda una rama de la investigación en lingüística computacional, y no le recomendaría que encuentre su propia solución a menos que se tome su tiempo para estudiar el campo primero.

OpenNLP tiene algunas herramientas para ayudar al análisis de sentimientos, pero si quieres algo más serio, deberías consultar el LingPipe kit de herramientas.Tiene algunas funciones SA incorporadas y una agradable tutorial.Y puedes entrenarlo con tu propio conjunto de datos, pero no creas que es completamente trivial :-).

Buscar el término en Google probablemente también le brindará algunos recursos con los que trabajar.Si tienes alguna pregunta más específica, solo pregunta, estoy siguiendo de cerca la etiqueta nlp ;-)

Otros consejos

Algunos enfoques del análisis de sentimientos utilizan estrategias populares en otras tareas de clasificación de texto.Lo más común es transformar la reseña de una película en un vector de palabras e introducirla en un algoritmo clasificador como datos de entrenamiento.Los paquetes de minería de datos más populares pueden ayudarle aquí.Podrías echarle un vistazo a esto. tutorial sobre clasificación de sentimientos ilustrando cómo hacer un experimento utilizando el código abierto Kit de herramientas RapidMiner.

Por cierto, hay una buen conjunto de datos puestos a disposición con fines de investigación relacionados con la detección de opiniones sobre críticas cinematográficas.Se basa en opiniones de usuarios de IMDB y puedes consultar muchas trabajo de investigación relacionado sobre el área y cómo utilizan el conjunto de datos.

Vale la pena tener en cuenta que la eficacia de estos métodos sólo puede juzgarse desde un punto de vista estadístico, por lo que se puede suponer que habrá clasificaciones erróneas y casos en los que la opinión será difícil de detectar.Como ya se señaló en este hilo, detectar cosas como la ironía y el sarcasmo puede resultar muy difícil.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top