Pregunta

Mi requisito está tomando en los artículos de noticias y determinar si son positivos o negativos acerca de un tema. Estoy tomando el enfoque descrito a continuación, pero sigo leyendo PNL puede ser de utilidad aquí. Todo lo que he leído ha señalado en PNL opinión detección de hecho, que no creo que importar mucho en mi caso. Me pregunto dos cosas:

1) ¿Por qué no funciona mi algoritmo y / o cómo puedo mejorarlo? (Sé el sarcasmo, probablemente sería una trampa, pero de nuevo no veo que se produce tanto en el tipo de noticias que a estar recibiendo)

2) ¿Cómo PNL ayuda, ¿por qué debería utilizarlo?

Mi enfoque algorítmico (tengo los diccionarios de positivo, negativo, y las palabras de negación):

1) Contar el número de palabras positivos y negativos en el artículo

2) Si una palabra negación se encuentra con 2 o 3 palabras de la palabra positivo o negativo, (es decir: no el mejor) niega la puntuación

.

3) Multiplicar los puntajes por los pesos que se han asignado manualmente para cada palabra. (1,0 para empezar)

4) Sume los totales de positivo y negativo para obtener la puntuación sentimiento.

¿Fue útil?

Solución

No creo que haya nada particularmente mal con su algoritmo, que es una manera bastante sencillo y práctico para ir, pero hay una gran cantidad de situaciones en las que se obtener errores maquillaje.

  1. palabras sentimiento ambiguo - "Este producto funciona terriblemente" frente a "Este producto es terriblemente bueno"

  2. negaciones perdidas - "Yo nunca en un año millones digo que este producto vale la pena comprar"

  3. Citado / texto indirecta - "Mi padre dice que este producto es terrible, pero no estoy de acuerdo"

  4. Las comparaciones - "Este producto es tan útil como un agujero en la cabeza"

  5. Cualquier cosa sutil - "Este producto es feo, lento y aburrido, pero es el único en el mercado que hace el trabajo"

Estoy usando comentario para ejemplos en lugar de las noticias, pero usted consigue la idea. De hecho, los artículos de noticias son probablemente más difícil, ya que a menudo tratan de mostrar los dos lados de un argumento y tienden a utilizar un cierto estilo para transmitir un punto. El último ejemplo es bastante común en los artículos de opinión, por ejemplo.

En cuanto a la PNL que le ayuda con nada de esto, palabra sentido de desambiguación (o incluso sólo tagging parte de discurso) puede ayudar con (1), análisis sintáctico ayuda fuerza con las dependencias de largo alcance en (2), una especie de fragmentación de ayuda pueden con (3). Es todo el trabajo a nivel de investigación, sin embargo, no hay nada que yo sepa que se puede utilizar directamente. Problemas (4) y (5) son mucho más difíciles, vomito mis manos y renunciar a este punto.

Me pegaría con el enfoque que tiene y vistazo a la salida cuidadosamente para ver si se está haciendo lo que quiere. Por supuesto que a continuación se plantea la cuestión de lo que quiere entender la definición de "confianza" para estar en el primer lugar ...

Otros consejos

Mi ejemplo favorito es "sólo leer el libro". que no contiene la palabra sentimiento explícito y es muy dependiendo del contexto. Si apears en una reseña de la película que significa que la-película-chupa-que-está-a-residuos-de-su-tiempo-pero-el-libro-es-bueno. Sin embargo, si se trata de una reseña de un libro que ofrece un sentimiento positivo.

Y qué hay - "este es el más pequeño [móvil] teléfono en el mercado". de nuevo en el '90, fue un gran elogio. Hoy en día esto puede indicar que se trata de una manera demasiado pequeño.

creo que este es el lugar para comenzar el fin de obtener la complejidad del análisis de los sentimientos: http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html (por Lillian Lee, de Cornell).

Se puede encontrar el sistema OpinionFinder y los documentos que describen útil. Está disponible en http://www.cs.pitt.edu/mpqa/ con otra recursos para el análisis de la opinión.

Se va más allá de la clasificación de polaridad en el nivel de documento, pero tratar de encontrar las opiniones individuales a nivel de frase.

Creo que la mejor respuesta a todas las preguntas que usted ha mencionado es leer el libro bajo el título de "La confianza Análisis y minería de opiniones" por el profesor Bing Liu . Este libro es el mejor de su propio en el campo del análisis de los sentimientos. es asombroso. Basta con echar un vistazo a él y encontrará la respuesta a todas sus 'por qué' y 'cómo' preguntas!

técnicas de aprendizaje automático son probablemente mejor.

Whitelaw, Garg, y Argamon tener una técnica que logra 92% de precisión, utilizando una técnica similar a la suya para tratar con la negación, y las máquinas de vectores de soporte para la clasificación de texto.

¿Por qué no pruebas algo semejante a como SpamAsassin de spam funciona el filtro? En realidad no hay mucha diferencia entre la intensión minería y la minería opinión.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top