Sentiment Analysis sin supervisión

https://stackoverflow.com/questions/3920759

29-09-2019
|

Pregunta

He estado leyendo un montón de artículos que explican la necesidad de un conjunto inicial de textos que se clasifica como 'positivo' o 'negativo' antes de que un sistema de análisis de sentimientos realmente funciona.

Mi pregunta es: ¿Alguien ha intentado sólo hacer una comprobación rudimentaria de los adjetivos 'positivos' vs adjetivos 'negativos', teniendo en cuenta los negadores simples para evitar classing 'no es feliz' como positivo? Si es así, ¿hay artículos que discuten por qué esta estrategia no es realista?

Solución

trabajo clásico de Peter Turney (2002) explica un método para hacer el análisis de opiniones sin supervisión (/ clasificación positivo negativo) utilizando sólo las palabras excelente y pobres como un conjunto de semillas. Turney utiliza el información mutua más palabras con estos dos adjetivos para lograr una precisión de 74%.

Otros consejos

No he intentado hacer el análisis de opiniones sin entrenamiento como usted está describiendo, pero fuera de la parte superior de mi cabeza yo diría que estés simplificar el problema. Basta con analizar los adjetivos no es suficiente para obtener una buena comprensión de los sentimientos de un texto; Por ejemplo, considere la palabra 'estúpido'. Solo, que clasificaría como algo negativo, pero si una revisión del producto fuera a tener '... [x] producto hace que sus competidores se ven estúpidos por no pensar de esta característica primero ...', entonces el sentimiento de que hay sin duda sería positivo . La mayor contexto en el que aparecen las palabras definitivamente importa en algo como esto. Por ello, una bolsa de palabras-de-no entrenados se acercan solos (por no hablar de una aún más limitado bolsa de adjetivos) no es suficiente para hacer frente a este problema de manera adecuada.

Los datos pre-clasificada ( 'datos de formación') ayuda a que los cambios de problemas de tratar de determinar si un texto es del sentimiento positivo o negativo desde cero, para tratar de determinar si el texto es más similar a los textos positivos o textos negativos, y lo clasifica como tal. El otro punto importante es que los análisis textual tales como análisis de los sentimientos a menudo se ve afectada en gran medida por las diferencias de las características de los textos en función de dominio. Esta es la razón por tener un buen conjunto de datos para entrenar en (es decir, datos precisos de dentro del dominio en el que se está trabajando, y es de esperar que el representante de los textos que se van a tener que clasificar) es tan importante como la construcción de una buena sistema para clasificar con.

No es exactamente un artículo, pero espero que ayude.

El papel de Turney (2002) mencionado por larsmans es una buena idea básica. En una investigación reciente, Li y Él [2009] introducir un enfoque usando latente Dirichlet Asignación (LDA) para formar a un modelo que se puede clasificar el sentimiento y el tema general de un artículo a la vez de una manera totalmente sin supervisión. La precisión que consiguen es 84,6%.

He intentado detectar palabras clave usando un diccionario de afectar a predecir la etiqueta sentimiento al nivel de la oración. Dada la generalidad del vocabulario (no dominio dependiente), los resultados fueron sólo de 61%. El documento está disponible en la página de inicio.

En una versión algo mejorada, se consideraron los adverbios negación. Todo el sistema, llamado EmoLib, está disponible para demostración:

http://dtminredis.housing.salle.url.edu:8080/EmoLib /

Saludos,

David,

No estoy seguro de si esto ayuda pero puede que desee ver en Registrarse poste sobre el uso de NLTK para análisis de sentimientos.

He intentado varios métodos de análisis de sentimiento de opinión en la minería críticas. Lo que funcionó para mí el mejor es el método descrito en el libro de Liu: http: // www. cs.uic.edu/~liub/WebMiningBook.html En este libro Liu y otros, comparada muchas estrategias y diferentes artículos discutidos en Sentiment Analysis y Opinión Minería.

A pesar de que mi objetivo principal era para extraer características de las opiniones, que implementó un clasificador para detectar el sentimiento de clasificación positiva y negativa con esta función.

utilicé NLTK para el pre-procesamiento (tokenización Word, POS tagging) y la creación trigrams. Luego También utilicé el Bayesiano clasificadores dentro de este tookit para comparar con otras estrategias Liu fue localización exacta.

Uno de los métodos se basa en el etiquetado como pos / neg cada trigrram expresar esta información, y el uso de algunos clasificador en estos datos. Otro método Probé, y trabajé mejor (en torno al 85% de precisión en mi conjunto de datos), fue el cálculo de la suma de las puntuaciones de PMI (información mutua puntual) para cada palabra de la frase y las palabras excelente / pobres como semillas de la clase pos / neg.

No hay "atajos" magia en el análisis de opiniones, al igual que con cualquier otro tipo de análisis de texto que busca descubrir el subyacente "temática" de un fragmento de texto. El intento de los métodos de análisis de texto demostrado atajo a través simplista "adjetivo" comprobación o enfoques similares conduce a la ambigüedad, la clasificación incorrecta, etc., que al final del día le dan una mala exactitud leer sobre la confianza. Cuanto más concisa la fuente (por ejemplo Twitter), más difícil el problema.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow