Pergunta

Eu preciso de sua ajuda para determinar a melhor abordagem para frases específicas do setor de análise (ou seja, revisões de filme) para "positiva" vs "negativo". Eu vi bibliotecas como OpenNLP antes, mas é muito baixo nível - ele só me dá a composição básica sentença; o que eu preciso é uma estrutura de nível superior: - espero que com listas de palavras - espero que treinável no meu conjunto de dados

Obrigado!

Foi útil?

Solução

O que você está procurando é comumente apelidado Sentiment Analysis . Normalmente, análise de sentimento não é capaz de lidar com sutilezas delicadas, como sarcasmo ou ironia, mas é que as tarifas muito bem se você jogar um grande conjunto de dados para ele.

análise de sentimentos normalmente precisa de um pouco de pré-processamento. Pelo menos tokenization, sentenciar detecção de limite e marcação part-of-speech. Às vezes, a análise sintática pode ser importante. Fazê-lo corretamente é todo um ramo da pesquisa em lingüística computacional, e eu não iria aconselhá-lo com chegando com sua própria solução, a menos que você tome o seu tempo para estudar o campo pela primeira vez.

OpenNLP tem algumas ferramentas para análise de sentimentos ajuda, mas se você quiser algo mais sério, você deve olhar para o LingPipe toolkit. Tem alguns built-in SA-funcionalidade e uma boa tutorial . E você pode treiná-lo em seu próprio conjunto de dados, mas não acho que é inteiramente trivial: -).

Googling para o termo provavelmente vai também dar-lhe alguns recursos para trabalhar. Se você tiver qualquer pergunta mais específica, basta perguntar, eu estou assistindo a PNL-tag de perto; -)

Outras dicas

Algumas abordagens para estratégias sentimento usar a análise populares em outras tarefas de classificação de texto. O mais comum sendo transformar a sua revisão de filme em um vetor palavra, e alimentando-o em um algoritmo classificador como dados de treinamento. A maioria dos pacotes de mineração de dados populares pode ajudá-lo aqui. Você poderia ter um olhar para este tutorial na classificação sentimento ilustrando como fazer um experimento usando o código aberto RapidMiner kit de ferramentas .

A propósito, há um bom conjunto de dados disponibilizados para fins de investigação relacionadas com a detecção de opinião sobre filmes comentários. Ele é baseado no IMDb comentários dos utilizadores, e você pode conferir muitos relacionado trabalho de pesquisa sobre a área e como eles usam o conjunto de dados.

Vale a pena tendo em mente que a eficácia destes métodos só podem ser julgados a partir de um ponto de vista estatístico, então você pode muito bem assumir que haverá erros de classificação e casos onde a opinião é difícil de detectar. Como já observado neste segmento, detectando coisas como ironia e sarcasmo pode ser realmente muito difícil.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top