Dados de sementes para análise de sentimentos [fechado
-
20-09-2019 - |
Pergunta
Estou brincando com a análise de sentimentos e estou procurando alguns dados de sementes. Existe um dicionário gratuito por aí?
Pode ser realmente simples: 3 conjuntos de textos/frases, para "positivo", "negativo", "neutro". Não precisa ser enorme.
Eventualmente, provavelmente vou gerar meus próprios dados de sementes para o meu caso de uso específico, mas seria ótimo ter algo para brincar agora enquanto estou construindo a coisa.
Solução
Bing Liu e Minqing Hu da UIC, tem vários conjuntos de dados:
- http://www.cs.uic.edu/~liub/fbs/customerreviewdata.zip
- http://www.cs.uic.edu/~liub/fbs/reviews-9-products.rar
Bo Pang De Cornell tem um pouco mais.
Outras dicas
Se você estiver interessado em dicionários de sentimentos, muitos autores apresentaram trabalho com base em listas construídas manualmente e em outros métodos semi -automatizados para obter listas de termos opinativos. Uma boa abordagem é derivá -lo do WordNet Banco de dados, estendendo um núcleo de palavras positivas/negativas usando relacionamentos como sinônimos etc.
Um bom exemplo de uma lista construída manualmente é o Inquiridor Geral.
Para um método semi -automatizado que deriva listas, consulte SentiWordNet de Esuli e Sebastiani.
Acredito que estes geralmente estão disponíveis para pesquisa, mas pode ser necessário entrar em contato com os autores sobre o uso desses recursos para fins que não sejam pesquisas.
B.
Você pode usar a lista de palavras Afinn aqui:
http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010
Afinn é uma lista de palavras em inglês classificadas para valência com um número inteiro entre cinco (negativo) e mais cinco (positivos). As palavras foram rotuladas manualmente por Finn Årup Nielsen em 2009-2011. O arquivo é separado pela guia. Existem duas versões:
AFINN-111: Versão mais recente com 2477 palavras e frases.
Afinn-96: 1468 palavras e frases únicas em 1480 linhas. Observe que existem 1480 linhas, pois algumas palavras são listadas duas vezes. A lista de palavras não inteiramente em ordem alfabética.
Eu mantenho uma lista de listas de corpora e palavras para análise de sentimentos (onde meu Afinn é um deles):
http://neuro.compute.dtu.dk/wiki/sentiment_analysis#corpora
http://neuro.compute.dtu.dk/wiki/sentiment_analysis#ffetive_word_lists