Question

J'ai besoin de votre aide pour déterminer la meilleure approche pour l'analyse de phrases spécifiques à l'industrie (critiques de films, par exemple) pour "positif". vs "négatif". J'ai déjà vu des bibliothèques telles qu'OpenNLP, mais c'est un niveau trop bas - cela me donne simplement la composition de phrases de base; ce dont j'ai besoin, c'est d'une structure de niveau supérieur: - j'espère avec des listes de mots - espérons pouvoir être entraîné sur mon ensemble de données

Merci!

Était-ce utile?

La solution

Ce que vous recherchez est généralement appelé Analyse des sentiments . En règle générale, l’analyse des sentiments ne permet pas de gérer des subtilités délicates, telles que le sarcasme ou l’ironie, mais elle résiste assez bien si vous lui envoyez un grand nombre de données.

L’analyse des sentiments nécessite généralement un certain pré-traitement. Au moins tokenization, détection de limite de phrase et marquage de partie de la parole. Parfois, l'analyse syntaxique peut être importante. Le faire correctement est une branche entière de la recherche en linguistique informatique, et je ne vous conseillerais pas de proposer votre propre solution, à moins que vous preniez votre temps pour étudier le domaine au préalable.

OpenNLP propose des outils d'aide à l'analyse des sentiments, mais si vous voulez quelque chose de plus sérieux, vous devriez vous pencher sur la LingPipe boîte à outils. Il a des fonctionnalités SA intégrées et un agréable tutoriel . Et vous pouvez le former sur votre propre ensemble de données, mais ne pensez pas que ce soit tout à fait trivial: -).

Googler pendant le mandat vous donnera probablement aussi des ressources pour travailler. Si vous avez des questions plus spécifiques, il suffit de demander: je surveille attentivement le tag nlp; -)

Autres conseils

Certaines approches de l'analyse des sentiments utilisent des stratégies populaires pour d'autres tâches de classification de texte. Le plus courant est de transformer votre critique de film en un vecteur mot et de l'insérer dans un algorithme de classificateur en tant que données d'apprentissage. Les paquets de data mining les plus populaires peuvent vous aider ici. Vous pouvez consulter ce didacticiel sur la classification des sentiments illustrant la procédure à suivre pour expérimenter l’utilisation du code source libre toolkit RapidMiner . .

Incidemment, il existe un bon ensemble de données . mis à disposition à des fins de recherche liées à la détection d'opinions sur des critiques de films. Il est basé sur les avis des utilisateurs d’IMDB et vous pouvez consulter de nombreux travaux de recherche connexes sur la région et sur la manière dont ils utilisent l'ensemble de données.

Il est bon de garder à l’esprit que l’efficacité de ces méthodes ne peut être jugée que d’un point de vue statistique, vous pouvez donc en principe supposer qu’il y aura des erreurs de classification et des cas où l’opinion est difficile à détecter. Comme déjà noté dans ce fil, détecter des choses comme l'ironie et le sarcasme peut être très difficile.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top