L'analyse des sentiments avec python NLTK pour des phrases en utilisant les données d'échantillon ou webservice?

https://stackoverflow.com/questions/2832394

26-09-2019
|

Question

J'entreprenez un projet PNL pour l'analyse des sentiments.

J'ai NLTK installé avec succès pour python (semble comme un grand morceau de logiciel pour cela). Cependant, j'ai du mal à comprendre comment il peut être utilisé pour accomplir ma tâche.

Voici ma tâche:

Je commence par un long morceau de données (permet de dire plusieurs centaines de tweets sur le sujet de l'élection du Royaume-Uni de leur webservice)
Je voudrais briser ce en phrases (ou info plus de 100 ou si les caractères) (je suppose que je peux le faire en python ??)
Ensuite, pour effectuer une recherche dans toutes les phrases pour les instances spécifiques dans cette phrase par exemple "David Cameron"
Alors je voudrais vérifier le sentiment du positif / négatif dans chaque phrase et les compter en conséquence

NB: Je ne suis pas vraiment inquiet trop de précision parce que mes ensembles de données sont grandes et pas non plus inquiet trop sur le sarcasme.

Voici les problèmes que je suis rencontrais:

Tous les ensembles de données que je peux trouver par exemple les données d'examen des films de corpus qui vient avec NLTK ne coûtent pas au format webservice. Il semble que cela a eu un certain traitement déjà fait. Pour autant que je peux voir le traitement (par stanford) a été fait avec WEKA. Est-il pas possible pour NLTK faire tout cela lui-même? Ici, tous les ensembles de données ont déjà été organisées en négatif / positif déjà par exemple polarité jeu de données http://www.cs.cornell.edu/People/ pabo / film-review-data / Comment cela se fait? (Pour organiser les phrases par le sentiment, est-il vraiment WEKA? Ou autre chose?)
Je ne sais pas pourquoi je comprends WEKA et NLTK seraient utilisés ensemble. On dirait qu'ils font la même chose. Si le traitement im les données avec WEKA premier à trouver le sentiment pourquoi aurais-je besoin NLTK? Est-il possible d'expliquer pourquoi cela pourrait être nécessaire?

J'ai trouvé quelques scripts qui obtiennent un peu près de cette tâche, mais tous utilisent les mêmes données pré-traitées. Est-il pas possible de traiter moi-même les données pour trouver le sentiment dans des phrases plutôt que d'utiliser les échantillons de données figurant dans le lien?

Toute aide est très appréciée et me sauvera beaucoup de cheveux!

Vive Ke

La solution

Les données d'examen du film a déjà été marquée par les humains comme étant positif ou négatif (la personne qui a fait l'examen a donné le film une cote qui est utilisée pour déterminer la polarité). Ces gold standard étiquettes vous permettent de former un classificateur, que vous pouvez ensuite utiliser pour d'autres critiques de films. Vous pouvez former un classificateur en NLTK avec ces données, mais en appliquant les résultats aux tweets des élections pourrait être moins précis que deviner au hasard positif ou négatif. Vous pouvez passer et marquer quelques milliers de tweets vous comme positifs ou négatifs et l'utiliser comme votre jeu de formation.

Pour une description de l'utilisation Naive Bayes pour l'analyse des sentiments avec NLTK: http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/

Ensuite, dans ce code, au lieu d'utiliser le corpus de film, utilisez vos propres données pour mot calculate compte (dans la méthode word_feats).

Autres conseils

Pourquoi ne pas utiliser WSD. Utilisez l'outil homonymie pour trouver les sens. et la polarité de carte d'utilisation des sens au lieu de parole. Dans ce cas, vous obtiendrez un peu des résultats plus précis par rapport à la polarité de l'index de texte.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow