Question

Mon but est d'analyser un certain corpus (twitter pour le moment) pour le contenu émotionnel. Aujourd'hui même je l'ai réalisé ferait un peu de sens pour rechercher des mots tiges plutôt que d'avoir une liste exhaustive de tiges mot émotionnel. Et donc je l'ai exploré nltk.stem pour se rendre compte qu'il ya 4 différentes conjugaisons. Je voudrais demander aux linguistes stackoverflow si LancasterStemmer, PorterStemmer, RegexpStemmer, RSLPStemmer ou WordNetStemmer est mieux de préférence avec une certaine justification.

Était-ce utile?

La solution

RSLP est pour portugese. Je devine que vous voulez anglais. Regexp-vous besoin pour développer vos propres expressions issues, donc je pense que cela peut être ignoré aussi bien. Le WordnetStemmer exige que vous connaissez la partie du discours du mot, de sorte que vous auriez à faire pos marquage d'abord afin de l'utiliser. Je l'ai utilisé le portier et son algorithme issu assez bon, mais l'algorithme de Lancastre est plus récente, il pourrait être préférable. Vous voudrez peut-être essayer d'utiliser une combinaison de conjugaisons, où vous choisissez la plus courte tige de chaque égrappoir. Quoi qu'il en soit, la ligne de fond est que PorterStemmer est un bon choix par défaut.

Autres conseils

Il peut être un peu différent de celui que vous demandez, mais la bibliothèque nodebox Lingustics contient un is_emotive () fonction qui semble vérifier les mots pour voir si elles sont hyponymes récursives de certains mots émotionnels. De commonsense.py

    ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
    other = ["emotion", "feeling", "expression"]

Pas égrappoir, mais une approche intéressante pour vérifier.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top