Question

Je suis en train de supprimer des mots d'arrêt avant d'effectuer la modélisation du sujet. J'ai remarqué que certains mots de négation (non, ni, jamais, aucun etc ..) sont généralement considérés comme des mots d'arrêt. Par exemple, NLTK, et spacy sklearn comprennent « non » sur leurs listes de mots d'arrêt. Cependant, si on enlève « non » de ces phrases ci-dessous, ils perdent le sens important et qui ne serait pas exact pour la modélisation ou l'analyse des sentiments sujet.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Quelqu'un peut-il s'il vous plaît expliquer pourquoi ces mots de négation sont généralement considérés comme des mots d'arrêt?

Était-ce utile?

La solution

mots d'arrêt sont généralement considérés comme « le plus de mots communs dans une langue ». Cependant, d'autres définitions basées sur des tâches différentes sont possibles.

Il est logique de considérer clairement « non » comme un mot d'arrêt si votre tâche est basée sur le mot fréquences (par exemple analyse tf-idf pour la classification des documents).

Si vous êtes concernés par le contexte (par exemple analyse sentiment ) du texte, il pourrait logique de traiter différemment la négation des mots. Négation change la soi-disant valence d'un texte. Cela doit être traité avec soin et est généralement pas trivial. Un exemple serait le corpus de négation Twitter. Une explication de l'approche est donnée dans cet article .

Licencié sous: CC-BY-SA avec attribution
scroll top