Frage

Ich versuche, Stoppwörter zu entfernen, bevor ich Themenmodellierung durchführen kann. Ich bemerkte, dass einige Negationswörter (nicht und niemals, niemals, keine usw.) als Stoppwörter angesehen werden. Zum Beispiel enthalten NLTK, Spacy und Sklearn "nicht" in ihren Stoppwortlisten. Wenn wir jedoch "nicht" von diesen Sätzen unten entfernen, verlieren sie die bedeutende Bedeutung, und das wäre für die Thema Modellierung oder Stimmungsanalyse nicht korrekt.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Kann bitte jemand erklären, warum diese Negationswörter normalerweise als Stoppwörter angesehen werden?

War es hilfreich?

Lösung

Stoppen Sie Wörter werden normalerweise als "die häufigsten Wörter in einer Sprache" betrachtet. Andere Definitionen, die auf unterschiedlichen Aufgaben basieren, sind jedoch möglich.

Es ist eindeutig sinnvoll, "nicht" als Stoppwort zu betrachten, wenn Ihre Aufgabe auf dem Wort basiert Frequenzen (z.B tf -idf Analyse zur Klassifizierung der Dokumente).

Wenn Sie sich mit dem Kontext befassen (z. Stimmungsanalyse) des Textes könnte es sinnvoll sein, Negationswörter anders zu behandeln. Negation verändert die sogenannten Wertigkeit eines Textes. Dies muss sorgfältig behandelt werden und ist normalerweise nicht trivial. Ein Beispiel wäre das Twitter -Negationkorpus. Eine Erklärung des Ansatzes wird in gegeben dieses Papier.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top