NLP-なぜ「そうではない」のためにストップワードなのですか?
-
16-10-2019 - |
質問
トピックモデリングを実行する前に、ストップワードを削除しようとしています。私は、いくつかの否定的な言葉(そうではなく、決して、決して、決して、決して)が通常、停止単語であると考えられていることに気付きました。たとえば、NLTK、Spacy、Sklearnには、ストップワードリストに「Not」が含まれています。ただし、以下のこれらの文から「NOT」を削除すると、重要な意味が失われ、トピックモデリングや感情分析には正確ではありません。
1). StackOverflow is helpful => StackOverflow helpful
2). StackOverflow is not helpful => StackOverflow helpful
これらの否定的な言葉が通常、単語を止めると見なされる理由を誰でも説明できますか?
解決
言葉を止めます 通常、「言語で最も一般的な言葉」と考えられています。ただし、さまざまなタスクに基づいた他の定義が可能です。
あなたのタスクが単語に基づいている場合、「そうではない」をストップワードと見なすことは明らかに理にかなっています 周波数 (例えば TF – IDF ドキュメント分類のための分析)。
コンテキストに関心がある場合(例: 感情分析)テキストのうち、否定的な言葉を異なって扱うのは理にかなっているかもしれません。否定はいわゆる変化を変えます 価数 テキストの。これは慎重に扱う必要があり、通常は些細なことではありません。一例は、Twitter Negation Corpusです。アプローチの説明が記載されています この紙.
所属していません datascience.stackexchange