Вопрос

Я пытаюсь удалить Stop Words перед выполнением тематического моделирования. Я заметил, что некоторые слова отрицания (не, и никогда, ни один и т. Д.) Обычно считаются остановленными словами. Например, NLTK, Spacy и Sklearn включают в себя «не» в свои списки Stop Word. Однако, если мы удалим «не» из этих предложений ниже, они теряют значительное значение, и это не будет точным для моделирования темы или анализа настроений.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Кто -нибудь может объяснить, почему эти слова отрицания обычно считаются остановленными словами?

Это было полезно?

Решение

Остановить слова обычно считаются «наиболее распространенными словами на языке». Однако возможны другие определения, основанные на различных задачах.

Ясно, что имеет смысл считать «не» как остановское слово, если ваша задача основана на словом частоты (например TF - IDF Анализ для классификации документов).

Если вы обеспокоены контекстом (например, Анализ настроений) текста может иметь смысл относиться к словам отрицания по -разному. Отрицание меняет так называемое валентность текста. С этим нужно относиться тщательно и обычно не тривиально. Одним из примеров будет корпус отрицания в Твиттере. Объяснение подхода дается в Эта бумага.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top