Список “Стоп-слов” для английского языка?[закрыто]
-
10-07-2019 - |
Вопрос
Я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the".
- Где я могу найти несколько списков этих неинтересных слов?
- Совпадает ли список этих слов со списком наиболее часто используемых слов в английском языке?
Обновить:по-видимому, они называются "стоп-слова", а не "пропущенные слова".
Решение
Волшебное слово, которое нужно ввести в Google, - это "стоп-слова".Это выясняется разумно выглядящий список.
MySQL также имеет встроенный список стоп-слов, но на мой вкус, это слишком всеобъемлюще.Например, в нашей университетской библиотеке у нас были проблемы, потому что "третий" в "третьем мире" считался стоп-словом.
Другие советы
они называются стоп - слова, проверьте это образец
В зависимости от поддомена английского языка, в котором вы работаете, вы можете составить свой собственный список стоп-слов.Некоторые общие стоп-слова могут иметь смысл в домене.Например.Слово "есть" на самом деле может быть аббревиатура в каком-либо домене.И наоборот, вы можете захотеть проигнорировать некоторые слова, относящиеся к конкретному домену в зависимости от вашего приложения который вы, возможно, не захотите игнорировать в области общего английского.Например.Если вы анализируете свод больничных отчетов, вы можете проигнорировать такие слова, как "история болезни" и "симптомы", поскольку они встречаются в каждом отчете и могут оказаться бесполезными (с точки зрения простого ванильного инвертированного индекса).
В противном случае списки, возвращаемые Google, должны быть в порядке.Стеммер - Носильщик использует это и реализация Lucene seach engine использует это.
Получите статистику о частоте слов в больших текстовых корпусах.Игнорируйте все слова с частотой > некоторого числа.
Я думаю, что я использовал список стоп-слов для немецкого языка из здесь когда я создал приложение для поиска с помощью lucene.некоторое время назад. net.Сайт также содержит список для английского языка, и списки на сайте, по-видимому, также используются проектом lucene по умолчанию.
Как правило, эти слова будут появляться в документах с наибольшей частотой.Предполагая, что у вас есть глобальный список слов:
{ Word Count }
Со списком слов, если бы вы упорядочили слова от наибольшего количества к наименьшему, у вас был бы график (количество (ось y) и слово (ось x), который является обратной логарифмической функцией.Все стоп-слова были бы слева, а точка остановки "стоп-слов" была бы там, где существует самая высокая 1-я производная.
Это решение лучше, чем попытка использования словаря:
- Это решение представляет собой универсальный подход, который не связан какими-либо языковыми рамками
- Эта попытка позволяет узнать, какие слова считаются "стоп-словами".
- Эта попытка даст лучшие результаты для коллекций, которые очень похожи, и создаст уникальные списки слов для элементов в коллекциях
- Стоп-слова могут быть пересчитаны позже (при этом может быть выполнено кэширование и статистическое определение того, что стоп-слова могли измениться с момента их вычисления).
- Это также может исключить временные или неформальные слова и названия (например, сленг, или если у вас была куча документов, в заголовке которых было название компании).
Попытка использования словаря лучше:
- Время поиска намного быстрее
- Результаты предварительно обрабатываются
- Это просто
- Кто-то еще придумал стоп-слова.