Вопрос

Я генерирую некоторую статистику для некоторого англоязычного текста, и я хотел бы пропустить неинтересные слова, такие как "a" и "the".

  • Где я могу найти несколько списков этих неинтересных слов?
  • Совпадает ли список этих слов со списком наиболее часто используемых слов в английском языке?

Обновить:по-видимому, они называются "стоп-слова", а не "пропущенные слова".

Это было полезно?

Решение

Волшебное слово, которое нужно ввести в Google, - это "стоп-слова".Это выясняется разумно выглядящий список.

MySQL также имеет встроенный список стоп-слов, но на мой вкус, это слишком всеобъемлюще.Например, в нашей университетской библиотеке у нас были проблемы, потому что "третий" в "третьем мире" считался стоп-словом.

Другие советы

они называются стоп - слова, проверьте это образец

В зависимости от поддомена английского языка, в котором вы работаете, вы можете составить свой собственный список стоп-слов.Некоторые общие стоп-слова могут иметь смысл в домене.Например.Слово "есть" на самом деле может быть аббревиатура в каком-либо домене.И наоборот, вы можете захотеть проигнорировать некоторые слова, относящиеся к конкретному домену в зависимости от вашего приложения который вы, возможно, не захотите игнорировать в области общего английского.Например.Если вы анализируете свод больничных отчетов, вы можете проигнорировать такие слова, как "история болезни" и "симптомы", поскольку они встречаются в каждом отчете и могут оказаться бесполезными (с точки зрения простого ванильного инвертированного индекса).

В противном случае списки, возвращаемые Google, должны быть в порядке.Стеммер - Носильщик использует это и реализация Lucene seach engine использует это.

Получите статистику о частоте слов в больших текстовых корпусах.Игнорируйте все слова с частотой > некоторого числа.

Я думаю, что я использовал список стоп-слов для немецкого языка из здесь когда я создал приложение для поиска с помощью lucene.некоторое время назад. net.Сайт также содержит список для английского языка, и списки на сайте, по-видимому, также используются проектом lucene по умолчанию.

Как правило, эти слова будут появляться в документах с наибольшей частотой.Предполагая, что у вас есть глобальный список слов:

{ Word Count }

Со списком слов, если бы вы упорядочили слова от наибольшего количества к наименьшему, у вас был бы график (количество (ось y) и слово (ось x), который является обратной логарифмической функцией.Все стоп-слова были бы слева, а точка остановки "стоп-слов" была бы там, где существует самая высокая 1-я производная.

Это решение лучше, чем попытка использования словаря:

  • Это решение представляет собой универсальный подход, который не связан какими-либо языковыми рамками
  • Эта попытка позволяет узнать, какие слова считаются "стоп-словами".
  • Эта попытка даст лучшие результаты для коллекций, которые очень похожи, и создаст уникальные списки слов для элементов в коллекциях
  • Стоп-слова могут быть пересчитаны позже (при этом может быть выполнено кэширование и статистическое определение того, что стоп-слова могли измениться с момента их вычисления).
  • Это также может исключить временные или неформальные слова и названия (например, сленг, или если у вас была куча документов, в заголовке которых было название компании).

Попытка использования словаря лучше:

  • Время поиска намного быстрее
  • Результаты предварительно обрабатываются
  • Это просто
  • Кто-то еще придумал стоп-слова.
Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top