DataSet для общих слов для построения основных предложений

StackOverflow https://stackoverflow.com//questions/10704858

  •  13-12-2019
  •  | 
  •  

Вопрос

Так что я делаю интерактивный «Магнит на холодильнике», и я пытался выяснить действительный набор данных для слов, чтобы пользователю могли сопротивляться.

Я использую этот набор данных. Но это не так здорово

http://en.wikipedia.org/wiki/most_common_words_in_eglish

и идеи, где найти более действительный набор слов

Это было полезно?

Решение

Один из способов сделать это, вы можете сделать это, это загрузить корпус текста, а затем запустить скрипт, который подсчитывает количество каждая, который появляется. Затем выберите значение N и разделите каждый счет на n (округление вниз). Для каждого слова сделайте магнит для каждого разделенного подсчета. Вы должны выбрать N на основе того, сколько магнитов вы хотите в конце.

Это имеет преимущество в том, что распределение магнитов соответствует распределению слов. Например, если «The» появляется 1000 раз, «человек» 320 раз, «проходит» 150 раз, и «пропускает» 2 раза, и вы выбираете N , чтобы быть 100, то вы закончите Создание 10 "Магниты, 3" Человека ", 1" прогулки "и 0" пропускают ".

Вы можете также захотеть взять логарифм отсчета, чтобы попытаться уменьшить перекос. Поскольку распределения слов Zipfian , вы можете в конечном итоге с тысячами «магнитов» для каждой «прогулки» ").

Наконец, приятная вещь об этом подходе состоит в том, что вы можете запустить его на определенном домене, чтобы сделать слово магнит для этого домена. Например, если вы хотите сделать слово магнитами, которые звучат как истории новостей, то запустите его на корпусе новостей. Если вы хотите сделать слово магнитами, которые звучат как сказки, а затем запустите его на корпусе сказки.

Если вы действительно хотите возить, вы можете использовать что-то вроде tf-idf Выберите слова, которые являются наиболее представительными из этого домена, а затем смешивают их с общими функциональными словами.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top