Вопрос

Я пытаюсь отфильтровать имена из текстовых двоичных объектов.В настоящее время я просто создаю список слов и фильтрую его вручную, но у меня осталось ~ 8 тысяч слов, поэтому я ищу способ получше.Я мог бы взять словарь и отфильтровать их, но это исключило бы такие имена, как Смит и Клифф.

Что мне нужно, так это одно из следующих:

  • список распространенных имен (мне бы понадобилось > 5 тысяч наиболее распространенных имен)
  • список имен , которые также являются словами

Я полагаю, что между ними я могу создать комбинированный черный / белый список, чтобы получить то, что мне нужно.

Это было полезно?

Решение

Список имен переписи населения США: http://www.census.gov/genealogy/www/

В любом случае, это должно дать вам хоть какой-то взгляд на проблему.

отредактированный изменен URL-адрес, согласно комментарию ниже о перемещении страницы.Никто больше не верит в HTTP 302?

Другие советы

Из сообщения, которое я нашел на Квора:

Проект NELL от CMU собрал огромный список имен собственных из Интернета и классифицировал их по типу.Вы можете просмотреть онлайн по адресу: Браузер базы знаний NELL и загрузите данные по адресу: Ресурсы и данные.

Веб-очистка результатов для, скажем, personUS кажется более эффективным, чем то, что я сделал, извлекая список имен из фраз, помеченных как "person", в их большом CSV-файле с разделителями в виде табуляции.В любом случае вы будете использовать регулярное выражение.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top