Список имен собственных?
-
23-09-2019 - |
Вопрос
Я пытаюсь отфильтровать имена из текстовых двоичных объектов.В настоящее время я просто создаю список слов и фильтрую его вручную, но у меня осталось ~ 8 тысяч слов, поэтому я ищу способ получше.Я мог бы взять словарь и отфильтровать их, но это исключило бы такие имена, как Смит и Клифф.
Что мне нужно, так это одно из следующих:
- список распространенных имен (мне бы понадобилось > 5 тысяч наиболее распространенных имен)
- список имен , которые также являются словами
Я полагаю, что между ними я могу создать комбинированный черный / белый список, чтобы получить то, что мне нужно.
Решение
Список имен переписи населения США: http://www.census.gov/genealogy/www/
В любом случае, это должно дать вам хоть какой-то взгляд на проблему.
отредактированный изменен URL-адрес, согласно комментарию ниже о перемещении страницы.Никто больше не верит в HTTP 302?
Другие советы
Из сообщения, которое я нашел на Квора:
Проект NELL от CMU собрал огромный список имен собственных из Интернета и классифицировал их по типу.Вы можете просмотреть онлайн по адресу: Браузер базы знаний NELL и загрузите данные по адресу: Ресурсы и данные.
Веб-очистка результатов для, скажем, personUS кажется более эффективным, чем то, что я сделал, извлекая список имен из фраз, помеченных как "person", в их большом CSV-файле с разделителями в виде табуляции.В любом случае вы будете использовать регулярное выражение.