Есть ли хорошие базы данных фамилий?

https://stackoverflow.com/questions/6332119

27-10-2019
|

Вопрос

Я хочу сгенерировать некоторые тестовые данные базы данных, в частности столбцы таблицы, содержащие имена людей.Чтобы получить хорошее представление о том, насколько хорошо работает индексация в отношении поиска по именам, я хочу максимально приблизиться к реальным именам и их истинному частотному распределению, напримермножество разных имен с частотами, распределенными по некоторому степенному распределению.

В идеале я ищу свободно доступный файл данных с именами, за которыми следует одно значение частоты (или, что эквивалентно, вероятность) для каждого имени.

Имена, основанные на англосаксоне, подойдут, хотя имена из других культур также будут полезны.

Решение

Я нашел некоторые данные переписи населения США, которые соответствуют требованиям.Единственное предостережение: в нем перечислены только имена, которые встречаются не менее 100 раз ...

Найдено из этой записи в блоге, где также показана кривая распределения степенного закона

Кривая степенного закона в фамилиях (запись в блоге)

В дополнение к этому вы можете выбрать образец из списка с помощью выбора колеса рулетки, например(не проверено)

родовое слово

Другие советы

Оксфордский университет предоставляет списки слов на своем общедоступном FTP-сайте в виде сжатых файлов .gz на ftp.: //ftp.ox.ac.uk/pub/wordlists/names/ .

Вы также можете ознакомиться с проектом jFairy.Он написан на Java и производит поддельные данные (например, имена). http://codearte.github.io/jfairy/

родовое слово

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow