Есть ли хорошие базы данных фамилий?
Вопрос
Я хочу сгенерировать некоторые тестовые данные базы данных, в частности столбцы таблицы, содержащие имена людей.Чтобы получить хорошее представление о том, насколько хорошо работает индексация в отношении поиска по именам, я хочу максимально приблизиться к реальным именам и их истинному частотному распределению, напримермножество разных имен с частотами, распределенными по некоторому степенному распределению.
В идеале я ищу свободно доступный файл данных с именами, за которыми следует одно значение частоты (или, что эквивалентно, вероятность) для каждого имени.
Имена, основанные на англосаксоне, подойдут, хотя имена из других культур также будут полезны.
Решение
Я нашел некоторые данные переписи населения США, которые соответствуют требованиям.Единственное предостережение: в нем перечислены только имена, которые встречаются не менее 100 раз ...
Найдено из этой записи в блоге, где также показана кривая распределения степенного закона
В дополнение к этому вы можете выбрать образец из списка с помощью выбора колеса рулетки, например(не проверено)
родовое словоДругие советы
Оксфордский университет предоставляет списки слов на своем общедоступном FTP-сайте в виде сжатых файлов .gz на ftp.: //ftp.ox.ac.uk/pub/wordlists/names/ .
Вы также можете ознакомиться с проектом jFairy.Он написан на Java и производит поддельные данные (например, имена). http://codearte.github.io/jfairy/
родовое слово