Вопрос

Я хочу сгенерировать некоторые тестовые данные базы данных, в частности столбцы таблицы, содержащие имена людей.Чтобы получить хорошее представление о том, насколько хорошо работает индексация в отношении поиска по именам, я хочу максимально приблизиться к реальным именам и их истинному частотному распределению, напримермножество разных имен с частотами, распределенными по некоторому степенному распределению.

В идеале я ищу свободно доступный файл данных с именами, за которыми следует одно значение частоты (или, что эквивалентно, вероятность) для каждого имени.

Имена, основанные на англосаксоне, подойдут, хотя имена из других культур также будут полезны.

Это было полезно?

Решение

Я нашел некоторые данные переписи населения США, которые соответствуют требованиям.Единственное предостережение: в нем перечислены только имена, которые встречаются не менее 100 раз ...

Найдено из этой записи в блоге, где также показана кривая распределения степенного закона

В дополнение к этому вы можете выбрать образец из списка с помощью выбора колеса рулетки, например(не проверено)

родовое слово

Другие советы

Оксфордский университет предоставляет списки слов на своем общедоступном FTP-сайте в виде сжатых файлов .gz на ftp.: //ftp.ox.ac.uk/pub/wordlists/names/ .

Вы также можете ознакомиться с проектом jFairy.Он написан на Java и производит поддельные данные (например, имена). http://codearte.github.io/jfairy/

родовое слово
Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top