Pergunta

Estou tentando gerar alguns dados de teste de banco de dados, especificamente colunas de tabelas contendo nomes de pessoas.A fim de obter uma boa indicação de quão bem a indexação funciona em relação às pesquisas baseadas em nomes, desejo chegar o mais próximo possível dos nomes do mundo real e sua verdadeira distribuição de frequência, por exemplo,muitos nomes diferentes com frequências distribuídas em alguma distribuição de lei de potência.

Idealmente, estou procurando um arquivo de dados disponível gratuitamente com nomes seguidos por um único valor de frequência (ou, equivalentemente, uma probabilidade) por nome.

Nomes baseados em anglo-saxões seriam adequados, embora nomes de outras culturas também sejam úteis.

Outras dicas

A Oxford University fornece listas de palavras em seu site de FTP público como arquivos .gz compactados em ftp://ftp.ox.ac.uk/pub/wordlists/names/ .

Você também pode verificar o projeto jFairy.É escrito em Java e produz dados falsos (como nomes de exemplo). http://codearte.github.io/jfairy/

Fairy fairy = Fairy.create(); 
Person person = fairy.person();
System.out.println(person.firstName());           // Chloe
System.out.println(person.lastName());            // Barker
System.out.println(person.fullName());            // Chloe Barker
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top