题
我正在寻找生成一些数据库测试数据,特别是包含人名的表列。为了更好地指示基于名称的搜索索引工作的良好程度,我想尽可能接近真实世界的名称及其真实频率分布,例如许多不同的名称,其频率分布在某些幂律分布上。
理想情况下,我正在寻找一个名称免费的数据文件,每个名称后跟一个频率值(或等效概率)。
基于盎格鲁撒克逊人的名字也可以,尽管其他文化的名字也很有用。
解决方案
我找到了一些符合要求的美国人口普查数据。唯一需要注意的是,它只列出了至少出现过100次的名称...
- 家谱数据:2000年人口普查中经常出现的姓氏
- names.zip
通过此博客条目发现,该条目还显示了幂律分布曲线
其他提示
牛津大学在其公共FTP站点上以压缩的.gz文件的形式提供字词列表,位于 ftp://ftp.ox.ac.uk/pub/wordlists/names/ 。
您还可以签出jFairy项目。它是用Java编写的,会产生伪造的数据(例如名称)。 http://codearte.github.io/jfairy/ 通用标签
不隶属于 StackOverflow