我正在寻找生成一些数据库测试数据,特别是包含人名的表列。为了更好地指示基于名称的搜索索引工作的良好程度,我想尽可能接近真实世界的名称及其真实频率分布,例如许多不同的名称,其频率分布在某些幂律分布上。

理想情况下,我正在寻找一个名称免费的数据文件,每个名称后跟一个频率值(或等效概率)。

基于盎格鲁撒克逊人的名字也可以,尽管其他文化的名字也很有用。

有帮助吗?

解决方案

我找到了一些符合要求的美国人口普查数据。唯一需要注意的是,它只列出了至少出现过100次的名称...

其他提示

牛津大学在其公共FTP站点上以压缩的.gz文件的形式提供字词列表,位于 ftp://ftp.ox.ac.uk/pub/wordlists/names/

您还可以签出jFairy项目。它是用Java编写的,会产生伪造的数据(例如名称)。 http://codearte.github.io/jfairy/ 通用标签

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top