我试着过滤器名称的文本blob。目前我只是产生一个字的名单和过滤它的手但是我已经得到了~8k的话去所以我在寻找一个更好的办法。我可以抓住一个词典和过滤出来但是,将剔除的名字像史密斯和悬崖。

我需要的是以下:

  • 一个常见的姓名(我需要>5k最常见的名字)
  • 一个名单的名字,也是的话

我想他们之间,我可以做一个合并的黑白名单得到我需要的。

有帮助吗?

解决方案

美国人口普查名单: http://www.census.gov/genealogy/www/

应该让你一个角度上的问题,无论如何。

编辑 改变网址,每评论如下的有关页面行动。没有人认为,在HTTP302了吗?

其他提示

从后我发现在 :

CMU的NELL项目已收集的专有名词从网和分类,他们的类型。你可以在线浏览: NELL知识库的浏览器 并下载数据: 资源和数据.

网刮的结果,比如说, personUS 似乎更有效率的比我做了什么,这是一个抽取的名单,从短语标记为"人"在他们的大卡分隔CSV文件。不管怎样,你会使用regex.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top