-
23-09-2019 - |
题
我试着过滤器名称的文本blob。目前我只是产生一个字的名单和过滤它的手但是我已经得到了~8k的话去所以我在寻找一个更好的办法。我可以抓住一个词典和过滤出来但是,将剔除的名字像史密斯和悬崖。
我需要的是以下:
- 一个常见的姓名(我需要>5k最常见的名字)
- 一个名单的名字,也是的话
我想他们之间,我可以做一个合并的黑白名单得到我需要的。
解决方案
美国人口普查名单: http://www.census.gov/genealogy/www/
应该让你一个角度上的问题,无论如何。
编辑 改变网址,每评论如下的有关页面行动。没有人认为,在HTTP302了吗?
其他提示
从后我发现在 表:
CMU的NELL项目已收集的专有名词从网和分类,他们的类型。你可以在线浏览: NELL知识库的浏览器 并下载数据: 资源和数据.
网刮的结果,比如说, personUS 似乎更有效率的比我做了什么,这是一个抽取的名单,从短语标记为"人"在他们的大卡分隔CSV文件。不管怎样,你会使用regex.
不隶属于 StackOverflow