我与Python还不错,所以当细节是微不足道的伪代码就足够了。请让我开始任务 - 如何去了解我的状态爬网对教会的蜗牛邮件地址。一旦我有一个衬垫,如“123老西路#3老莱姆市MD 01234”,我也许可以解析成市,州,街道,门牌号码,容易有足够的试验和错误。我的问题是 - 如果我在网上用白色的页面,那么我该如何处理所有的HTML垃圾,HTML表格,广告等?我不认为我需要他们的电话号码,但它不会伤害 - 我总是可以把它扔出去一次解析。即使你的解决方案是半手工(如保存为PDF文件,然后打开Acrobat中,保存为文本) - 可能是我喜欢它仍然。谢谢!哎呀,我甚至会接受Perl的片段 - 我可以自己翻译它们

其他提示

尝试lynx --dump <url>下载网页。所有麻烦的HTML标签将在输出时被剥离,并且所有网页中的链接将出现在一起。

您正在试图做什么叫做的 的或web刮。

如果你做一些搜索上中的蟒蛇刮,你可能会发现的 该工具将帮助。

(我从来没有使用scrapy,但它的网站看起来很有希望:)

美丽的汤是没有道理的。您可能也会在 http://www.churchangel.com/ 启动一个网站。他们有一个巨大的名单和格式化很有规律 - 翻译:易于安装BSoup刮

Python脚本可能不适合这份工作的最佳工具,如果你只是在一个地理区域内寻找教堂的地址。

在美国人口调查提供教会用于与地理信息系统使用的数据集。如果在一个空间区域找到所有x是一个反复出现的问题,投资于学习GIS。然后,你可以把你的Python的技能来承担许多地理的任务。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top