在获得使用Python某种状态的所有教堂的列表

https://stackoverflow.com/questions/1903966

19-09-2019
|

题

我与Python还不错，所以当细节是微不足道的伪代码就足够了。请让我开始任务 - 如何去了解我的状态爬网对教会的蜗牛邮件地址。一旦我有一个衬垫，如“123老西路＃3老莱姆市MD 01234”，我也许可以解析成市，州，街道，门牌号码，容易有足够的试验和错误。我的问题是 - 如果我在网上用白色的页面，那么我该如何处理所有的HTML垃圾，HTML表格，广告等？我不认为我需要他们的电话号码，但它不会伤害 - 我总是可以把它扔出去一次解析。即使你的解决方案是半手工（如保存为PDF文件，然后打开Acrobat中，保存为文本） - 可能是我喜欢它仍然。谢谢！哎呀，我甚至会接受Perl的片段 - 我可以自己翻译它们

。

解决方案

您可以使用机械化。这是一个Python库，模拟一个浏览器，所以你可以通过白页抓取（类似手动做什么）。

为了应对“HTML垃圾”蟒具有用于太库： BeautifulSoup 这是一个可爱的方式来获得你想要的HTML的数据（当然它假设你知道HTML一点点，因为你仍然有浏览解析树）。

更新：至于如何在多个页面中单击您的后续问题。机械化是做到这一点的库。快来看看他们的例子仔细一看，ESP。该follow_link方法。正如我说，它模拟了一个浏览器，因此“点击”可以在python很快意识到。

其他提示

尝试lynx --dump <url>下载网页。所有麻烦的HTML标签将在输出时被剥离，并且所有网页中的链接将出现在一起。

您正在试图做什么叫做的刮的或web刮。

如果你做一些搜索上中的蟒蛇刮，你可能会发现的该工具将帮助。

（我从来没有使用scrapy，但它的网站看起来很有希望：）

美丽的汤是没有道理的。您可能也会在 http://www.churchangel.com/ 启动一个网站。他们有一个巨大的名单和格式化很有规律 - 翻译：易于安装BSoup刮

。

Python脚本可能不适合这份工作的最佳工具，如果你只是在一个地理区域内寻找教堂的地址。

在美国人口调查提供教会用于与地理信息系统使用的数据集。如果在一个空间区域找到所有x是一个反复出现的问题，投资于学习GIS。然后，你可以把你的Python的技能来承担许多地理的任务。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow