在获得使用Python某种状态的所有教堂的列表
-
19-09-2019 - |
题
我与Python还不错,所以当细节是微不足道的伪代码就足够了。请让我开始任务 - 如何去了解我的状态爬网对教会的蜗牛邮件地址。一旦我有一个衬垫,如“123老西路#3老莱姆市MD 01234”,我也许可以解析成市,州,街道,门牌号码,容易有足够的试验和错误。我的问题是 - 如果我在网上用白色的页面,那么我该如何处理所有的HTML垃圾,HTML表格,广告等?我不认为我需要他们的电话号码,但它不会伤害 - 我总是可以把它扔出去一次解析。即使你的解决方案是半手工(如保存为PDF文件,然后打开Acrobat中,保存为文本) - 可能是我喜欢它仍然。谢谢!哎呀,我甚至会接受Perl的片段 - 我可以自己翻译它们
。解决方案
您可以使用机械化。这是一个Python库,模拟一个浏览器,所以你可以通过白页抓取(类似手动做什么)。
为了应对“HTML垃圾”蟒具有用于太库: BeautifulSoup 一> 这是一个可爱的方式来获得你想要的HTML的数据(当然它假设你知道HTML一点点,因为你仍然有浏览解析树)。
更新:至于如何在多个页面中单击您的后续问题。机械化是做到这一点的库。快来看看他们的例子仔细一看,ESP。该follow_link方法。正如我说,它模拟了一个浏览器,因此“点击”可以在python很快意识到。
其他提示
尝试lynx --dump <url>
下载网页。所有麻烦的HTML标签将在输出时被剥离,并且所有网页中的链接将出现在一起。
美丽的汤是没有道理的。您可能也会在 http://www.churchangel.com/ 启动一个网站。他们有一个巨大的名单和格式化很有规律 - 翻译:易于安装BSoup刮
。Python脚本可能不适合这份工作的最佳工具,如果你只是在一个地理区域内寻找教堂的地址。
在美国人口调查提供教会用于与地理信息系统使用的数据集。如果在一个空间区域找到所有x
是一个反复出现的问题,投资于学习GIS。然后,你可以把你的Python的技能来承担许多地理的任务。