为什么从谷歌应用程序引擎输入网址抓取?
-
19-09-2019 - |
题
在这里,在谷歌应用程序引擎中我得到这个代码,将有助于其网址提取任何网页的HTML代码:
from google.appengine.api import urlfetch
url = "http://www.google.com/"
result = urlfetch.fetch(url)
if result.status_code == 200:
doSomethingWithResult(result.content)
我不明白一两件事这里(在许多其他事情,其实)为何在此代码从google.appengine.api导入urlfecth建议?难道Python中没有这个命令onits自己的吗?
解决方案
google.appengine.api是包含谷歌版的网址抓取类的库。从手动引述:
网址提取服务使用谷歌的 出于效率的网络基础设施 和缩放的目的。
在Python中它的标准库中有网址检索课太多,但那些不对子级能够使用可用应用程序引擎内部的基础设施。
在短google.appengine.api造成UrlFetch是更强大的,但并没有什么从你使用蟒拥有的urllib,可能需要阻断,即得在手动页面我上面链接描述。
其他提示
Python有库,比如urllib而httplib的用于提取网址,但在App Engine上,所有的请求都必须通过自定义的网址抓取库。应用程序引擎包括用于urllib而httplib的导致他们在内部使用,造成UrlFetch存根,但如果有一个选择,使用直接是网址抓取更有效和灵活。
不隶属于 StackOverflow