亲爱的,我现在使用webtool

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

分析网页。

例如,我们可以分析newyorktimes主页,我们做的:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

地址栏中的我们的浏览器,它将分析的东西很好地为我们。

但是,它只是失败谷歌页。例如,如果我想要分析谷歌新闻headpage,如:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

我总是会得到500内部服务器的错误。

我确信,是财产以后要做到与谷歌的网站,我想也许我们需要一些API for谷歌,没有任何人有任何想法如何进行排序,这出歌页?非常感谢。

有帮助吗?

解决方案

每google.com robots.txt 文件中,你是显式要求不要刮他们的内容。谷歌不提供API对于机器可读搜索的结果;他们想要控制的介绍他们的内容通过的部件和嵌入的战略。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top