Como recuperar as páginas do Google

https://stackoverflow.com/questions/1885691

19-09-2019
|

Pergunta

Olá a todos, agora estou usando uma ferramenta web

http://fiddesktop.cs.northwestern.edu/mmp/scrape? url =

para analisar uma página web.

Por exemplo, nós pode analisar NewYorkTimes homepage, o que fazemos:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

na barra de endereço do nosso navegador, ele irá analisar as coisas muito bem para nós.

No entanto, ele só falha para as páginas do Google. Por exemplo, se eu quiser analisar headpage notícias do Google, como:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

Eu sempre terá 500 Internal Server Error.

Estou certo de que é somthing para fazer com o Google Web site, eu acho que provavelmente precisamos de alguma API para o Google, alguém tem alguma idéia de como resolver isso para as páginas do Google? Muito obrigado.

Solução

Pelo arquivo google.com robots.txt , você está explicitamente não solicitado para raspar seu conteúdo. O Google não fornecer uma API para resultados de pesquisa legíveis por máquina; eles querem controlar a apresentação do seu conteúdo através de widgets e estratégias de incorporação.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow