Como recuperar as páginas do Google
-
19-09-2019 - |
Pergunta
Olá a todos, agora estou usando uma ferramenta web
http://fiddesktop.cs.northwestern.edu/mmp/scrape? url =
para analisar uma página web.
Por exemplo, nós pode analisar NewYorkTimes homepage, o que fazemos:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html
na barra de endereço do nosso navegador, ele irá analisar as coisas muito bem para nós.
No entanto, ele só falha para as páginas do Google. Por exemplo, se eu quiser analisar headpage notícias do Google, como:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn
Eu sempre terá 500 Internal Server Error.
Estou certo de que é somthing para fazer com o Google Web site, eu acho que provavelmente precisamos de alguma API para o Google, alguém tem alguma idéia de como resolver isso para as páginas do Google? Muito obrigado.
Solução
Pelo arquivo google.com robots.txt , você está explicitamente não solicitado para raspar seu conteúdo. O Google não fornecer uma API para resultados de pesquisa legíveis por máquina; eles querem controlar a apresentação do seu conteúdo através de widgets e estratégias de incorporação.