Cómo recuperar las páginas de Google

https://stackoverflow.com/questions/1885691

19-09-2019
|

Pregunta

Hola a todos, Ahora estoy usando una herramienta web

http://fiddesktop.cs.northwestern.edu/mmp/scrape? url =

para analizar una página web.

Por ejemplo, podemos analizar NewYorkTimes página de inicio, lo que hacemos:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

en la barra de direcciones de nuestro navegador, será analizar las cosas muy bien para nosotros.

Sin embargo, sólo falla por las páginas de Google. Por ejemplo, si quiero analizar Google headpage noticias, como:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

Yo siempre obtendrá 500 Error interno del servidor.

Estoy seguro de que es somthing que ver con sitios web de Google, creo que probablemente necesitará un poco de API para Google, ¿alguien tiene alguna idea de cómo resolver esto para las páginas de Google? Muchas gracias.

Solución

Por el google.com archivo robots.txt , se le solicita explicitamente no raspar su contenido. Google no proporciona una API para obtener resultados de búsqueda legibles por máquina; quieren controlar la presentación de su contenido a través de widgets y estrategias de incrustación.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow