Comment récupérer les pages google

https://stackoverflow.com/questions/1885691

19-09-2019
|

Question

Bonjour à tous, je suis maintenant en utilisant un outil Web

http://fiddesktop.cs.northwestern.edu/mmp/scrape? url =

pour analyser une page Web.

Par exemple, nous pouvons analyser la page d'accueil NewYorkTimes, nous:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

dans la barre d'adresse de notre navigateur, il analysera les choses bien pour nous.

Cependant, il échoue seulement pour les pages google. Par exemple, si je veux analyser Google nouvelles headpage, comme:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

Je vais toujours obtenir 500 Internal Server Error.

Je suis sûr que est somthing faire avec le site google, je pense que probablement nous avons besoin d'API pour Google, ne quelqu'un a une idée comment trier ceci pour les pages google? Merci beaucoup.

La solution

Par la google.com robots.txt fichier, vous explictly demandé de ne pas égratigner leur contenu. Google ne fournit pas une API pour les résultats de recherche lisibles par machine; ils veulent contrôler la présentation de leur contenu via des widgets et des stratégies d'inclusion.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow