Comment récupérer les pages google
-
19-09-2019 - |
Question
Bonjour à tous, je suis maintenant en utilisant un outil Web
http://fiddesktop.cs.northwestern.edu/mmp/scrape? url =
pour analyser une page Web.
Par exemple, nous pouvons analyser la page d'accueil NewYorkTimes, nous:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html
dans la barre d'adresse de notre navigateur, il analysera les choses bien pour nous.
Cependant, il échoue seulement pour les pages google. Par exemple, si je veux analyser Google nouvelles headpage, comme:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn
Je vais toujours obtenir 500 Internal Server Error.
Je suis sûr que est somthing faire avec le site google, je pense que probablement nous avons besoin d'API pour Google, ne quelqu'un a une idée comment trier ceci pour les pages google? Merci beaucoup.
La solution
Par la google.com robots.txt fichier, vous explictly demandé de ne pas égratigner leur contenu. Google ne fournit pas une API pour les résultats de recherche lisibles par machine; ils veulent contrôler la présentation de leur contenu via des widgets et des stratégies d'inclusion.