Come recuperare pagine di Google
-
19-09-2019 - |
Domanda
Cari tutti, ora sto usando un webtool
http://fiddesktop.cs.northwestern.edu/mmp/scrape? url =
per analizzare una pagina web.
Per esempio, siamo in grado di analizzare homepage newyorktimes, facciamo:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html
nella barra degli indirizzi del nostro browser, sarà analizzare le cose bene per noi.
Tuttavia, proprio non riesce per le pagine di Google. Ad esempio, se voglio analizzare Google News headpage, come:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn
Sarò sempre ottenere 500 Internal Server Error.
Sono sicuro che è somthing a che fare con sito web di Google, penso che probabilmente abbiamo bisogno di alcune API per Google, qualcuno ha qualche idea di come a risolvere la questione per le pagine di Google? Molte grazie.
Soluzione
Per la google.com robots.txt file, viene esplicitamente richiesto di non raschiare il loro contenuto. Google non fornisce un'API per i risultati di ricerca leggibili da una macchina; vogliono controllare la presentazione del loro contenuto tramite i widget e le strategie di incorporamento.