Domanda

Cari tutti, ora sto usando un webtool

http://fiddesktop.cs.northwestern.edu/mmp/scrape? url =

per analizzare una pagina web.

Per esempio, siamo in grado di analizzare homepage newyorktimes, facciamo:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

nella barra degli indirizzi del nostro browser, sarà analizzare le cose bene per noi.

Tuttavia, proprio non riesce per le pagine di Google. Ad esempio, se voglio analizzare Google News headpage, come:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

Sarò sempre ottenere 500 Internal Server Error.

Sono sicuro che è somthing a che fare con sito web di Google, penso che probabilmente abbiamo bisogno di alcune API per Google, qualcuno ha qualche idea di come a risolvere la questione per le pagine di Google? Molte grazie.

È stato utile?

Soluzione

Per la google.com robots.txt file, viene esplicitamente richiesto di non raschiare il loro contenuto. Google non fornisce un'API per i risultati di ricerca leggibili da una macchina; vogliono controllare la presentazione del loro contenuto tramite i widget e le strategie di incorporamento.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top