Wie man Google-Seiten abrufen

https://stackoverflow.com/questions/1885691

19-09-2019
|

Frage

Hallo zusammen, ich bin jetzt ein Webtool

http://fiddesktop.cs.northwestern.edu/mmp/scrape? url =

eine Webseite zu analysieren.

Zum Beispiel können wir NewYorkTimes Homepage analysieren, was wir tun:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

in der Adressleiste unseres Browsers, wird es Dinge analysiert schön für uns.

Es ist jedoch nicht nur für Google-Seiten. Zum Beispiel, wenn ich will Google News headpage, wie analysieren:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

Ich werde immer 500 Internal Server Error erhalten.

Ich bin sicher, dass somthing mit dem Google Website zu tun ist, ich denke, wahrscheinlich brauchen wir eine API für Google, hat jemand eine Idee, wie man dies für Google-Seiten zu sortieren? Vielen Dank.

Lösung

Per die google.com robots.txt Datei, werden Sie explictly nicht angefordert zu kratzen deren Inhalt. Google keine API für maschinenlesbare Suchergebnisse liefern; sie wollen die Präsentation ihrer Inhalte über Widgets und Einbettung Strategien steuern.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow