Gibt es einen serverseitige dom Motor geeignet für kriechen?

https://stackoverflow.com/questions/3892632

28-09-2019
|

Frage

ich ein Projekt gefunden, Jaxer , die JavaScript-Engine von Firefox bettet auf der Server-Seite, so kann es Parsing HTML server- Seite sehr gut. Aber, so scheint dieses Projekt tot. Es ist wirklich hilfreich für das Crawling Webseiten Parse HTML & Extrahieren von Daten.

Gibt es eine neue Technologie, die für das Extrahieren von Informationen?

Lösung

Was ich in der Vergangenheit getan ist die Verwendung Selenium RC einen Web-Browser zu steuern (in der Regel firefox) von Code zu laden und Parse-Websites eines echten Web-Browser.

Die kühle Sache über dieses ist, dass Sie vor allem sind Codierung in einer Sprache, die Sie mit, es Perl oder Ruby oder C # vertraut sind. Aber um vollständig die Macht benutzen Selen Sie noch wissen müssen, und schreiben Sie Javascript.

Andere Tipps

Eine weitere interessante Möglichkeit, dies zu tun ist, zu verwenden, node.js in Verbindung mit jsdom und Knoten-HTMLParser eine Seite und analysieren, um die Javascript in sie zu laden. Es ist nicht wirklich Arbeit aus der Box noch im Moment, aber Dav Glass (von Yahoo) Hat Erfolg läuft YUI in node.js eine modifizierte Version dieser Combo verwendet wird.

Dies ist interessant, wenn Sie, dass nichts entscheiden, da draußen gut genug ist und Sie möchten Ihre eigene implementieren. Wenn dies der Fall wäre es ein ausgezeichnetes Open-Source-Projekt machen.

Ich habe einige Erfolge hat einen js-fähigen Crawler in Python zu schreiben + pywebkitgtk + Javascript. Es ist viel langsamer als ein herkömmlicher Crawler, aber es wird den Job zu erledigen und können coole Sachen wie Make Screenshots machen und den Inhalt holen, die gewesen ist ‚verdeckt‘ durch js Injektion.

Es ist ein anständiger Artikel mit einigem Beispielcode hier:

http://blog.motane.lu / 2009/06/18 / pywebkitgtk-Execute-Javascript-from-python /

ItsNat ist ähnlich Jaxer der Hauptunterschied ist Java basiert, statt JavaScript.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow