Frage

Ich möchte wissen, was die beste eOpen-Source-Bibliothek für das Crawling und Analyse von Websites. Ein Beispiel wäre ein Crawler Immobilienagentur, wo Ich mag würde Informationen aus einer Reihe von Standorten greifen und sie in meine eigene Website aggregieren. Dazu muss ich die Seiten kriechen und die Immobilien-Anzeigen zu extrahieren.

War es hilfreich?

Lösung

Ich mache viel von Schaben, ausgezeichnete Python-Pakete mit urllib2 mechanize und BeautifulSoup .

Ich schlage auch sehen lxml und Scrapy , obwohl ich sie nicht verwenden derzeit (noch scrapy auszuprobieren Planung ).

Perl Sprache hat auch große Einrichtungen zum Schaben.

Andere Tipps

PHP / cURL ist eine sehr leistungsfähige Kombination, vor allem wenn man die Ergebnisse direkt in einer Webseite verwenden möchten ...

Gemeinsam mit Herrn Morosow mich ziemlich viel zu Schaben, vor allem von Baustellen. Ich hatte nie mechanisieren greifen, wenn das jedem hilft. Beautifulsoup in Kombination mit urllib2 immer ausreichend.

Ich habe verwendet lxml, das ist toll. Aber ich glaube, es ist möglicherweise nicht verfügbar gewesen mit Google Apps vor ein paar Monaten, wenn ich es einmal, wenn Sie das brauchen.

Mein Dank gebührt Herrn Morosow für die Erwähnung Scrapy. Hatte nicht davon gehört.

Neben Scrapy, sollten Sie auch sehen Parselets

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top