Frage

Der Crawler muss eine erweiterbare Architektur hat den internen Prozess zu ermöglichen, zu ändern, wie neue Schritte der Umsetzung (Pre-Parser Parser, etc ...)

Ich fand das Heritrix Project ( http://crawler.archive.org/ ).

Aber es gibt auch andere schöne Projekte wie das?

War es hilfreich?

Lösung

Nutch ist das Beste, was Sie tun können, wenn es zu einem freien Crawler kommt. Es liegt abseits des Begriffs gebaut Lucene (in einem Unternehmen skaliert Weise) und wird unterstützt von die Hadoop back-End mit MapReduce (ähnlich Google) für anfragende großen Umfang Daten. Große Produkte! Ich bin derzeit alles um Hadoop in den neuen Lesung (noch nicht erschienen) Hadoop in Aktion von Bemannung . Wenn Sie diesen Weg gehen, schlage ich vor, auf ihre technische Überprüfung Team bekommen eine frühe Kopie dieses Titels zu bekommen!

Dies sind alle Java-basierten. Wenn Sie ein .net Kerl (wie ich !!) sind dann könnten Sie mehr Interesse an Lucene.NET , Nutch.NET und Hadoop.NET die alle Klassen von Klasse und api von api Ports C # sind.

Andere Tipps

Sie auch möchten Scrapy http://scrapy.org/

, um zu versuchen

Es ist wirklich einfach Ihre Crawler angeben und ausführen.

abot ist ein guter erweiterbaren Web-Crawler. Jeder Teil der Architektur ist steckbar Ihnen die vollständige Kontrolle über sein Verhalten zu geben. Seine Open-Source, frei für kommerziellen und persönlichen Gebrauch, geschrieben in C #.

https://github.com/sjdirect/abot

Ich habe vor kurzem nannte man entdeckt -. Nutch

Wenn Sie nicht gebunden sind zu Plattform nach unten, ich habe sehr gute Erfahrungen gemacht mit Nutch in der Vergangenheit.

Es ist in Java geschrieben und geht Hand in Hand mit dem Lucene Indexer.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top