Empfehlungen für ein Spidern Werkzeug mit Lucene oder Solr zu benutzen? [geschlossen]

https://stackoverflow.com/questions/282654

08-07-2019
|

Frage

Was ist eine gute Crawlers (Spinne) HTML und XML zu verwenden, gegen Dokumente (lokal oder web-basiert) und das funktioniert gut in der Lucene / Solr Lösungsraum? Könnte sein, Java-basierte, aber muss nicht sein.

Lösung

Meiner Meinung nach ist dies ein ziemlich bedeutendes Loch, das die weit verbreitete Annahme von Solr ist niedrig zu halten. Die neuen DataImportHandler sind ein guter erster Schritt strukturierte Daten zu importieren, aber es ist keine gute Dokument Einnahme Pipeline für Solr. Nutch funktioniert, aber die Integration zwischen Nutch Crawler und Solr ist etwas unbeholfen.
Ich habe jeden Open-Source-Crawler versucht, die ich finden kann, und keiner von ihnen integriert ist out-of-the-box mit Solr.
Halten Sie ein Auge auf OpenPipeline und Apache Tika.

Andere Tipps

Ich habe versucht, nutch, aber es war sehr schwierig, mit Solr zu integrieren. Ich würde einen Blick auf Heritrix nehmen. Es verfügt über ein umfangreiches Plugin-System, um es einfach mit Solr zu integrieren, und es ist viel, viel schneller zu kriechen. Es macht ausgiebig Gebrauch von Fäden um den Prozess zu beschleunigen.

Ich schlage vor, Sie zu prüfen Nutch Inspiration zu erhalten:

Nutch ist Open-Source-Web-Such-Software. Es baut auf Lucene Java, Web-Spezifika Zugabe, wie ein Crawler, eine Link-Graph-Datenbank, Parser für HTML und andere Dokumentformate etc.

Überprüfen Sie auch Apache Droids [ http://incubator.apache.org/droids/] -. dies hofft keine einfache Spinne / Crawler / Arbeiter Rahmen sein

Es ist neu und ist noch nicht einfach aus dem Regal verwenden aus (es wird einige tweeking nimmt zum Laufen zu bringen), aber es ist eine gute Sache, Ihr Auge zu behalten.

Nutch könnte Ihre nächste Begegnung, aber es ist nicht zu flexibel.

Wenn Sie etwas mehr brauchen Sie haben ziemlich viel zu Ihrem eigenen Crawler zu hacken. Es ist nicht so schlimm, wie es klingt, jede Sprache Web-Bibliotheken hat, so brauchen Sie nur einige Task-Queue-Manager mit HTTP-Downloader und HTML-Parser zu verbinden, ist es nicht wirklich, dass viel Arbeit. Sie können am ehesten mit einer einzigen Box weg, wie Crawling meist Bandbreite-intentionale ist, nicht CPU-intensiv.

http://arachnode.net

C #, sondern produziert Lucene (Java und C #) Verbrauchsindexdateien.

Hat jemand versucht Xapian? Es scheint, viel schneller als solr und in C ++ geschrieben.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow