Was ist ein gutes Web-Crawler-Tool [geschlossen]

https://stackoverflow.com/questions/176820

05-07-2019
|

Frage

Ich muss Index eine ganze Menge von Webseiten, was gut webcrawler Dienstprogramme gibt es? Ich bin vorzugsweise nach etwas, das .NET zu sprechen, aber das ist nicht ein Hemmschuh.

Was ich wirklich brauchen, ist etwas, das ich eine Website-URL geben kann und es jeden Link folgen und speichern den Inhalt für die Indizierung.

Lösung

HTTrack - http://www.httrack.com/ - ist eine sehr gute Website Copier . Funktioniert recht gut. Wurde es für eine lange Zeit verwendet wird.

Nutch ist ein Web-Crawler (Crawler die Art des Programms ist Sie suchen) - http: / /lucene.apache.org/nutch/ -., die eine erstklassige Suchprogramm lucene verwendet

Andere Tipps

Crawler4j ist ein Open-Source-Java-Crawler, die für das Durchforsten der Web eine einfache Schnittstelle zur Verfügung stellt. Sie können Setup ein Multi-Threaded-Web-Crawler in 5 Minuten.

Sie können für jeden eigenen Filter zu besuchen Seiten oder nicht (URLs) und definiert eine Operation eingestellt gekrochen Seite nach Ihrer Logik.

Einige Gründe crawler4j auszuwählen;

Multi-Threaded-Struktur,
Sie können die Tiefe Set gecrawlt werden,
Es ist Java-basierte Open-Source,
Steuerung für redundante Verbindungen (URLs),
Sie können Anzahl der Seiten festgelegt werden gekrochen,
Sie können die Seitengröße festgelegt werden gekrochen,
Genug Dokumentation

Searcharoo.NET enthält eine Spinne, die Indizes und Inhalt kriecht, und eine Suchmaschine zu verwenden. Sie sollten Ihren Weg rund um den Searcharoo.Indexer.EXE Code zum Abfangen der Inhalt als es heruntergeladen haben, und fügen Sie Ihre eigenen Code von dort ...

Lage sein, finden

Es ist sehr einfach (alle Quellcode enthalten ist, und wird in sechs Codeproject Artikel, die jüngste davon ist hier Searcharoo v6 ): die Spinne folgt Links, Imagemaps, Bilder, gehorcht ROBOTER-Richtlinien, analysiert einige nicht-HTML-Dateitypen. Es ist für einzelne Websites bestimmt ist (nicht die gesamte Bahn).

Nutch / Lucene ist mit ziemlicher Sicherheit eine robustere / handelsüblichem Lösung - aber ich habe nicht an ihrem Code aussieht. Nicht sicher, was Sie erreichen wollen, aber haben Sie auch Microsoft Search Server Express gesehen ?

Disclaimer: Ich bin der Autor des Searcharoo; gerade hier als Option anbieten.

Sphider ist ziemlich gut. Es ist PHP, aber es könnte eine Hilfe sein.

Ich benutze Mozenda Web-Scraping-Software . Man könnte es leicht alle Links haben kriechen und alle Informationen, greifen Sie brauchen, und es ist eine große Software für das Geld.

Ich habe das noch nicht benutzt, aber dieses sieht interessant aus. Der Autor schrieb es von Grund auf neu und geschrieben, wie er es tat. Der Code dafür ist auch zum Download zur Verfügung.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow