Hat jede offene, einfach ausziehbar Webcrawler existiert?
-
21-09-2019 - |
Frage
ich für eine Web-Crawler-Lösung suchen, die ist kann reif genug und einfach erweitert werden kann. Ich bin in den folgenden Features interessiert ... oder Möglichkeit, den Crawler zu verlängern, sie zu erfüllen:
- teilweise nur die Feeds von mehreren Seiten zu lesen
- , um den Inhalt dieser Seiten verschrotten
- , wenn die Site ein Archiv habe ich es zu crawlen und indexieren und möchten
- sollte der Crawler der Lage sein, einen Teil des Web für mich zu erkunden und es sollte, welche Websites entscheiden können, passt die Kriterien
- sollten in der Lage sein, mich zu benachrichtigen, wenn die Dinge möglicherweise passende mein Interesse gefunden
- der Crawler sollte den Server nicht töten, indem es durch zu viele Anfragen angreifen, sollte es klug tun kriechen sein
- sollte der Crawler robust sein gegen Freak von Websites und Servern
Diese Dinge können die oben eins nach dem anderen, ohne großen Aufwand durchgeführt werden, aber ich bin in einer Lösung interessiert, die eine anpassbare bieten, ausfahrbare Crawler. Ich hörte von Nutch, aber sehr unsicher über das Projekt so weit. Haben Sie Erfahrungen mit ihm? Können Sie empfehlen Alternativen?
Andere Tipps
Ich habe Nutch ausgiebig genutzt, wenn ich den Open-Source-Projekt Index für meinen Krugle Start Bau wurde. Es ist schwer zu gestalten, ein ziemlich monolithisch Design zu sein. Es ist eine Plug-in-Architektur, aber die Interaktion zwischen Plug-In und dem System ist kompliziert und zerbrechlich.
Als Ergebnis dieser Erfahrung, und mit mehr Flexibilität etwas benötigt, begann ich das Bixo Projekt - ein Web-Mining-Toolkit. http://openbixo.org .
Es ist richtig, ob für Sie sind abhängig von der Gewichtung von Faktoren wie:
- Wie viel Flexibilität, die Sie brauchen (+)
- Wie reifen soll es sein (-)
- Ob Sie müssen die Fähigkeit Skala (+)
- Wenn Sie sich bequem mit Java / Hadoop (+)
Ich empfehle herzlich Heritrix . Es ist sehr flexibel und ich argumentieren würde, ist die Schlacht frei verfügbaren Open-Source-Crawler getestet, wie es die eine der Internet Archive Anwendungen ist.
Es soll möglich sein, etwas zu finden, die Ihre Bedürfnisse passen hier .