Frage

ich für eine Web-Crawler-Lösung suchen, die ist kann reif genug und einfach erweitert werden kann. Ich bin in den folgenden Features interessiert ... oder Möglichkeit, den Crawler zu verlängern, sie zu erfüllen:

  • teilweise nur die Feeds von mehreren Seiten zu lesen
  • , um den Inhalt dieser Seiten verschrotten
  • , wenn die Site ein Archiv habe ich es zu crawlen und indexieren und möchten
  • sollte der Crawler der Lage sein, einen Teil des Web für mich zu erkunden und es sollte, welche Websites entscheiden können, passt die Kriterien
  • sollten in der Lage sein, mich zu benachrichtigen, wenn die Dinge möglicherweise passende mein Interesse gefunden
  • der Crawler sollte den Server nicht töten, indem es durch zu viele Anfragen angreifen, sollte es klug tun kriechen
  • sein
  • sollte der Crawler robust sein gegen Freak von Websites und Servern

Diese Dinge können die oben eins nach dem anderen, ohne großen Aufwand durchgeführt werden, aber ich bin in einer Lösung interessiert, die eine anpassbare bieten, ausfahrbare Crawler. Ich hörte von Nutch, aber sehr unsicher über das Projekt so weit. Haben Sie Erfahrungen mit ihm? Können Sie empfehlen Alternativen?

War es hilfreich?

Lösung

Eine schnelle Suche auf GitHub warf Anemone , ein Framework Web-spider, die Ihre Anforderungen zu passen scheint - vor allem extensiblility. Geschrieben in Ruby.
Hoffe, dass es gut geht!

Andere Tipps

Ich habe Nutch ausgiebig genutzt, wenn ich den Open-Source-Projekt Index für meinen Krugle Start Bau wurde. Es ist schwer zu gestalten, ein ziemlich monolithisch Design zu sein. Es ist eine Plug-in-Architektur, aber die Interaktion zwischen Plug-In und dem System ist kompliziert und zerbrechlich.

Als Ergebnis dieser Erfahrung, und mit mehr Flexibilität etwas benötigt, begann ich das Bixo Projekt - ein Web-Mining-Toolkit. http://openbixo.org .

Es ist richtig, ob für Sie sind abhängig von der Gewichtung von Faktoren wie:

  1. Wie viel Flexibilität, die Sie brauchen (+)
  2. Wie reifen soll es sein (-)
  3. Ob Sie müssen die Fähigkeit Skala (+)
  4. Wenn Sie sich bequem mit Java / Hadoop (+)

Ich empfehle herzlich Heritrix . Es ist sehr flexibel und ich argumentieren würde, ist die Schlacht frei verfügbaren Open-Source-Crawler getestet, wie es die eine der Internet Archive Anwendungen ist.

Es soll möglich sein, etwas zu finden, die Ihre Bedürfnisse passen hier .

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top