Question

Je recherche une solution web crawler qui peut est assez mature et peut être simplement étendu. Je suis intéressé par les caractéristiques suivantes ... ou possibilité d'étendre le robot d'exploration pour les rencontrer:

  • en partie juste pour lire les fils RSS de plusieurs sites
  • à la ferraille le contenu de ces sites
  • si le site a une archive que je voudrais analyser et indexer aussi bien
  • le robot d'exploration doit être capable d'explorer une partie du Web pour moi et il devrait être en mesure de décider quels sites correspondent aux critères donnés
  • devrait être en mesure de me notifier, si les choses peut-être correspondant à mon intérêt ont été trouvés
  • le robot ne doit pas tuer les serveurs en l'attaquant par trop de demandes, il devrait être intelligent rampants Doing
  • le robot d'exploration doit être robuste contre les sites et les serveurs scélérates

Ces choses ci-dessus peuvent faire un par un sans gros effort, mais je suis intéressé par une solution qui fournit un robot personnalisable, prorogeable. J'ai entendu de Nutch, mais très incertain au sujet du projet jusqu'à présent. Avez-vous des expériences avec elle? Pouvez-vous recommander des solutions de rechange?

Était-ce utile?

La solution

Une recherche rapide sur GitHub a jeté Anemone , un cadre d'araignée web qui semble répondre à vos besoins - en particulier extensiblility. Écrit en Ruby.
Je espère que ça va bien!

Autres conseils

Je l'ai utilisé Nutch longuement, quand je construisais l'index de projet open source pour mon démarrage Krugle. Il est difficile de personnaliser, étant une conception assez monolithique. Il y a une architecture de plug-in, mais l'interaction entre les plug-ins et le système est délicate et fragile.

A la suite de cette expérience, et besoin de quelque chose avec plus de flexibilité, j'ai commencé le projet Bixo - une boîte à outils de web mining. http://openbixo.org .

Que ce soit pour vous dépend de la pondération des facteurs tels que:

  1. Dans quelle mesure la flexibilité dont vous avez besoin (+)
  2. Comment la maturité, il devrait être (-)
  3. Que vous ayez besoin de la capacité à l'échelle (+)
  4. Si vous êtes à l'aise avec Java / Hadoop (+)

Je recommande vivement Heritrix . Il est très flexible et je dirais est la plus bataille testé librement disponible crawler open source, comme il est celui de l'archive Internet utilise.

Vous devriez être en mesure de trouver quelque chose qui correspond à vos besoins .

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top