Tout le monde connaît un bon crawler web open source extensible? [fermé]

https://stackoverflow.com/questions/1039775

22-07-2019
|

Question

Le robot d'exploration doit disposer d'une architecture extensible pour permettre de modifier le processus interne, comme pour la mise en œuvre de nouvelles étapes (pré-analyseur, analyseur, etc.)

J'ai trouvé le projet Heritrix ( http://crawler.archive.org/ ).

Mais il y a d'autres beaux projets comme celui-là?

La solution

Nutch est ce que vous pouvez faire de mieux en matière de robot d'exploration. Il repose sur le concept de Lucene (de manière professionnelle) et est pris en charge par l'arrière-plan Hadoop utilisant MapReduce (similaire à Google) pour l'interrogation de données à grande échelle. Grands produits! Je lis actuellement tout sur Hadoop dans le nouveau (pas encore publié) Hadoop en action de Manning. Si vous choisissez cette voie, je vous suggère de vous adresser à leur équipe de révision technique pour obtenir une première copie de ce titre!

Ils sont tous basés sur Java. Si vous êtes un mec .net (comme moi !!), alors vous pourriez être plus intéressé par Lucene.NET , Nutch.NET et Hadoop.NET , qui sont tous classe par classe et api par les ports api en C #.

Autres conseils

Vous pouvez également essayer Scrapy http://scrapy.org/

Il est très facile de spécifier et d’exécuter vos robots.

Abot est un bon navigateur Web extensible. Chaque partie de l’architecture est connectable, ce qui vous donne un contrôle total sur son comportement. Son code source ouvert, gratuit pour une utilisation commerciale et personnelle, écrit en C #.

https://github.com/sjdirect/abot

J'ai récemment découvert l'un d'eux appelé - Nutch .

Si vous n'êtes pas attaché à la plate-forme, j'ai de très bonnes expériences avec Nutch dans le passé.

Il est écrit en Java et va de pair avec l'indexeur Lucene.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow