Qu'est-ce qu'un bon outil Web Crawler? [Fermé]

https://stackoverflow.com/questions/176820

05-07-2019
|

Question

Je dois indexer de nombreuses pages Web. Quels sont les bons utilitaires webcrawler? Je préfère de préférence quelque chose avec lequel .NET peut parler, mais ce n’est pas un obstacle.

Ce dont j'ai vraiment besoin, c’est de quelque chose que je puisse donner à l’URL du site & amp; il suivra chaque lien et stockera le contenu pour l'indexation.

La solution

HTTrack - http://www.httrack.com/ - est un très bon copieur de site Web. . Ça marche plutôt bien. L'utilise depuis longtemps.

Nutch est un robot d'indexation Web (le type de programme que vous recherchez): http: / /lucene.apache.org/nutch/ - qui utilise un utilitaire de recherche de premier ordre, lucene.

Autres conseils

Crawler4j est un robot d'exploration Java open source qui fournit une interface simple pour l'analyse du Web. Vous pouvez configurer un robot Web multi-thread en 5 minutes.

Vous pouvez définir votre propre filtre pour visiter les pages ou non (URL) et définir une opération pour chaque page analysée en fonction de votre logique.

Quelques raisons de choisir crawler4j;

Structure multithread,
Vous pouvez définir la profondeur à explorer,
Il est basé sur Java et open source,
Contrôle des liens redondants (urls),
Vous pouvez définir le nombre de pages à explorer,
Vous pouvez définir la taille de la page à analyser,
documentation suffisante

Searcharoo.NET contient un spider qui analyse et indexe le contenu, ainsi qu'un moteur de recherche pour son utilisation. Vous devriez pouvoir vous débrouiller dans le code Searcharoo.Indexer.EXE pour capturer le contenu téléchargé et ajouter votre propre code personnalisé à partir de là ...

Il est très basique (tout le code source est inclus et expliqué dans six articles CodeProject, dont le plus récent est Searcharoo v6 ): l'araignée suit les liens, les images, les images, obéit aux directives ROBOTS, analyse certains types de fichiers non HTML. Il est destiné à des sites Web uniques (et non à l'ensemble du Web).

Nutch / Lucene est presque certainement une solution plus robuste / de qualité commerciale - mais je n’ai pas regardé leur code. Vous ne savez pas exactement ce que vous souhaitez accomplir, mais avez-vous également vu Microsoft Search Server Express ?

Avertissement: je suis l'auteur de Searcharoo; il suffit de l'offrir ici en option.

Sphider est très bon. C'est PHP, mais ça pourrait être utile.

J'utilise le logiciel de Web Scraping de Mozenda . Vous pourriez facilement le faire explorer tous les liens et saisir toutes les informations dont vous avez besoin et c'est un excellent logiciel pour l'argent.

Je ne l'ai pas encore utilisé, mais cela semble intéressant. L'auteur l'a écrit à partir de zéro et a posté comment il a fait. Le code correspondant est également disponible en téléchargement.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow