Question
Je cherche un bon bot open source pour déterminer une certaine qualité, souvent nécessaire pour l'indexation de Google.
Par exemple
- trouver des titres en double
- liens invalides (jspider de ce faire, et je pense que beaucoup plus le fera)
- exactement la même page, mais différentes urls
- etc, etc où est égal reqs de qualité google.
La solution
Vos besoins sont très spécifiques il est donc très peu probable, il est un produit open source qui fait exactement ce que vous voulez.
Il existe, cependant, de nombreux frameworks open source pour la construction de robots d'exploration Web. Lequel vous utilisez dépend de votre langue de préférence.
Par exemple:
- Pour Python, essayez Scrapy
- Pour Java, essayez Arachnid
- Pour Ruby, essayez Anemone
- Pour Perl, essayer www araignée
En général, ces cadres fourniront des classes pour l'exploration et le grattage des pages d'un site en fonction des règles que vous donnez, mais il est à vous pour en extraire les données dont vous avez besoin en accrochant dans votre propre code.
Autres conseils
Google Webmaster Tools est un service basé sur le Web (plutôt que d'un bot sur demande), et il ne fait pas tout ce que vous avez demandé - mais il ne fait certaines d'entre elles et beaucoup de choses que vous ne l'avez pas demandé, et - être de Google - il ne doute correspond à votre impair "etc, etc où égal reqs qualité google." mieux que partout ailleurs sera.