Pergunta
Eu estou procurando um bom bot de código aberto para determinar alguma qualidade, muitas vezes necessária para indexação do Google.
Por exemplo
- encontrar títulos duplicados
- links inválidos (jspider fazer isso, e eu acho que muito mais vai fazer isso)
- exatamente a mesma página, mas diferentes URLs
- etc, onde etc igual google reqs qualidade.
Solução
As suas exigências são muito específicos por isso é muito improvável há um produto de fonte aberta que faz exatamente o que você quer.
Há, no entanto, muitos frameworks de código aberto para a construção crawlers. Qual deles você usar depende do seu idioma de preferência.
Por exemplo:
- Para Python, tente Scrapy
- Para Java, tente Aracnídeo
- Para Ruby, tente Anemone
- Para Perl, tentar WWW :: Aranha
Geralmente, estes quadros irá proporcionar aulas para rastreamento e raspagem páginas de um site com base nas regras que você dá, mas então cabe a você para extrair os dados que você precisa enganchando em seu próprio código.
Outras dicas
Google Webmaster Tools é um serviço baseado na web (em vez de um bot on-demand), e não fazer tudo o que você pediu - mas ele faz algumas coisas e um monte de coisas que você não pediu, e - sendo do Google - que não dúvida corresponde ao seu estranho "etc, onde etc igual google reqs qualidade." melhor do que vontade em qualquer outro lugar.