Web Bot Qualidade

https://stackoverflow.com/questions/1658069

11-09-2019
|

Pergunta

Eu estou procurando um bom bot de código aberto para determinar alguma qualidade, muitas vezes necessária para indexação do Google.

Por exemplo

encontrar títulos duplicados
links inválidos (jspider fazer isso, e eu acho que muito mais vai fazer isso)
exatamente a mesma página, mas diferentes URLs
etc, onde etc igual google reqs qualidade.

Solução

As suas exigências são muito específicos por isso é muito improvável há um produto de fonte aberta que faz exatamente o que você quer.

Há, no entanto, muitos frameworks de código aberto para a construção crawlers. Qual deles você usar depende do seu idioma de preferência.

Por exemplo:

Para Python, tente Scrapy
Para Java, tente Aracnídeo
Para Ruby, tente Anemone
Para Perl, tentar WWW :: Aranha

Geralmente, estes quadros irá proporcionar aulas para rastreamento e raspagem páginas de um site com base nas regras que você dá, mas então cabe a você para extrair os dados que você precisa enganchando em seu próprio código.

Outras dicas

Google Webmaster Tools é um serviço baseado na web (em vez de um bot on-demand), e não fazer tudo o que você pediu - mas ele faz algumas coisas e um monte de coisas que você não pediu, e - sendo do Google - que não dúvida corresponde ao seu estranho "etc, onde etc igual google reqs qualidade." melhor do que vontade em qualquer outro lugar.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow