Pergunta

Eu estou procurando um bom bot de código aberto para determinar alguma qualidade, muitas vezes necessária para indexação do Google.

Por exemplo

  • encontrar títulos duplicados
  • links inválidos (jspider fazer isso, e eu acho que muito mais vai fazer isso)
  • exatamente a mesma página, mas diferentes URLs
  • etc, onde etc igual google reqs qualidade.
Foi útil?

Solução

As suas exigências são muito específicos por isso é muito improvável há um produto de fonte aberta que faz exatamente o que você quer.

Há, no entanto, muitos frameworks de código aberto para a construção crawlers. Qual deles você usar depende do seu idioma de preferência.

Por exemplo:

Geralmente, estes quadros irá proporcionar aulas para rastreamento e raspagem páginas de um site com base nas regras que você dá, mas então cabe a você para extrair os dados que você precisa enganchando em seu próprio código.

Outras dicas

Google Webmaster Tools é um serviço baseado na web (em vez de um bot on-demand), e não fazer tudo o que você pediu - mas ele faz algumas coisas e um monte de coisas que você não pediu, e - sendo do Google - que não dúvida corresponde ao seu estranho "etc, onde etc igual google reqs qualidade." melhor do que vontade em qualquer outro lugar.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top