O dispositivo de pesquisa do Google pode gerar um relatório mostrando links quebrados no seu site?

StackOverflow https://stackoverflow.com/questions/418288

  •  03-07-2019
  •  | 
  •  

Pergunta

Sei que o Google Search Appliance tem acesso a essas informações (como isso fatores no algoritmo PageRank), mas existe uma maneira de exportar essas informações do dispositivo de rastreador?

As ferramentas externas não funcionam porque uma parte significativa do conteúdo é para uma intranet corporativa.

Foi útil?

Solução 4

Uma ferramenta gratuita chamada Xenu acabou sendo a arma de escolha para esta tarefa. http://home.snafu.de/tilman/xenulink.html#download

Outras dicas

Pode ser algo disponível no Google, mas nunca verifiquei. Eu costumo usar o Verificador de link fornecido por W3C. O W3C também pode detectar redirecionamentos, o que é útil se o servidor lidar com 404s redirecionando em vez de retornar um código de status 404.

Você pode usar Google Webmaster Tools Para ver, entre outras coisas, links quebrados em seu site.

Isso não mostra links quebrados para sites externos.

Parece que isso não é possível. Sob status e relatórios> Rastrear diagnósticos Existem 2 estilos de relatório disponíveis: o Directory Drill-Down 'View' e os 100 URLs de cada vez 'Lista View'. Algumas pessoas tentaram criar programas para organizar a visualização da lista, mas isso parece falhar após alguns milhares de URLs.

Meu conselho é usar os logs do servidor. Certifique -se de que o log de URL 404 e referenciador esteja ativado no seu servidor da Web, pois você provavelmente desejará corrigir a página que contém o link quebrado.

Você pode então usar um Analisador de arquivos de log Para gerar um relatório de link quebrado.

Para criar uma maneira eficaz e de longo prazo de monitorar seus links quebrados, convém configurar um trabalho de cron para fazer o seguinte:

  • Usar grep Para extrair linhas contendo 404 entradas do arquivo de log do servidor.
  • Usar sed Para remover tudo, exceto URLs solicitados e URLs de referências de todas as linhas.
  • Usar sort e uniq comandos para remover duplicatas da lista.
  • Saia o resultado para um novo arquivo a cada vez, para que você possa monitorar as alterações ao longo do tempo.

Por que não apenas analisar seus logs de servidor da web e procurar todas as 404 páginas? Isso faz muito mais sentido e é muito mais confiável.

Sei que essa é uma pergunta antiga, mas você pode usar o recurso URLS de exportação no console administrativo da GSA e procure URLs com um estado de não_found. Isso mostrará todos os URLs que o GSA descobriu, mas o devolveu um 404 quando tentou rastejá -los.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top