¿Puede el dispositivo de búsqueda de Google generar un informe que muestre enlaces rotos en su sitio?

StackOverflow https://stackoverflow.com/questions/418288

  •  03-07-2019
  •  | 
  •  

Pregunta

Sé que Google Search Appliance tiene acceso a esta información (ya que esto influye en el algoritmo de PageRank), pero ¿hay alguna forma de exportar esta información desde el dispositivo rastreador?

Las herramientas externas no funcionarán porque una parte importante del contenido es para una intranet corporativa.

¿Fue útil?

Solución 4

Una herramienta gratuita llamada Xenu resultó ser el arma elegida para esta tarea. http://home.snafu.de/tilman/xenulink.html#Download

Otros consejos

Puede ser algo disponible en Google, pero nunca lo he comprobado. Normalmente utilizo el comprobador de enlaces proporcionado por W3C . El W3C también puede detectar redirecciones, lo cual es útil si su servidor maneja 404s redirigiendo en lugar de devolver un código de estado 404.

Puede utilizar Google Webmaster Tools para ver, entre otras cosas, enlaces rotos en su sitio.

Sin embargo, esto no mostrará enlaces rotos a sitios externos.

Parece que esto no es posible. En Estado e informes > Diagnóstico de rastreo hay 2 estilos de informe disponibles: el directorio detallado 'Vista de árbol' y las 100 URL a la vez 'Vista de lista'. Algunas personas han intentado crear programas para paginar a través de la Vista de lista pero esto parece fallar después de unos pocos miles de URL.

Mi consejo es que utilices los registros de tu servidor. Asegúrese de que 404 y el registro de URL de referencia estén habilitados en su servidor web, ya que probablemente querrá corregir la página que contiene el enlace roto.

Luego puede usar un analizador de archivos de registro para generar un informe de enlace roto.

Para crear una forma efectiva ya largo plazo de monitorear sus enlaces rotos, puede configurar un trabajo cron para hacer lo siguiente:

  • Use grep para extraer líneas que contengan 404 entradas del archivo de registro del servidor.
  • Use sed para eliminar todo, excepto las URL solicitadas y las URL de referencia de cada línea.
  • Use los comandos sort y uniq para eliminar los duplicados de la lista.
  • Envíe el resultado a un archivo nuevo cada vez para que pueda monitorear los cambios a lo largo del tiempo.

¿Por qué no solo analizar los registros de su servidor web y buscar todas las páginas 404? Eso tiene mucho más sentido y es mucho más confiable.

Sé que esta es una pregunta anterior, pero puede usar la función Exportar URL en la consola de administración de GSA y luego buscar las URL con un estado de no_encuentro. Esto le mostrará todas las URL que la GSA ha descubierto, pero le devolvió un 404 cuando intentó rastrearlas.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top