Google Search Appliance peut-il générer un rapport indiquant les liens rompus sur votre site?

StackOverflow https://stackoverflow.com/questions/418288

  •  03-07-2019
  •  | 
  •  

Question

Je sais que le système Google Search Appliance a accès à ces informations (en tant que facteurs à prendre en compte dans l'algorithme PageRank), mais existe-t-il un moyen d'exporter ces informations à partir du dispositif d'analyse?

Les outils externes ne fonctionnent pas car une partie importante du contenu est destinée à un intranet d'entreprise.

Était-ce utile?

La solution 4

Un outil gratuit appelé Xenu s’est avéré être l’arme de choix pour cette tâche. http://home.snafu.de/tilman/xenulink.html#Download

Autres conseils

Peut-être quelque chose de disponible sur Google, mais je n'ai jamais vérifié. J'utilise généralement le vérificateur de liens fourni par le W3C . Le W3C peut également détecter les redirections, ce qui est utile si votre serveur gère les 404 en redirigeant au lieu de renvoyer un code d’état 404.

Vous pouvez utiliser les outils Google pour les webmasters pour afficher, entre autres, les liens rompus sur votre site.

Cela ne vous montrera pas les liens rompus vers des sites externes.

Il semble que ce ne soit pas possible. Sous Statut et rapports > Crawl Diagnostics il y a 2 styles de rapport disponibles: le répertoire "Arbre" et les 100 URL à la fois 'List View'. Certaines personnes ont essayé de créer des programmes pour parcourir la liste. mais cela semble échouer après quelques milliers d'URL.

Mon conseil est d'utiliser les journaux de votre serveur à la place. Assurez-vous que la journalisation des adresses URL 404 et de référence est activée sur votre serveur Web puisque vous voudrez probablement corriger la page contenant le lien brisé.

Vous pouvez ensuite utiliser un analyseur de fichier journal pour générer un rapport de lien rompu.

Pour créer un moyen efficace et à long terme de surveiller vos liens rompus, vous pouvez configurer un travail cron pour effectuer les opérations suivantes:

  • Utilisez grep pour extraire les lignes contenant 404 entrées du fichier journal du serveur.
  • Utilisez sed pour tout supprimer sauf les URL demandées et les URL de référence de chaque ligne.
  • Utilisez les commandes sort et uniq pour supprimer les doublons de la liste.
  • Exportez le résultat dans un nouveau fichier à chaque fois afin de pouvoir suivre les modifications au fil du temps.

Pourquoi ne pas simplement analyser les journaux de votre serveur Web et rechercher toutes les 404 pages? Cela a beaucoup plus de sens et est beaucoup plus fiable.

Je sais que cette question est ancienne, mais vous pouvez utiliser la fonctionnalité Exporter les URL de la console d'administration GSA, puis rechercher les URL dont l'état est not_found. Cela vous montrera toutes les URL que la GSA a découvertes mais lui a renvoyé un 404 quand elle a essayé de les explorer.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top