Может ли Google Search Appliance создать отчет о неработающих ссылках на вашем сайте?

StackOverflow https://stackoverflow.com/questions/418288

  •  03-07-2019
  •  | 
  •  

Вопрос

Я знаю, что Google Search Appliance имеет доступ к этой информации (поскольку это учитывается в алгоритме PageRank), но есть ли способ экспортировать эту информацию из сканера?

Внешние инструменты не будут работать, поскольку значительная часть контента предназначена для корпоративной интрасети.

Это было полезно?

Решение 4

Бесплатный инструмент под названием Xenu оказался лучшим выбором для этой задачи. http://home.snafu.de/tilman/xenulink.html#Download

Другие советы

Может быть что-то доступно в Google, но я никогда не проверял. Я обычно использую средство проверки ссылок, предоставляемое W3C . W3C также может обнаруживать перенаправления, что полезно, если ваш сервер обрабатывает 404, перенаправляя вместо возврата кода состояния 404.

Вы можете использовать Инструменты Google для веб-мастеров , чтобы просматривать, среди прочего, неработающие ссылки на ваш сайт.

Это не покажет вам неработающие ссылки на внешние сайты.

Кажется, что это невозможно.В соответствии с статусом и отчетами> Диагностика скала есть 2 стиля отчета:Справочник «Просмотр дерева» и 100 URL-адреса за раз «Список».Некоторые люди пытались создать программы для просмотра просмотра списка, но, кажется, терпит неудачу после нескольких тысяч URL -адресов.

Мой совет — вместо этого используйте журналы вашего сервера.Убедитесь, что на вашем веб -сервере включено регистрация URL -адресов 404 и реферателей, поскольку вы, вероятно, захотите исправить страницу, содержащую сломанную ссылку.

Затем вы можете использовать анализатор файлов журналов для создания отчета о неработающей ссылке.

Чтобы создать эффективный и долгосрочный способ мониторинга неработающих ссылок, вы можете настроить задание cron, которое будет выполнять следующее:

  • Использовать grep для извлечения строк, содержащих записи 404, из файла журнала сервера.
  • Использовать sed удалить из каждой строки все, кроме запрошенных URL-адресов и URL-адресов рефереров.
  • Использовать sort и uniq команды для удаления дубликатов из списка.
  • Каждый раз выводите результат в новый файл, чтобы можно было отслеживать изменения с течением времени.

Почему бы просто не проанализировать логи вашего веб-сервера и не найти все 404 страницы? Это имеет гораздо больше смысла и гораздо надежнее.

Я знаю, что это старый вопрос, но вы можете использовать функцию экспорта URL-адресов в консоли администратора GSA, а затем искать URL-адреса с состоянием not_found. Это покажет вам все URL, которые GSA обнаружил, но вернул ему 404, когда попытался их сканировать.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top