Может ли Google Search Appliance создать отчет о неработающих ссылках на вашем сайте?
-
03-07-2019 - |
Вопрос
Я знаю, что Google Search Appliance имеет доступ к этой информации (поскольку это учитывается в алгоритме PageRank), но есть ли способ экспортировать эту информацию из сканера?
Внешние инструменты не будут работать, поскольку значительная часть контента предназначена для корпоративной интрасети.
Решение 4
Бесплатный инструмент под названием Xenu оказался лучшим выбором для этой задачи. http://home.snafu.de/tilman/xenulink.html#Download р>
Другие советы
Может быть что-то доступно в Google, но я никогда не проверял. Я обычно использую средство проверки ссылок, предоставляемое W3C . W3C также может обнаруживать перенаправления, что полезно, если ваш сервер обрабатывает 404, перенаправляя вместо возврата кода состояния 404.
Вы можете использовать Инструменты Google для веб-мастеров , чтобы просматривать, среди прочего, неработающие ссылки на ваш сайт.
Это не покажет вам неработающие ссылки на внешние сайты.
Кажется, что это невозможно.В соответствии с статусом и отчетами> Диагностика скала есть 2 стиля отчета:Справочник «Просмотр дерева» и 100 URL-адреса за раз «Список».Некоторые люди пытались создать программы для просмотра просмотра списка, но, кажется, терпит неудачу после нескольких тысяч URL -адресов.
Мой совет — вместо этого используйте журналы вашего сервера.Убедитесь, что на вашем веб -сервере включено регистрация URL -адресов 404 и реферателей, поскольку вы, вероятно, захотите исправить страницу, содержащую сломанную ссылку.
Затем вы можете использовать анализатор файлов журналов для создания отчета о неработающей ссылке.
Чтобы создать эффективный и долгосрочный способ мониторинга неработающих ссылок, вы можете настроить задание cron, которое будет выполнять следующее:
- Использовать
grep
для извлечения строк, содержащих записи 404, из файла журнала сервера. - Использовать
sed
удалить из каждой строки все, кроме запрошенных URL-адресов и URL-адресов рефереров. - Использовать
sort
иuniq
команды для удаления дубликатов из списка. - Каждый раз выводите результат в новый файл, чтобы можно было отслеживать изменения с течением времени.
Почему бы просто не проанализировать логи вашего веб-сервера и не найти все 404 страницы? Это имеет гораздо больше смысла и гораздо надежнее.
Я знаю, что это старый вопрос, но вы можете использовать функцию экспорта URL-адресов в консоли администратора GSA, а затем искать URL-адреса с состоянием not_found. Это покажет вам все URL, которые GSA обнаружил, но вернул ему 404, когда попытался их сканировать.