Робот Google не уважает Robots.txt [закрыто]
-
19-08-2019 - |
Вопрос
По какой-то причине, когда я проверяю " Анализ robots.txt " чтобы увидеть, какие URL заблокированы нашим файлом robots.txt, это не то, что я ожидаю. Вот фрагмент из начала нашего файла:
Sitemap: http://[omitted]/sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Все, что находится в папке скриптов, правильно заблокировано как для Googlebot, так и для Mediapartners-Google. Я вижу, что два робота видят правильную директиву, потому что робот Google говорит, что скрипты заблокированы из строки 7, в то время как Mediapartners-Google заблокирован из строки 4. И все же ЛЮБОЙ другой URL, который я вставил из запрещенных URL под вторым пользователем -Агентские директивы НЕ заблокированы!
Мне интересно, что мой комментарий или использование абсолютных URL приводят к ошибкам ...
Любое понимание приветствуется. Спасибо.
Решение
Причина, по которой они игнорируются, заключается в том, что у вас есть полный URL-адрес в файле robots.txt
для записей Disallow
, а спецификация не позволяет этого. (Вы должны указывать только относительные пути или абсолютные пути, используя /). Попробуйте сделать следующее:
Sitemap: /sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Что касается кэширования, Google пытается получать копию файла robots.txt в среднем каждые 24 часа.
Другие советы
Это абсолютные URL. Предполагается, что robots.txt должен включать только относительные URI; домен определяется на основе домена, из которого был получен доступ к robots.txt.
Это было в течение по крайней мере недели, и Google говорит, что это было в последний раз загружено 3 часа назад, поэтому я уверен, что это недавно.
Вы недавно вносили эти изменения в файл robots.txt? По моему опыту, кажется , что Google кеширует эти вещи очень долго. Р>