Робот Google не уважает Robots.txt [закрыто]

https://stackoverflow.com/questions/463569

19-08-2019
|

Вопрос

По какой-то причине, когда я проверяю " Анализ robots.txt " чтобы увидеть, какие URL заблокированы нашим файлом robots.txt, это не то, что я ожидаю. Вот фрагмент из начала нашего файла:

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Все, что находится в папке скриптов, правильно заблокировано как для Googlebot, так и для Mediapartners-Google. Я вижу, что два робота видят правильную директиву, потому что робот Google говорит, что скрипты заблокированы из строки 7, в то время как Mediapartners-Google заблокирован из строки 4. И все же ЛЮБОЙ другой URL, который я вставил из запрещенных URL под вторым пользователем -Агентские директивы НЕ заблокированы!

Мне интересно, что мой комментарий или использование абсолютных URL приводят к ошибкам ...

Любое понимание приветствуется. Спасибо.

Решение

Причина, по которой они игнорируются, заключается в том, что у вас есть полный URL-адрес в файле robots.txt для записей Disallow, а спецификация не позволяет этого. (Вы должны указывать только относительные пути или абсолютные пути, используя /). Попробуйте сделать следующее:

Sitemap: /sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Что касается кэширования, Google пытается получать копию файла robots.txt в среднем каждые 24 часа.

Другие советы

Это абсолютные URL. Предполагается, что robots.txt должен включать только относительные URI; домен определяется на основе домена, из которого был получен доступ к robots.txt.

Это было в течение по крайней мере недели, и Google говорит, что это было в последний раз загружено 3 часа назад, поэтому я уверен, что это недавно.

Вы недавно вносили эти изменения в файл robots.txt? По моему опыту, кажется , что Google кеширует эти вещи очень долго.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow