Googlebot não respeitando Robots.txt [fechado]

https://stackoverflow.com/questions/463569

19-08-2019
|

Pergunta

Por alguma razão quando eu verificar no Google Webmaster Ferramenta de "Analisar robots.txt" para ver quais URLs são bloqueados por nosso arquivo robots.txt, não é o que eu estou esperando. Aqui está um trecho do início do nosso arquivo:

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Qualquer coisa nos scripts pasta estão correctamente bloqueados tanto para o Googlebot e Mediapartners-Google. Eu posso ver que os dois robôs estão vendo a directiva correto porque o Googlebot diz os scripts estão bloqueados da linha 7, enquanto o Mediapartners-Google é bloqueado a partir da linha 4. E ainda nenhuma outra url eu coloquei no das URLs não permitidos sob o segundo usuário directiva -agent não estão bloqueadas!

Eu estou querendo saber se o meu comentário ou usando URLs absolutos são estragar as coisas ...

Qualquer visão é apreciado. Obrigado.

Solução

A razão pela qual eles são ignorados é que você tem a URL completa no arquivo robots.txt para entradas Disallow enquanto o especificação não o permite. (Você só deve especificar caminhos relativos ou caminhos absolutos usando /). Tente o seguinte:

Sitemap: /sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Como para armazenamento em cache, o Google tenta obter uma cópia do arquivo robots.txt a cada 24 horas, em média.

Outras dicas

É as URLs absolutos. robots.txt só é suposto que incluem URIs relativos; o domínio é inferida com base no domínio que o robots.txt foi acessado.

Foi por pelo menos uma semana, e Google diz que foi passado baixado 3 horas atrás, então eu tenho certeza que é recente.

Você recentemente fazer esta mudança ao seu arquivo robots.txt? Na minha experiência, parece que o Google caches essas coisas por muito tempo.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow