Por que o Google (ou Googlebot) indexaria uma página retornando um erro de 500?

https://stackoverflow.com/questions/1308905

19-09-2019
|

Pergunta

Ocasionalmente, o GoogleBot está indexando um de nossos sites com um parâmetro de sequência de consulta ruim. Não tenho certeza de como está obtendo esse parâmetro de sequência de consulta (não parece haver sites que se vinculam a nós a links ruins, e nada em nosso site está inserindo o valor ruim). O parâmetro ruim faz com que o site apresente um erro de 500, como esperamos.

Eu estava com a impressão de que o Google não indexaria páginas que retornam um erro de 500, mas acontece que é. Então agora tenho duas perguntas:

1) Por que o Googlebot estaria inserindo valores aleatórios de string de consulta ruim? (Eu realmente não me importo com a resposta para essa pergunta, mas se pudéssemos fazer algo para evitar isso, isso resolveria nosso problema.)

2) Por que o Google indexaria uma página que retornaria um erro de 500?

Aqui está um dos links errôneos que o Googlebot criou e que o Google indexou:

http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1

O parâmetro ruim é GB = baqhuxts. O parâmetro 'GB' deve ser um número inteiro. Se você remover esse parâmetro da sequência de consulta, você deve obter uma boa página de catálogo.

Sobre Nofollow e Robots.txt Solutions: [REDACTED

Agora percebo que sou um idiota e coloquei uma meta tag dizendo robôs de pesquisa para indexar a página. Isso era uma coisa idiota a fazer. Estou removendo isso. C-(

Se você Pesquise no Google por 'baqhuxts' Você descobrirá que ele indexou 10 páginas com este parâmetro ruim. Mas cada uma dessas páginas retorna um erro de 500. Alguém tem uma visão sobre por que o Google acredita que essas são páginas válidas para indexar?

Solução

Provavelmente é porque você está dizendo ao Google para indexá-lo com isso em suas metat-tags:

<meta name="robots" content="index,follow">

Tente remover isso! :)

Outras dicas

Infelizmente eu sei apenas a resposta para #1:

O Google irá rastejar páginas estranhas como essa, porque pessoas com barra de ferramentas do Google vão para páginas que não existem, e suas informações de navegação são transmitidas ao Google. É por isso que você frequentemente encontra páginas indexadas que não têm negócios sendo indexados, por exemplo, páginas de phpmyadmin que não estão ligadas de qualquer lugar.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow