Devo me preocupar se o Googlebot está tentando URLs índice de marketing?

StackOverflow https://stackoverflow.com/questions/814554

  •  03-07-2019
  •  | 
  •  

Pergunta

Tenho recentemente começou a usar Google Webmaster Tools .

Eu estava bastante surpreso ao ver quantas ligações o Google está tentando índice.

http://www.example.com/?c=123
http://www.example.com/?c=82
http://www.example.com/?c=234
http://www.example.com/?c=991

Estas são todas as campanhas que existem como links de sites parceiros.

Por agora todos eles estão sendo negado pelo meu arquivo de robôs até que o site está completo -. Como é cada página no site

Eu estou querendo saber qual é a melhor abordagem para lidar com links como este é - antes de eu fazer o meu arquivo robots.txt menos restritiva.

Estou preocupado que eles serão tratados como diferentes URLs e começar a aparecer nos resultados de pesquisa do Google. Todos eles correspondem à mesma página - mais ou menos. Eu não quero que as pessoas encontrá-los como eles são e clicando sobre eles.

Ao melhor idéia até agora é para processar uma página que contém uma cadeia de consulta da seguinte maneira:

 // DO NOT TRY THIS AT HOME. See edit below
 <% if (Request.QueryString != "") { %>

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

 <% } %>

Eu preciso fazer isso? É esta a melhor abordagem?

Editar: Isso acaba NÃO SER uma boa abordagem . Acontece que o Google está vendo NOINDEX em uma página que tem o mesmo conteúdo de outra página que não tem NOINDEX. Aparentemente, ele descobre que eles são a mesma coisa e o NOINDEX tem precedência. Meu site desapareceu completamente do Google como um resultado. Ressalva:. Poderia ter sido outra coisa que eu fiz, ao mesmo tempo, mas eu não arriscaria essa abordagem

Foi útil?

Solução

Este é o tipo de coisa que rel="canonical" foi projetado para. Google postou um artigo no blog sobre isso.

Outras dicas

Sim, o Google iria interpretar-los como URLs diferentes.

Dependendo do seu servidor web, você poderia usar um filtro de reescrita para remover o parâmetro para motores de busca, por exemplo url reescrita filtro para Tomcat, ou mod reescrever para Apache.

Pessoalmente, eu tinha acabado de redirecionar para a mesma página com o parâmetro de rastreamento removida.

Isso parece ser a melhor abordagem a menos que exista a página em sua própria pasta, caso em que você pode modificar o arquivo robots.txt só para ignorar essa pasta.

Para obter recursos que não devem ser indexados eu prefiro fazer um retorno simples no carregamento da página:

if (IsBot(Request.UserAgent)
    return;
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top