Devo me preocupar se o Googlebot está tentando URLs índice de marketing?
Pergunta
Tenho recentemente começou a usar Google Webmaster Tools .
Eu estava bastante surpreso ao ver quantas ligações o Google está tentando índice.
http://www.example.com/?c=123
http://www.example.com/?c=82
http://www.example.com/?c=234
http://www.example.com/?c=991
Estas são todas as campanhas que existem como links de sites parceiros.
Por agora todos eles estão sendo negado pelo meu arquivo de robôs até que o site está completo -. Como é cada página no site
Eu estou querendo saber qual é a melhor abordagem para lidar com links como este é - antes de eu fazer o meu arquivo robots.txt menos restritiva.
Estou preocupado que eles serão tratados como diferentes URLs e começar a aparecer nos resultados de pesquisa do Google. Todos eles correspondem à mesma página - mais ou menos. Eu não quero que as pessoas encontrá-los como eles são e clicando sobre eles.
Ao melhor idéia até agora é para processar uma página que contém uma cadeia de consulta da seguinte maneira:
// DO NOT TRY THIS AT HOME. See edit below
<% if (Request.QueryString != "") { %>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<% } %>
Eu preciso fazer isso? É esta a melhor abordagem?
Editar: Isso acaba NÃO SER uma boa abordagem . Acontece que o Google está vendo NOINDEX em uma página que tem o mesmo conteúdo de outra página que não tem NOINDEX. Aparentemente, ele descobre que eles são a mesma coisa e o NOINDEX tem precedência. Meu site desapareceu completamente do Google como um resultado. Ressalva:. Poderia ter sido outra coisa que eu fiz, ao mesmo tempo, mas eu não arriscaria essa abordagem
Solução
Este é o tipo de coisa que rel="canonical"
foi projetado para. Google postou um artigo no blog sobre isso.
Outras dicas
Sim, o Google iria interpretar-los como URLs diferentes.
Dependendo do seu servidor web, você poderia usar um filtro de reescrita para remover o parâmetro para motores de busca, por exemplo url reescrita filtro para Tomcat, ou mod reescrever para Apache.
Pessoalmente, eu tinha acabado de redirecionar para a mesma página com o parâmetro de rastreamento removida.
Isso parece ser a melhor abordagem a menos que exista a página em sua própria pasta, caso em que você pode modificar o arquivo robots.txt só para ignorar essa pasta.
Para obter recursos que não devem ser indexados eu prefiro fazer um retorno simples no carregamento da página:
if (IsBot(Request.UserAgent)
return;