¿Debería preocuparme si googlebot intenta indexar las URL de marketing?

https://stackoverflow.com/questions/814554

03-07-2019
|

Pregunta

Recientemente comencé a usar Herramientas para webmasters de Google .

Me sorprendió bastante ver cuántos enlaces Google intenta indexar.

http://www.example.com/?c=123
http://www.example.com/?c=82
http://www.example.com/?c=234
http://www.example.com/?c=991

Estas son todas las campañas que existen como enlaces desde sitios asociados.

Por ahora, mi archivo de robots los niega a todos hasta que el sitio esté completo, al igual que CADA página del sitio.

Me pregunto cuál es el mejor enfoque para manejar enlaces como este, antes de hacer que mi archivo robots.txt sea menos restrictivo.

Me preocupa que sean tratados como URLS diferentes y comiencen a aparecer en los resultados de búsqueda de Google. Todos corresponden a la misma página, más o menos. No quiero que las personas los encuentren como están y hagan clic en ellos.

Por la mejor idea hasta ahora es representar una página que contiene una cadena de consulta de la siguiente manera:

 // DO NOT TRY THIS AT HOME. See edit below
 <% if (Request.QueryString != "") { %>

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

 <% } %>

¿Necesito hacer esto? ¿Es este el mejor enfoque?

Editar: Esto resulta NO SER UN BUEN ENFOQUE . Resulta que Google está viendo NOINDEX en una página que tiene el mismo contenido que otra página que no tiene NOINDEX. Aparentemente parece que son lo mismo y el NOINDEX tiene prioridad. Mi sitio desapareció completamente de Google como resultado. Advertencia: podría haber sido otra cosa que hice al mismo tiempo, pero no arriesgaría este enfoque.

Solución

Este es el tipo de cosas para las que se diseñó rel = " canonical " . Google publicó un artículo de blog al respecto.

Otros consejos

Sí, Google los interpretaría como URL diferentes.

Dependiendo de su servidor web, podría usar un filtro de reescritura para eliminar el parámetro de los motores de búsqueda, por ejemplo, url rewrite filter para Tomcat, o mod rewrite para Apache.

Personalmente, simplemente redirigiría a la misma página con el parámetro de seguimiento eliminado.

Ese parece ser el mejor enfoque a menos que la página exista en su propia carpeta, en cuyo caso puede modificar el archivo robots.txt solo para ignorar esa carpeta.

Para recursos que no deben indexarse, prefiero hacer un simple retorno en la carga de la página:

if (IsBot(Request.UserAgent)
    return;

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow