Dois-je m'inquiéter si Googlebot essaie d'indexer des URL marketing?

https://stackoverflow.com/questions/814554

03-07-2019
|

Question

J'ai récemment commencé à utiliser les outils pour les webmasters de Google .

J'ai été assez surpris de voir le nombre de liens que Google tente d'indexer.

http://www.example.com/?c=123
http://www.example.com/?c=82
http://www.example.com/?c=234
http://www.example.com/?c=991

Il s’agit de toutes les campagnes existant sous forme de liens provenant de sites partenaires.

Pour le moment, ils sont tous refusés par mon fichier de robots jusqu'à la fin du site - de même que CHAQUE page du site.

Je me demande quelle est la meilleure approche pour traiter de tels liens - avant de rendre mon fichier robots.txt moins restrictif.

Je crains qu'ils ne soient traités comme des URL différentes et commencent à apparaître dans les résultats de recherche de Google. Ils correspondent tous à la même page - donner ou prendre. Je ne veux pas que les gens les trouvent tels quels et cliquent dessus.

La meilleure idée à ce jour est de rendre une page contenant une chaîne de requête comme suit:

 // DO NOT TRY THIS AT HOME. See edit below
 <% if (Request.QueryString != "") { %>

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

 <% } %>

Dois-je faire cela? Est-ce la meilleure approche?

Modifier: Cela s'avère NE PAS ÊTRE UNE BONNE APPROCHE . Il s'avère que Google voit NOINDEX sur une page ayant le même contenu qu'une autre page sans NOINDEX. Apparemment, il semble que ce soit la même chose et que le NOINDEX a la priorité. En conséquence, mon site a complètement disparu de Google. Avertissement: cela aurait pu être autre chose que j'ai fait en même temps, mais je ne risquerais pas cette approche.

La solution

C’est le genre de chose pour laquelle rel = "canonical" a été conçu. Google a publié un article à ce sujet.

Autres conseils

Oui, Google les interpréterait comme des URL différentes.

En fonction de votre serveur Web, vous pouvez utiliser un filtre de réécriture pour supprimer le paramètre des moteurs de recherche, par exemple, filtre de réécriture d'URL pour Tomcat, ou mod rewrite pour Apache.

Personnellement, je redirigerais simplement vers la même page avec le paramètre de suivi supprimé.

Cela semble être la meilleure approche, sauf si la page existe dans son propre dossier. Dans ce cas, vous pouvez modifier le fichier robots.txt simplement pour ignorer ce dossier.

Pour les ressources qui ne doivent pas être indexées, je préfère effectuer un retour simple dans le chargement de page:

if (IsBot(Request.UserAgent)
    return;

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow