Dovrei preoccuparmi se googlebot sta cercando di indicizzare gli URL di marketing?

https://stackoverflow.com/questions/814554

03-07-2019
|

Domanda

Di recente ho iniziato a utilizzare Strumenti per i Webmaster di Google .

Sono stato piuttosto sorpreso di vedere quanti link Google sta cercando di indicizzare.

http://www.example.com/?c=123
http://www.example.com/?c=82
http://www.example.com/?c=234
http://www.example.com/?c=991

Queste sono tutte campagne che esistono come collegamenti da siti partner.

Per il momento sono stati tutti negati dal mio file di robot fino a quando il sito non è completo, così come OGNI pagina del sito.

Mi chiedo quale sia l'approccio migliore per gestire i collegamenti in questo modo - prima di rendere il mio file robots.txt meno restrittivo.

Sono preoccupato che verranno trattati come URL diversi e inizieranno a comparire nei risultati di ricerca di Google. Corrispondono tutti alla stessa pagina: dare o avere. Non voglio che le persone le trovino così come sono e facciano clic su di esse.

La migliore idea finora è rendere una pagina che contiene una stringa di query come segue:

 // DO NOT TRY THIS AT HOME. See edit below
 <% if (Request.QueryString != "") { %>

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

 <% } %>

Devo farlo? È questo l'approccio migliore?

Modifica: Questo risulta NON ESSERE UN BUON APPROCCIO . Si scopre che Google sta visualizzando NOINDEX in una pagina che ha lo stesso contenuto di un'altra pagina che non ha NOINDEX. Apparentemente sembra che siano la stessa cosa e NOINDEX ha la precedenza. Di conseguenza il mio sito è completamente scomparso da Google. Avvertenza: avrebbe potuto essere qualcos'altro che ho fatto allo stesso tempo, ma non rischierei questo approccio.

Soluzione

Questo è il tipo di cosa per cui rel = " canonical " è stato progettato. Google ha pubblicato un articolo di blog al riguardo.

Altri suggerimenti

Sì, Google li interpreterebbe come URL diversi.

A seconda del server Web è possibile utilizzare un filtro di riscrittura per rimuovere il parametro per i motori di ricerca, ad esempio url rewrite filter per Tomcat o riscrittura mod per Apache.

Personalmente reindirizzerei alla stessa pagina con il parametro di tracciamento rimosso.

Sembra l'approccio migliore a meno che la pagina non esista nella sua cartella, nel qual caso puoi modificare il file robots.txt solo per ignorare quella cartella.

Per le risorse che non dovrebbero essere indicizzate preferisco fare un semplice ritorno nel caricamento della pagina:

if (IsBot(Request.UserAgent)
    return;

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow