C'è un modo per impedire a Googlebot di indicizzare alcune parti di una pagina?

https://stackoverflow.com/questions/1497445

19-09-2019
|

Domanda

E 'possibile mettere a punto direttive a Google a tal punto che ignorerà parte di una pagina, ma ancora indice di tutto il resto?

Ci sono un paio di questioni diverse che abbiamo incontrato che sarebbe aiutato da questo, come ad esempio:

Feed RSS / news ticker-tipo di testo su una pagina di visualizzazione del contenuto da un sito esterno
utenti che entrano di telefono di contatto ecc dettagli che vogliono visibili sul sito, ma preferiscono non essere Google-grado

Sono consapevole che sia di quanto sopra può essere indirizzato tramite altre tecniche (come scrivere il contenuto con JavaScript), ma mi chiedo se qualcuno sa se c'è un opzione più pulita già disponibili da Google?

Ho fatto un po 'scavare su questo e sono imbattuto menzioni di noreferrer googleon e googleoff tag , ma questi sembrano essere esclusivo di Google Search Appliance.

Qualcuno sa se c'è un simile insieme di tag a cui Googlebot aderirà?

Modifica : Giusto per chiarire, io non voglio andare giù per la strada pericolosa di occultamento / fornire un documento diverso da Google, che è per questo che sto cercando di vedere se c'è una " modo legittimo" di realizzare quello che mi piacerebbe fare qui.

Soluzione

Quello che stai chiedendo, non si può davvero essere fatto, Google o prende l'intera pagina, o nessuno di esso.

Si potrebbe fare alcuni trucchi subdolo anche se, come inserire la parte della pagina che non si desidera indicizzati in un iFrame e utilizzare robots.txt per chiedere a Google di non indice che iFrame.

Altri suggerimenti

In breve NO -. Se non si utilizza cloaking con è scoraggiato da Google

Si prega di controllare la documentazione ufficiale da qui

http://code.google.com/apis/ searchappliance / documentazione / 46 / admin_crawl / Preparing.html

Vai alla sezione "Esclusione testo indesiderato dall'Indice"

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->

Trovato risorsa utile per l'utilizzo di determinati contenuti duplicati e non permettere indice dal motore di ricerca per tali contenuti.

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>

Al vostro server rilevano il bot di ricerca IP utilizzando PHP o ASP. Poi nutrire gli indirizzi IP che rientrano in tale elenco una versione della pagina che si desidera essere indicizzato. In quel motore di ricerca amichevole versione della pagina utilizzare il tag link canonico per specificare al motore di ricerca la versione della pagina che non si desidera essere indicizzato.

In questo modo la pagina con il contenuto che si desidera essere indice sarà indicizzato per indirizzo solo mentre il solo il contenuto che si desidera essere indicizzati verranno indicizzati. Questo metodo non farti bloccato dai motori di ricerca ed è completamente sicuro.

Sì, sicuramente ci si può fermare a Google di indicizzare alcune parti del tuo sito web con la creazione di file robots.txt personalizzati e scrivere quali porzioni non si desidera indicizzare come wpadmins, o di un particolare post o una pagina in modo da poter fare facilmente con la creazione questo file robots.txt .Prima creare controllare il file robots.txt del sito, ad esempio www.yoursite.com/robots.txt.

Tutti i motori di ricerca sia indice o ignorare l'intera pagina. L'unico modo possibile per realizzare ciò che si vuole è quello di:

(a) hanno due diverse versioni della stessa pagina

(b) rilevare il browser utilizzato

Questo link potrebbe rivelarsi utile.

Ci sono meta-tag per i bot, e c'è anche la robots.txt, con cui è possibile limitare l'accesso a determinate directory.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow