Y at-il un moyen d'empêcher Googlebot d'indexer certaines parties d'une page?

https://stackoverflow.com/questions/1497445

19-09-2019
|

Question

Est-il possible d'affiner les directives à Google à un point tel qu'il ignorera partie d'une page, mais indexions le reste?

Il y a deux différents problèmes que nous avons rencontré qui serait aidé par cela, par exemple:

Flux RSS / Nouvelles texte de type boursier sur une page affichant le contenu à partir d'une source externe
les utilisateurs entrant dans le téléphone de contact, etc. détails qui veulent les rendre visibles sur le site, mais préféreraient-ils pas être en mesure-google

Je suis conscient que les deux ci-dessus peuvent être traités par d'autres techniques (telles que l'écriture du contenu avec JavaScript), mais me demande si quelqu'un sait s'il y a une option plus propre déjà disponible à partir de Google?

Je fais quelques recherches sur ce sujet et à travers de suis venu, mentionne les noreferrer balises googleon et googleoff , mais ceux-ci semblent être exclusive aux appareils de recherche Google.

Est-ce que quelqu'un sait s'il y a un ensemble similaire de balises à Googlebot adhérera?

Modifier : Juste pour clarifier, je ne veux pas aller dans la voie dangereuse de cloaking / service jusqu'à un contenu différent à Google, ce qui est la raison pour laquelle je cherche à voir s'il y a un " legit » manière de réaliser ce que je voudrais faire ici.

La solution

Qu'est-ce que vous demandez, ne peut pas vraiment être fait, Google prend soit la page entière, ou rien de tout cela.

Vous pouvez faire quelques trucs sournois mais comme insérer la partie de la page que vous ne voulez pas indexer dans un iFrame et utiliser robots.txt pour demander à Google de ne pas indexer que iFrame.

Autres conseils

En bref NO -. Sauf si vous utilisez cloaking est déconseillée avec Google

S'il vous plaît consulter la documentation officielle d'ici

http://code.google.com/apis/ searchappliance / documentation / 46 / admin_crawl / Preparing.html

Passez à la section « Hors le texte non désiré de l'indice »

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->

Introuvable La ressource utile pour l'utilisation de certains contenus en double et ne pas permettre à l'index par le moteur de recherche de ce type de contenu.

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>

A votre serveur le robot de détecter la recherche par IP en utilisant PHP ou ASP. Puis nourrir les adresses IP qui tombent dans cette liste une version de la page que vous souhaitez indexer. Dans ce moteur de recherche Version imprimable de votre page, utilisez la balise de lien canonique pour indiquer au moteur de recherche la version de la page que vous ne voulez pas être indexé.

De cette façon, la page avec le contenu qui ne veulent être index sera indexé par l'adresse que lorsque le seul le contenu que vous souhaitez être indexé sera indexé. Cette méthode ne vous donnera pas bloqué par les moteurs de recherche et est complètement sûr.

Oui certainement vous pouvez arrêter Google d'indexer certaines parties de votre site en créant robots.txt personnalisé et écrire quelles parties vous ne souhaitez pas indexer comme wpadmins, ou un poste ou une page de sorte que vous pouvez le faire facilement en créant ce fichier robots.txt .avant créer vérifier votre robots.txt site par exemple www.yoursite.com/robots.txt.

Tous les moteurs de recherche soit index ou ignorer la page. La seule façon possible de mettre en œuvre ce que vous voulez est à:

(a) deux versions différentes de la même page

(b) détecter le navigateur utilisé

Ce lien pourrait se révéler utile.

Il y a méta-tags pour les bots, et il y a aussi le robots.txt, avec lequel vous pouvez restreindre l'accès à certains répertoires.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow