¿Hay una manera de evitar que el robot de Google indexe ciertas partes de una página?

https://stackoverflow.com/questions/1497445

19-09-2019
|

Pregunta

¿Es posible afinar las directrices a Google a tal punto que va a ignorar parte de una página, y aún así el índice del resto?

Hay un par de cuestiones diferentes que hemos encontrado que sería ayudado por esto, como por ejemplo:

Fuente de alimentación / noticias de tipo ticker de texto en una página que muestra el contenido de una fuente externa
los usuarios que entran teléfono de contacto, etc. detalles que quieren hacerlos visibles en el sitio, pero prefieren no ser capaces google-

Soy consciente de que las dos anteriores se pueden abordar a través de otras técnicas (tales como escribir el contenido con JavaScript), pero me pregunto si alguien sabe si hay una opción más limpia ya disponible en Google?

He estado haciendo algo de investigación sobre este y se encontró con menciones de etiquetas noreferrer googleon y googleoff , pero estos parecen ser exclusivas de Google Search Appliance.

¿Alguien sabe si hay un conjunto similar de etiquetas a la que se adhiere el robot de Google?

Editar : Solo para aclarar, yo no quiero ir por el camino peligroso de encubrimiento / sirviendo contenido diferente a Google, por lo que estoy buscando para ver si hay un " manera de fiar" de lograr lo que me gustaría hacer aquí.

Solución

Lo que están pidiendo, en realidad no puede ser hecho, Google, o toma toda la página, o ninguno de ellos.

Se podría hacer algunos trucos furtivos aunque como insertar la parte de la página que no desea indexadas en un iFrame y utilizar robots.txt para pedir a Google que no indexen que iFrame.

Otros consejos

En resumen NO -. A menos que utilice el encubrimiento con que se desanime por Google

Por favor, echa un vistazo a la documentación oficial de aquí

http://code.google.com/apis/ searchappliance / documentación / 46 / admin_crawl / Preparing.html

Ir a la sección "Exclusión de texto no deseados del Índice"

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->

Encontrados recurso útil para el uso de cierto contenido duplicado y no permitir índice por motor de búsqueda de dicho contenido.

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>

En el servidor de detectar el componente de búsqueda de IP usando PHP o ASP. Luego alimentar las direcciones IP que caen en esa lista una versión de la página que desea ser indexada. En esa versión motores de búsqueda de su página de utilizar la etiqueta de enlace canónico para especificar al motor de búsqueda la versión de la página que no desea ser indexada.

De esta forma la página con el contenido que quieren estar índice será indexado por dirección única, mientras que el único contenido que desea ser indexada será indexado. Este método no le conseguirá bloqueado por los motores de búsqueda y es completamente seguro.

Si definitivamente se puede dejar de Google indexe algunas partes de su sitio web mediante la creación de robots.txt personalizada y escribir qué partes no desea indexar como wpadmins, o un determinado puesto o una página para que pueda hacerlo fácilmente mediante la creación este archivo robots.txt .before creación de comprobar su sitio robots.txt por ejemplo www.yoursite.com/robots.txt.

Todos los motores de búsqueda, ya sea el índice o ignorar toda la página. La única manera posible de poner en práctica lo que se desea es:

(a) tener dos versiones diferentes de la misma página

(b) detectar el navegador utilizado

Este enlace podría resultar útil.

Hay meta-etiquetas para los robots, y también hay el robots.txt, con el que puede restringir el acceso a ciertos directorios.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow