Existe uma maneira de impedir que o Googlebot indexine certas partes de uma página?

https://stackoverflow.com/questions/1497445

19-09-2019
|

Pergunta

É possível ajustar as diretrizes ao Google a tal ponto que ignorará parte de uma página, mas ainda assim indexar o restante?

Existem alguns problemas diferentes que encontramos que seriam ajudados por isso, como:

RSS Feed/News Ticker-Type Text em uma página exibindo conteúdo de uma fonte externa
usuários que inseram telefone de contato etc. detalhes que os desejam visíveis no site, mas preferem que não tenham o Googletable

Estou ciente de que ambos os itens acima podem ser abordados por meio de outras técnicas (como escrever o conteúdo com JavaScript), mas estou me perguntando se alguém sabe se já existe uma opção mais limpa disponível no Google?

Eu tenho escavado um pouco nisso e me deparei com menções a googleon e googleoff Tag, mas estes parecem ser exclusivos para os aplicativos de pesquisa do Google.

Alguém sabe se há um conjunto semelhante de tags a qual Googlebot irá aderir?

Editar: Só para esclarecer, eu não quero seguir o perigo caminho de encobrir/servir conteúdo diferente para o Google, e é por isso que estou procurando ver se há uma maneira "legítima" de alcançar o que eu gostaria de Faça aqui.

Solução

O que você está pedindo, não pode realmente ser feito, o Google pega a página inteira ou nada disso.

Você pode fazer alguns truques sorrateiros, embora insira a parte da página que você não deseja indexar em um iframe e usar robots.txt para pedir ao Google para não indexar esse iframe.

Outras dicas

Em resumo, não - a menos que você use a capno de captura é desencorajado pelo Google.

Confira a documentação oficial daqui

http://code.google.com/apis/searchappliance/documentation/46/admin_crawl/preparing.html

Vá para a seção "Excluindo texto indesejado do índice"

<!--googleoff: index-->
here will be skipped
<!--googleon: index-->

Encontrou recurso útil para usar determinado conteúdo duplicado e não permitir o índice por mecanismo de pesquisa para esse conteúdo.

<p>This is normal (X)HTML content that will be indexed by Google.</p>

<!--googleoff: index-->

<p>This (X)HTML content will NOT be indexed by Google.</p>

<!--googleon: index>

No seu servidor, detecte o bot de pesquisa por IP usando PHP ou ASP. Em seguida, alimente os endereços IP que se enquadram nessa lista de uma versão da página que você deseja ser indexada. Nessa versão para mecanismos de pesquisa da sua página, use a tag de link canônico para especificar ao mecanismo de pesquisa a versão da página que você não deseja ser indexado.

Dessa forma, a página com o conteúdo que deseja ser o índice será indexada apenas por endereço, enquanto o único conteúdo que você deseja ser indexado será indexado. Este método não o colocará bloqueado pelos mecanismos de pesquisa e é completamente seguro.

Sim, definitivamente, você pode impedir o Google de indexar algumas partes do seu site, criando robots.txt personalizados e escreva quais partes você não deseja indexar como wpadmins ou uma postagem ou página específica para que você possa fazer isso facilmente criando esses robôs. arquivo txt. Antes de criar, verifique o seu site robots.txt, por exemplo, www.yoursite.com/robots.txt.

Todos os mecanismos de pesquisa indexam ou ignoram a página inteira. A única maneira possível de implementar o que você deseja é:

(a) Tenha duas versões diferentes da mesma página

(b) Detecte o navegador usado

Esse link pode ser útil.

Existem meta-marcas para bots e também há os robots.txt, com os quais você pode restringir o acesso a determinados diretórios.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow