Robots.txt dinâmico

https://stackoverflow.com/questions/43971

09-06-2019
|

Pergunta

Digamos que eu tenha um site para hospedar conteúdo gerado pela comunidade direcionado a um conjunto muito específico de usuários.Agora, digamos que no interesse de promover uma comunidade melhor eu tenho uma área fora do assunto onde os membros da comunidade podem postar ou falar sobre o que quiserem, independentemente do tema principal do site.

Agora eu querer a maior parte do conteúdo será indexada pelo Google.A exceção notável é o conteúdo fora do tópico.Cada tópico tem sua própria página, mas todos os tópicos estão listados na mesma pasta, então não posso simplesmente excluir os mecanismos de pesquisa de uma pasta em algum lugar.Tem que ser por página.Um arquivo robots.txt tradicional ficaria enorme, então de que outra forma eu poderia fazer isso?

Solução

Isso funcionará para todos os mecanismos de pesquisa com bom comportamento, basta adicioná-lo ao <head>:

<meta name="robots" content="noindex, nofollow" />

Outras dicas

Se estiver usando o Apache, eu usaria mod-rewrite para alias robots.txt para um script que pudesse gerar dinamicamente o conteúdo necessário.

Editar:Se estiver usando o IIS, você pode usar ISAPIreescrever para fazer o mesmo.

Da mesma forma que a sugestão de @James Marshall - no ASP.NET você poderia usar um HttpHandler para redirecionar chamadas para robots.txt para um script que gerou o conteúdo.

Você pode implementá-lo substituindo o robots.txt pelo script dinâmico que gera a saída.Com o Apache, você pode criar uma regra .htaccess simples para conseguir isso.

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

Apenas para esse tópico, certifique-se de que seu head contenha uma meta tag noindex.Essa é mais uma maneira de dizer aos mecanismos de pesquisa para não rastrearem sua página, a não ser bloqueando no robots.txt

Apenas tenha em mente que a proibição do robots.txt NÃO impedirá o Google de indexar páginas que possuem links de sites externos, tudo o que faz é impedir o rastreamento interno.Ver http://www.webmasterworld.com/google/4490125.htm ou http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

Você pode impedir que mecanismos de pesquisa leiam ou indexem seu conteúdo, restringindo metatags de robôs.Dessa forma, o spider considerará suas instruções e indexará apenas as páginas que você desejar.

bloquear página da web dinâmica por robots.txt use este código

Agente de usuário:*

Proibir:/setnewsprefs?

Proibir:/index.html?

Proibir:/?

Permitir:/?hl=

Proibir:/?hl=*&

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow