Como configurar um robot.txt que só permite que o padrão de página de um site

https://stackoverflow.com/questions/43427

09-06-2019
|

Pergunta

Dizem que eu tenho um site sobre http://example.com.Eu realmente gostaria permitindo que os bots para ver a página inicial, mas qualquer outra página que precisar bloqueado como é inútil aranha.Em outras palavras

http://example.com & http://example.com/ deve ser permitido, mas http://example.com/anything e http://example.com/someendpoint.aspx deve ser bloqueado.

Além disso, seria ótimo se eu pode permitir que certas seqüências de caracteres de consulta para a passagem de para a página inicial:http://example.com?okparam=true

mas não http://example.com?anythingbutokparam=true

Solução

Então, depois de algumas pesquisas, aqui está o que eu encontrei - a uma solução aceitável pelas principais provedores de pesquisa: o google , yahoo e msn (eu poderia encontrar um validador aqui) :

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

O truque é usar o $ para marcar o final da URL.

Outras dicas

Ferramentas do Google para Webmasters relatório de não permitir que sempre tem precedência sobre permitir, então não há nenhuma maneira fácil de fazer isso em um robots.txt arquivo.

Você pode fazer isso, colocando um noindex,nofollow META tag no HTML de cada página, mas a página inicial.

Básico robots.txt:

Disallow: /subdir/

Eu não acho que você pode criar uma expressão, dizendo: 'tudo, mas a raiz', você tem que preencher todos os sub-diretórios.

A seqüência de caracteres de consulta limitação também não é possível a partir de robots.txt.Você tem que fazê-lo no plano de fundo de código (o processamento de parte), ou talvez com o servidor de reescrever-regras.

Disallow: *
Allow: index.ext

Se eu me lembro corretamente a cláusula segunda deve substituir o primeiro.

Até onde eu sei, nem todos os rastreadores de apoio Permitir marca.Uma possível solução pode ser colocar tudo, exceto a home page em outra pasta e não permitir que a pasta.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow