Como configurar um robot.txt que só permite que o padrão de página de um site
-
09-06-2019 - |
Pergunta
Dizem que eu tenho um site sobre http://example.com.Eu realmente gostaria permitindo que os bots para ver a página inicial, mas qualquer outra página que precisar bloqueado como é inútil aranha.Em outras palavras
http://example.com & http://example.com/ deve ser permitido, mas http://example.com/anything e http://example.com/someendpoint.aspx deve ser bloqueado.
Além disso, seria ótimo se eu pode permitir que certas seqüências de caracteres de consulta para a passagem de para a página inicial:http://example.com?okparam=true
Solução
Então, depois de algumas pesquisas, aqui está o que eu encontrei - a uma solução aceitável pelas principais provedores de pesquisa: o google , yahoo e msn (eu poderia encontrar um validador aqui) :
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$
O truque é usar o $ para marcar o final da URL.
Outras dicas
Ferramentas do Google para Webmasters relatório de não permitir que sempre tem precedência sobre permitir, então não há nenhuma maneira fácil de fazer isso em um robots.txt
arquivo.
Você pode fazer isso, colocando um noindex,nofollow
META
tag no HTML de cada página, mas a página inicial.
Básico robots.txt:
Disallow: /subdir/
Eu não acho que você pode criar uma expressão, dizendo: 'tudo, mas a raiz', você tem que preencher todos os sub-diretórios.
A seqüência de caracteres de consulta limitação também não é possível a partir de robots.txt.Você tem que fazê-lo no plano de fundo de código (o processamento de parte), ou talvez com o servidor de reescrever-regras.
Disallow: *
Allow: index.ext
Se eu me lembro corretamente a cláusula segunda deve substituir o primeiro.
Até onde eu sei, nem todos os rastreadores de apoio Permitir marca.Uma possível solução pode ser colocar tudo, exceto a home page em outra pasta e não permitir que a pasta.