Pergunta

Tenho notado em minhas trackers que os bots estão visitando meu site muito. Devo mudar ou editar o meu robots.txt ou mudar alguma coisa? Não tenho certeza se isso é bom, porque eles são a indexação ou o quê?

Foi útil?

Solução

deve mudar i ou editar minha robots.txt ou mudar alguma coisa?

Depende do bot. Alguns bots vai obedientemente ignorar robots.txt. Tivemos um problema semelhante há 18 meses com o AD bot google porque nosso cliente estava comprando Soooo muitos anúncios. AD bots Google (como documentado) ignorar curinga (*) exclusões, mas ouvir ignora explícitas.

Lembre-se, bots que honra robots.txt só não irá rastrear o seu site. Isso é indesejável se você quer que eles para ter acesso aos seus dados para a indexação.

A melhor solução é a aceleração ou de fornecimento de conteúdo estático para os bots.

Não tenho certeza se isso é bom, porque eles são a indexação ou o quê?

Eles poderiam ser indexação / raspagem / roubo. Tudo a mesma coisa realmente. O que eu acho que você quer é para estrangular seu processamento solicitação HTTP baseado em UserAgents. Como fazer isso depende do seu servidor web e recipiente aplicativo.

Como sugerido em outras respostas, se o bot é malicioso, então você precisa se quer encontrar o padrão UserAgent e enviá-los 403 Forbiddens. Ou, se os bots maliciosos alterar dinamicamente cadeias de agente de usuário você tem duas opções adicionais:

  • White-lista UserAgents - por exemplo, criar um filtro de agente de utilizador que aceita apenas certos agentes de utilizador. Isto é muito imperfeito.
  • IP proibição - o http cabeçalho irá conter o IP de origem. Ou, se você está recebendo DOS'd (ataque de negação de serviço), então você tem problemas maiores

Outras dicas

Eu realmente não acho que mudar o robots.txt vai ajudar, porque só é bom bots cumpri-la. Todos os outros ignorá-lo e analisar o seu conteúdo como bem entenderem. Pessoalmente eu uso http://www.codeplex.com/urlrewriter para se livrar dos robôs indesejáveis ??por responder com uma mensagem proibidos se forem encontrados.

Os bots de spam não se preocupam com robots.txt. Você pode bloqueá-los com algo como mod_security (que é um muito legal Apache plug-in em seu próprio direito). Ou você pode simplesmente ignorá-los.

Você pode ter que usar .htaccess para negar alguns bots para parafuso com seus registros. Veja aqui: http://spamhuntress.com/2006/02/ 13 / outra sedentos-java-bot /

Eu tive muita bots Java rastejando meu site, acrescentando

SetEnvIfNoCase User-Agent ^ Java / 1. javabot = yes
SetEnvIfNoCase User-Agent ^ java1. javabot = yes
Negar a partir de env = javabot

os fez parar. Agora eles só recebem 403 uma vez e é isso:)

Uma vez eu trabalhei para um cliente que teve um número de bots "de comparação de preços" bater o site o tempo todo. O problema era que os nossos recursos de back-end eram escassos eo custo dinheiro por transação.

Depois de tentar lutar contra alguns destes por algum tempo, mas os bots só ficava mudando suas características reconhecíveis. Nós acabamos com a seguinte estratégia:

Para cada sessão no servidor determinamos se o usuário estava em qualquer clicando ponto muito rápido. Após um determinado número de repetições, nós definir o sinalizador "isRobot" a verdadeira e simplesmente acelerador para baixo a velocidade de resposta dentro dessa sessão, adicionando dorme. Nós não informar ao usuário de qualquer forma, já que ele tinha acabado de iniciar uma nova sessão, nesse caso.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top