Pergunta

Eu sei que os agentes de usuário são um indicador, mas que é fácil de falsificar.O que outros indicadores confiáveis, há que um visitante é realmente um bot?Inconsistente cabeçalhos?Se as imagens/javascript são solicitados?Obrigado!

Foi útil?

Solução

CVSTrac usa um honeypot página para fazer isso.É uma página ligada em algum lugar no site onde os rastreadores de alcançá-lo, mas os humanos, normalmente, ignorá-lo.CVSTrac vai um passo adiante, permitindo que o usuário provar que é humano.

Outras dicas

"Se as imagens/javascript são solicitados?" Gostaria de ir para esta, no entanto o Google e outros pedido de imagens e de arquivos javascript (mais hoje em dia.

Como sobre o pedido de velocidade do tempo?Bots ler o seu conteúdo muito mais rápido do que os humanos.

Existem 4 coisas que procuramos:

  • A seqüência de agente do usuário.É muito fácil fingir, mas muitas vezes rastreadores de usar a sua própria seqüência de agente do usuário.

  • A velocidade de acesso de páginas, se o acesso a mais do que um a cada meio segundo ou menos, que geralmente é uma boa indicação

  • Se eles solicitam apenas o HTML, ou se eles solicitação de página inteira.Alguns rastreadores apenas lhe irá pedir para a estrutura HTML.Normalmente, esta é uma boa dica.

  • A url de entrada

O inverso de um captcha de tipos pode ajudá-bem;você poderia criar um campo de entrada de texto com ecrã:nenhum;no atributo de estilo (ou estilos).Se é postado, as chances são de que você está lidando com um bot.

Editar: Este foi, na verdade, algo que tinha sido agregados no meu leitor de RSS, se eu posso encontrar a fonte, vou vincular um bom exemplo.

Dê uma olhada no Mau Comportamento, uma biblioteca que emprega uma grande variedade de técnicas de detecção de bot

Não é isso que captcha é inventada?

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top