Pergunta

Eu encontrei esta questão muito interessante: Programático Detecção Bot Eu tenho uma pergunta muito semelhante, mas não estou incomodado com 'bots mal comportados'.

Estou rastreamento (além do Google Analytics) o seguinte por visita:

  • A entrada URL
  • Referer
  • UserAgent
  • Adwords (por meio de string de consulta)
  • Seja ou não o usuário fez uma compra
  • etc.

O problema é que para calcular qualquer tipo de taxa de conversão Eu estou terminando com lotes de visitas 'bot' que estão desviando grandemente os meus resultados.

Eu gostaria de ignorar o maior número possível de visitas bot, mas eu quero uma solução que eu não preciso monitorar muito de perto, e que não vai por si só, um devorador de desempenho e de preferência ainda trabalho se alguém tem javascript desabilitado.

Existem boas listas dos 100 melhores bots ou mais publicado? Eu fiz encontrar uma lista em http://www.user-agents.org/ mas que parece para conter centenas, se não milhares de bots. Eu não quero para verificar cada referer contra milhares de links.

Aqui está o UserAgent googlebot atual. Quantas vezes isso muda?

 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Foi útil?

Solução 2

Eu percebi que seu provavelmente realmente mais fácil de fazer o exato oposto do que eu estava tentando.

i.

select count(*) as count, useragent from sessionvisit 
where useragent not like '%firefox%' 
and useragent not like '%chrome%'
and useragent not like '%safari%'
and useragent not like '%msie%'
and useragent not like '%gecko%'
and useragent not like '%opera%'
group by useragent order by count desc

O que eu estou realmente tentando fazer é obter uma taxa de conversão exata, e parece fazer mais sentido para incluem bons navegadores em vez de excluir bots (bom ou mau).

Além disso, se eu alguma vez encontrar uma 'sessão', onde um 'robô' fez uma compra que provavelmente significa que há um novo navegador (pense cromo). Atualmente nenhum dos meus robôs fizeram uma compra!

Outras dicas

Você poderia tentar importar o Robots off robotstxt.org e usando isso para filtrar solicita daqueles User-Agents. Não pode ser muito diferente para User-agents.org, mas pelo menos a lista robotstxt.org é 'submetida-proprietário' (supostamente).

Esse local também links para botsvsbrowsers.com embora eu não ver imediatamente uma versão para download do seu dados.

Além disso, você disse

Eu não quero verificar cada referer contra milhares de links.

o que é suficiente justo - mas se o desempenho de tempo de execução é uma preocupação, apenas 'log' cada pedido e filtrá-los como um pós-processamento (um lote durante a noite, ou como parte das consultas de relatórios).

Este ponto também me confunde um pouco

de preferência ainda trabalho se alguém tem o javascript desabilitado.

que você está escrevendo o seu log no lado do servidor o como parte de cada página que você serve? javascript não deve fazer qualquer diferença neste caso (embora, obviamente, aqueles com JavaScript desativado não vai ser reportados via Google Analytics).

P.S. tendo robotstxt.org mencionado, vale a pena lembrar que os robôs bem-comportados irá solicitar /robots.txt do seu site raiz. Talvez você poderia usar esse conhecimento para sua vantagem - pelo corte / notificá-lo de uma possível robô User-Agents que você pode querer excluir (embora eu não automaticamente excluir que UA no caso de um usuário da web regulares tipos /robots.txt em seu navegador, que pode causar seu código para ignorar as pessoas reais). Eu não acho que poderia causar muita manutenção sobrecarga ao longo do tempo ...

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top