Pregunta

He encontrado esta pregunta muy interesante: programático Detección Bot Tengo una pregunta muy similar, pero no me molesta acerca de los robots que se comporten mal ''.

Estoy siguiendo la pista (además de Google Analytics) lo siguiente por visita:

  • URL de entrada
  • Referer
  • UserAgent
  • Adwords (por medio de la cadena de consulta)
  • Sea o no el usuario realiza una compra
  • etc.

El problema es que para calcular cualquier tipo de tasa de conversión que estoy terminando con una gran cantidad de visitas 'bot' que no están alineadas en gran medida mis resultados.

Me gustaría ignorar el mayor número posible de visitas bot, pero quiero una solución que no necesito para monitorear muy de cerca, y eso no va a ser en sí mismo un cerdo rendimiento y preferiblemente todavía trabajar si alguien tiene JavaScript desactivado.

¿Hay buenas listas publicadas de los 100 mejores robots de más o menos? Lo que encontrar una lista en http://www.user-agents.org/ pero que aparece para contener cientos, si no miles de bots. No quiero comprobar cada árbitro contra miles de enlaces.

Aquí está el agente de usuario Googlebot actual. ¿Con qué frecuencia cambia?

 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
¿Fue útil?

Solución 2

Me di cuenta de que su probablemente realmente más fácil de hacer exactamente lo contrario de lo que yo estaba tratando.

es decir.

select count(*) as count, useragent from sessionvisit 
where useragent not like '%firefox%' 
and useragent not like '%chrome%'
and useragent not like '%safari%'
and useragent not like '%msie%'
and useragent not like '%gecko%'
and useragent not like '%opera%'
group by useragent order by count desc

Lo que en realidad estoy tratando de hacer es conseguir una tasa de conversión exacta, y parece tener más sentido a son buenos navegadores en lugar de Excluir los robots (bueno o malo).

Además si alguna vez encuentro una 'sesión' donde un 'robot' ha realizado una compra que probablemente significa que hay un nuevo navegador (Chrome pensar). Actualmente ninguno de mis robots haber realizado una compra!

Otros consejos

Usted podría tratar de importar la base de datos de Robots fuera robotstxt.org y utilizarlo para filtrar solicitudes de esos User-Agents. Puede que no sea muy diferente a User-agents.org, pero al menos la lista robotstxt.org es 'propietario-enviado' (supuestamente).

Ese sitio también tiene enlaces a botsvsbrowsers.com aunque no veo de inmediato una versión descargable de su datos.

Además, usted ha dicho

  

No quiero comprobar cada árbitro contra miles de enlaces.

que es justo lo suficiente - pero si el rendimiento en tiempo de ejecución es una preocupación, simplemente 'log' cada petición y filtrar a cabo como un post-proceso (un lote durante la noche, o como parte de las consultas de información).

Este punto también me confunde un poco

  

preferiblemente todavía trabajar si alguien tiene JavaScript desactivado.

estás escribiendo su registro en el lado del servidor como parte de cada página que sirve? Javascript no debe hacer ninguna diferencia en este caso (aunque, obviamente, los que tienen JavaScript desactivado no conseguirá informado a través de Google Analytics).

p.s. teniendo robotstxt.org mencionado, vale la pena recordar que los robots de buen comportamiento solicitará /robots.txt desde su raíz del sitio web. Tal vez usted podría utilizar ese conocimiento para su ventaja - por la tala / notificándole posibles robot User-Agents que es posible que desee excluir (aunque yo no automáticamente excluir que la AU en caso de que un usuario web normal tipos /robots.txt en el navegador, que puede provocar su código de ignorar la gente real). No creo que causaría demasiada sobrecarga de mantenimiento a través del tiempo ...

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top