Cómo realizar un seguimiento de todos los datos de robots web de la actividad del website y filtrado

https://stackoverflow.com/questions/1285749

18-09-2019
|

Pregunta

Estoy haciendo un seguimiento muy rudimentario de páginas vistas por URL de registro, códigos de referencia, sesiones, tiempos, etc, pero la búsqueda se bombardean con robots (Google, Yahoo, etc). Me pregunto lo que es una forma efectiva para filtrar o no registrar estas estadísticas?

He experimentado con listas robot IP, etc, pero esto no es infalible.

¿Hay algún tipo de robots.txt, .htaccess, código del lado del servidor PHP, JavaScript u otro método (s) que pueden robots "truco" o ignoran la interacción no humano?

Solución

Sólo para añadir - una técnica que se puede emplear dentro de su interfaz sería el uso de Javascript para encapsular las acciones que conducen a ciertos incrementos de vista de la interacción del usuario / contador, para un ejemplo muy rudimentario, un robot (puede) no siga :

<a href="javascript:viewItem(4)">Chicken Farms</a>

function viewItem(id)
{
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick';
}

Para hacer que esos clics más fáciles de seguir, podrían producir una solicitud como

www.example.com/items?id=4&from=userclick

Eso ayudaría a rastrear de manera fiable el número de veces que algo se hizo 'clic', pero tiene desventajas obvias, y por supuesto lo que realmente depende de lo que estamos tratando de lograr.

Otros consejos

Depende de lo que lo pueda lograr. Si desea buscar los robots dejar de visitar ciertos caminos / páginas que se pueden incluir en el archivo robots.txt. La mayoría de los robots que se comportan bien se detendrá golpeándolos.

Si quieres robots para indexar estos caminos, pero no desea verlos en sus informes a continuación, es necesario implementar alguna lógica de filtrado. P.ej. todas las principales bots tienen una cadena de agente de usuario muy claro (por ejemplo Googlebot / 2.1). Puede utilizar estas cadenas para filtrar estos éxitos fuera de su notificación.

Bueno, los robots serán todo el uso un agente de usuario específica, por lo que sólo puede pasar por alto esas solicitudes.

Pero también, si sólo utiliza un archivo robots.txt y negarles de visitar; así que también funcionará.

No redescover el weel!

Cualquier herramienta estadística en este momento los filtros Solicitar robots. Puede instalar AWSTATS (open source), incluso si tiene un alojamiento compartido. Si no va a instalar un software en su servidor puede utilizar Google Analytics añadiendo simplemente un guión al final de sus páginas. Ambas soluciones son muy buenos. De esta manera es suficiente con registrar sus errores (500, 404 y 403 son suficientes).

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow