Comment suivre toutes les activités de site Web et de filtrage des données du robot web

StackOverflow https://stackoverflow.com/questions/1285749

  •  18-09-2019
  •  | 
  •  

Question

Je fais un suivi très rudimentaire de pages vues par URL la connexion, codes de référence, les sessions, les temps etc, mais trouver ça devient bombardée avec des robots (Google, Yahoo, etc.). Je me demande quel moyen efficace est de filtrer ou non connecter ces statistiques?

Je l'ai expérimenté avec des listes IP du robot, etc, mais ce n'est pas à toute épreuve.

Y at-il une sorte de robots.txt, htaccess, le code côté serveur PHP, javascript ou une autre méthode (s) qui peuvent robots "truc" ou ignorer l'interaction non-humaine?

Était-ce utile?

La solution

Il suffit d'ajouter - une technique que vous pouvez utiliser au sein de votre interface de serait d'utiliser Javascript pour encapsuler les actions qui mènent à certaines vue interaction utilisateur / incréments de compteur, pour un exemple très rudimentaire, un robot (peut) ne pas suivre :

<a href="javascript:viewItem(4)">Chicken Farms</a>

function viewItem(id)
{
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick';
}

Pour les clics plus faciles à suivre, ils pourraient produire une demande telle que

www.example.com/items?id=4&from=userclick

Cela vous aider à suivre de manière fiable combien de fois quelque chose est clicked ', mais il présente des inconvénients évidents, et bien sûr cela dépend vraiment de ce que vous essayez d'atteindre.

Autres conseils

Cela dépend de ce que vous quoi atteindre. Si vous voulez rechercher les robots collecteurs de cesser de visiter certains chemins / pages que vous pouvez les inclure dans le fichier robots.txt. La majorité des bots bien se comporter cessera de les frapper.

Si vous voulez bots pour indexer ces chemins, mais vous ne voulez pas les voir dans vos rapports, vous devez mettre en œuvre une logique de filtrage. Par exemple. tous les robots principaux ont une chaîne d'agent utilisateur très clair (par exemple Googlebot / 2.1). Vous pouvez utiliser ces chaînes pour filtrer ces coups hors de vos rapports.

Eh bien, les robots seront tous utiliser un agent utilisateur spécifique, vous pouvez simplement ignorer ces demandes.

Mais aussi, si vous venez d'utiliser un robots.txt et les niez de visiter; bien que cela fonctionnera aussi.

Ne pas redescover le weel!

Tout outil statistique au moment des filtres demande des robots. Vous pouvez installer AWSTATS (open source), même si vous avez un hébergement mutualisé. Si vous ne pas installer un logiciel sur votre serveur, vous pouvez utiliser Google Analytics ajoutant simplement un script à la fin de vos pages. Les deux solutions sont très bons. De cette façon, il suffit de connecter vos erreurs (500, 404 et 403 suffisent).

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top