site de base d'analyse ne correspond pas aux données Google

https://stackoverflow.com/questions/2500403

21-09-2019
|

Question

Après avoir été déconcerté par un quesiton plus tôt: SO Google Analytics-domain-Data- sans-filtration

Je l'ai expérimenté avec un système d'analyse très basique de mon propre.

Tableau de MySQL:

hit_id, subsite_id, timestamp, ip, url

Le subsite_id me laisse jusqu'à un drill dossier (comme expliqué dans la question précédente).

Je peux maintenant obtenir les mesures suivantes:

Page Vues - Regroupées par subsite_id et la date
Unique page Vues - Regroupées par subsite_id, date, URL, IP (non nesecarily comment Google il)
Comme d'habitude "page la plus visitée", "temps susceptibles de visiter" etc etc.

Je l'ai maintenant comparé mes données à ce dans Google Analytics et a constaté que Google a des valeurs inférieures chaque métrique . -À-dire, ma configuration est compte plus de hits que Google.

J'ai donc commencé l'actualisation des adresses IP à partir de différents robots d'exploration Web, Google, Yahoo et DotBot jusqu'à présent.

Questions courtes:

Est-il utile me dresser la liste des tous les grands robots d'exploration à rabais, est toute liste susceptible de changer régulièrement?
Y at-il d'autres filtres évidents que Google va appliquer à l'AG Les données?
Quelles autres données évaluez-vous qui pourrait être collectionnez d'une utilisation ultérieure sur toute la ligne?
Quelles sont les variables ne Google utilise pour travailler sur entrée mots-clés de recherche sur un site?

Les données ne va utilisé en interne pour notre propre « sous-site système de classement », mais je voudrais montrer mes utilisateurs des données de base (pages vues, pages les plus populaires, etc.) pour leur référence.

La solution

La sous-déclaration par la plate-forme côté client par rapport Eems côté serveur pour être le résultat habituel de ces comparaisons.

Voici comment j'ai essayé de concilier la disparité quand je suis venu à travers ces études:

Sources de données enregistrées dans la collecte côté serveur mais pas côté client:

touche de appareils mobiles qui ne supporte pas javascript (ce qui est probablement source importante de disparité entre les deux collection techniques -. par exemple, le 7 janvier comScore étude a montré que 19% du Royaume-Uni Les utilisateurs d'Internet ont accès à Internet à partir d'un appareil mobile)
touche de araignées , bots (que vous déjà mentionné)

Sources de données / événements qui collecte côté serveur tend à enregistrer avec une plus grande fidélité (beaucoup moins de faux négatifs) par rapport à javascript balises page:

frappe des utilisateurs derrière les pare-feu , en particulier des entreprises pare-feu - pare-feu bloquent balise page, ainsi que certains sont configurés pour rejeter / supprimer les cookies.
frappe des utilisateurs qui ont désactivé javascript dans leur navigateur - cinq pour cent, selon la W3C données
frappe des utilisateurs qui quitter la page avant de charger . Encore une fois, ceci est un plus grande source de disparité que vous pourrait penser. Le plus souvent cité étude l'appui de cette pierre a été réalisée par Temple Consulting, qui a montré que la différence de visiteur unique le trafic entre deux sites identiques configuré avec la même bande système d'analyse, mais qui diffère uniquement en ce que le code de suivi js était placé au bas des pages dans un site, et au sommet les pages de l'autre - était 4.3 %

FWIW, voici le schéma i utiliser pour supprimer / identifier les araignées, les robots, etc:.

demandes de moniteur pour notre robots.txt fichier: puis de filtre cours toutes les autres demandes de même Adresse IP + agent utilisateur (pas tous araignées demanderont robots.txt de bien sûr, mais avec une erreur minuscule, toute demande de cette ressource est probablement un bot.
comparer les adresses d'agent utilisateur et IP par rapport aux listes publiées: iab.net user-agents.org publier les deux listes qui semblent être les plus largement utilisé à cette fin
Analyse de modèle : rien de très sophistiqué ici; nous regardons (i) de pages vues en tant que en fonction du temps (à savoir, en cliquant sur un beaucoup de liens avec 200 msec sur chaque page est probante); (Ii) le chemin d'accès par que le « utilisateur » traverse hors site, est-il systématique et complète ou presque (comme la suite d'un algorithme de back-tracking); et (iii) visites précisément chronométrés (par exemple, 3 heures chaque jour).

Autres conseils

Beaucoup de gens bloquent Google Analytics pour des raisons de confidentialité.

raisons sont plus grands utilisateurs doivent activer JavaScript et charger la page entière que le code est souvent dans le pied de page. Awstars, d'autres solutions serverside comme le vôtre obtenir tout. De plus, l'analyse ne un vrai bon travail d'identification des robots et des grattoirs.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow