基本网站分析与 Google 数据不符

题

我一直在尝试自己的一个非常基本的分析系统。

MySQL 表：

hit_id, subsite_id, timestamp, ip, url

subsite_id 让我可以深入到一个文件夹（如上一个问题中所述）。

我现在可以获得以下指标：

我现在将我的数据与 Google Analytics 中的数据进行了比较，发现 Google 每个指标的值都较低. 。也就是说，我自己的设置计算的点击次数比谷歌还要多。

因此，到目前为止，我已经开始对来自各种网络爬虫、Google、Yahoo 和 Dotbot 的 IP 进行折扣。

简短的问题：

这些数据只会在我们自己的“子网站排名系统”内部使用，但我想向我的用户展示一些基本数据（页面浏览量、最受欢迎的页面等）以供他们参考。

解决方案

客户端设备与服务器端的报告不足似乎是这些比较的常见结果。

当我遇到这些研究时，我尝试以下方法来调和这种差异：

数据源记录在服务器端收集但不记录在客户端：

点击来自 移动设备 不支持 javascript（这可能是一个差距的重要根源这两个系列之间技术--例如，07 年 1 月 COMScore研究显示，19%的英国互联网用户访问互联网从移动设备）
点击来自蜘蛛, 机器人（您已提及)

与 JavaScript 页面标签相比，服务器端收集倾向于以更高的保真度（更少的漏报）记录数据源/事件：

背后用户的点击量 防火墙, 特别是企业防火墙--防火墙阻止页面标签、此外，还配置了一些拒绝/删除 cookie。
来自拥有以下内容的用户的点击 残浏览器中的 javascript--五根据 W3C数据
来自用户的点击 退出页面在加载之前. 。同样，这是一个比你更大的差距来源可能会这么想。最常引用学习至由斯通提供支持坦普尔咨询公司的研究表明独特访客的差异两个相同站点之间的流量配置了相同的网络分析系统，但其不同之处在于只是因为 js 跟踪代码是置于底部页面在一个地点，而在顶部的是 4.3%

FWIW，这是我用来删除/识别蜘蛛、机器人等的方案：

监控我们的请求机器人.txt 文件：然后当然会过滤来自同一 IP 地址用户代理（并非所有的 robots.txt 请求。当然，误差很小、对该资源的任何请求都是可能是个机器人
比较用户代理和 IP 地址对照已公布的清单： IAB网 和用户代理.org 出版两似乎是最广泛用于此目的
模式分析:这里没有什么复杂的；我们将(i) 网页浏览量视为时间的函数（即点击一个大量链路，每个链路 200 毫秒页具有证明作用）；(ii) 通过以下路径用户 "穿越网站、是系统和完整，还是几乎如此（比如在反向跟踪算法）；和(iii) 精确定时访问（如凌晨 3 点每天）。

其他提示

许多人出于隐私原因阻止 Google Analytics。

最大的原因是用户必须启用 JavaScript 并加载整个页面，因为代码通常位于页脚中。Awstars，像您这样的其他服务器端解决方案将获得一切。另外，分析在识别机器人和爬虫方面确实做得很好。

许可以下： CC-BY-SA 和归因