在被之前的问题难住之后: 所以谷歌分析域数据不带过滤

我一直在尝试自己的一个非常基本的分析系统。

MySQL 表:

hit_id, subsite_id, timestamp, ip, url

subsite_id 让我可以深入到一个文件夹(如上一个问题中所述)。

我现在可以获得以下指标:

  • 页面浏览量 - 按 subsite_id 和日期分组
  • 唯一页面浏览量 - 按 subsite_id、日期、url、IP 分组(不一定是 Google 的做法!)
  • 通常的“访问次数最多的页面”、“可能访问的时间”等。

我现在将我的数据与 Google Analytics 中的数据进行了比较,发现 Google 每个指标的值都较低. 。也就是说,我自己的设置计算的点击次数比谷歌还要多。

因此,到目前为止,我已经开始对来自各种网络爬虫、Google、Yahoo 和 Dotbot 的 IP 进行折扣。

简短的问题:

  1. 值得我整理所有主要爬行者的清单,是否有可能定期更改清单?
  2. Google还将应用其他明显的过滤器吗?
  3. 您还会收集哪些其他数据,这些数据可能会进一步使用?
  4. Google使用哪些变量来获取网站的入口搜索关键字?

这些数据只会在我们自己的“子网站排名系统”内部使用,但我想向我的用户展示一些基本数据(页面浏览量、最受欢迎的页面等)以供他们参考。

有帮助吗?

解决方案

客户端设备与服务器端的报告不足似乎是这些比较的常见结果。

当我遇到这些研究时,我尝试以下方法来调和这种差异:

数据源记录在服务器端收集但不记录在客户端:

  • 点击来自 移动设备 不支持 javascript(这可能是一个 差距的重要根源 这两个系列之间 技术--例如,07 年 1 月 COMScore研究 显示,19%的英国 互联网用户访问互联网 从移动设备)

  • 点击来自 蜘蛛, 机器人(您 已提及)

与 JavaScript 页面标签相比,服务器端收集倾向于以更高的保真度(更少的漏报)记录数据源/事件:

  • 背后用户的点击量 防火墙, 特别是企业 防火墙--防火墙阻止页面标签、 此外,还配置了一些 拒绝/删除 cookie。

  • 来自拥有以下内容的用户的点击 残 浏览器中的 javascript--五 根据 W3C数据

  • 来自用户的点击 退出页面 在加载之前. 。同样,这是一个 比你更大的差距来源 可能会这么想。最 常引用 学习 至 由斯通提供支持 坦普尔咨询公司的研究表明 独特访客的差异 两个相同站点之间的流量 配置了相同的网络 分析系统,但其不同之处在于 只是因为 js 跟踪代码是 置于 底部 页面 在一个地点,而在 顶部 的 是 4.3%


FWIW,这是我用来删除/识别蜘蛛、机器人等的方案:

  1. 监控我们的请求机器人.txt 文件:然后当然会过滤来自同一 IP 地址 用户代理(并非所有 的 robots.txt 请求。 当然,误差很小、 对该资源的任何请求都是 可能是个机器人

  2. 比较用户代理和 IP 地址 对照已公布的清单: IAB网用户代理.org 出版两 似乎是最 广泛用于此目的

  3. 模式分析:这里没有什么复杂的;我们将(i) 网页浏览量视为 时间的函数(即点击一个 大量链路,每个链路 200 毫秒 页具有证明作用);(ii) 通过以下路径 用户 "穿越网站、 是系统和完整,还是 几乎如此(比如在 反向跟踪算法);和(iii) 精确定时访问(如凌晨 3 点 每天)。

其他提示

许多人出于隐私原因阻止 Google Analytics。

最大的原因是用户必须启用 JavaScript 并加载整个页面,因为代码通常位于页脚中。Awstars,像您这样的其他服务器端解决方案将获得一切。另外,分析在识别机器人和爬虫方面确实做得很好。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top