análisis de sitios básicos no concuerda con los datos de Google

https://stackoverflow.com/questions/2500403

21-09-2019
|

Pregunta

Después de ser stumped por una anterior quesiton: por lo que Google-Analytics-dominio-Data- sin filtrado

He estado experimentando con un sistema de análisis muy básico de la mía.

tabla de MySQL:

hit_id, subsite_id, timestamp, ip, url

El Let Me subsite_id es profundizar en una carpeta (como se explica en la pregunta anterior).

Ahora puede obtener las siguientes mediciones:

Páginas vistas - División por subsite_id y la fecha
Único Page Views - Agrupado por subsite_id, fecha, URL, IP (! no nesecarily cómo Google lo hace)
El habitual "página más visitada", "tiempo probable para visitar", etc, etc.

Ahora he comparado mis datos a la de Google Analytics y se encontró que Google tiene valores más bajos cada métrica . Es decir, mi propia configuración está contando más visitas que Google.

Así que he empezado a descontar de varios rastreadores web, Google, Yahoo y DotBot hasta ahora.

de IP

Preguntas cortas:

¿Es digno de mí una lista de cotejo todos los principales rastreadores a descuento, es cualquier lista probable que cambie con regularidad?
¿Hay otros filtros obvias que Google va a solicitar al GA ¿datos?
¿Qué otros datos en su caso cobro que pueden ser de uso adicional ¿abajo de la línea?
¿Qué variables hace Google utiliza para elaborar entrada buscar palabras clave a un sitio?

Los datos sólo se va a se usa internamente para nuestro propio "sistema de clasificación subsitio", pero me gustaría a mi blog y muestra algunos datos básicos (páginas vistas, la mayoría de las páginas populares, etc) para su referencia.

Solución

Sub-informes por el equipo de perforación en el cliente frente Eems del lado del servidor que es el resultado habitual de estas comparaciones.

Así es como he tratado de reconciliar la disparidad cuando me he encontrado con estos estudios:

Orígenes de datos grabados en la colección del lado del servidor, pero no del lado del cliente:

éxitos de dispositivos móviles que no soporta JavaScript (esto es probablemente una fuente significativa de disparidad entre los dos colección técnicas -. por ejemplo, Jan 07 comScore estudio mostró que el 19% de Reino Unido Los usuarios de Internet tienen acceso a Internet desde un dispositivo móvil)
éxitos de las arañas , los robots (que se ya se ha mencionado)

Fuentes / eventos de datos que la recogida del lado del servidor tiende a grabar con mayor fidelidad (mucho menos falsos negativos) en comparación con las etiquetas de página Javascript:

éxitos de los usuarios detrás de cortafuegos particularmente corporativa servidores de seguridad - cortafuegos etiqueta de página de bloqueo, además de algunos están configurados para rechazar / Eliminar cookies.
éxitos de los usuarios que tienen desactivado Javascript en su navegador - cinco por ciento, según el W3C Datos
éxitos de los usuarios que salida de la página antes de cargar . Una vez más, esta es una mayor fuente de disparidad de lo que podría pensar. la mayor parte frecuentemente citada estudio para apoyar este fue realizado por Piedra Templo Consulting, que mostró que la diferencia de visitante único el tráfico entre dos sitios idénticos configurado con la misma web análisis del sistema, pero que diferían sólo en que los js código de seguimiento fue de situado en el fondo de las páginas en un sitio, y en el top de las páginas en el otro - fue 4.3 %

Fwiw, aquí está el esquema que utilizo para quitar / identificar arañas, robots, etc:.

solicitudes de monitor para nuestra archivo robots.txt: luego de filtro supuesto todas las demás peticiones de la misma dirección IP + agente de usuario (no todos arañas solicitarán robots.txt de por supuesto, pero con el error minúsculo, cualquier petición de este recurso es Probablemente un bot.
El usuario comparar los agentes y las direcciones IP con las listas publicadas: iab.net y user-agents.org publicar los dos listas que parecen ser los más ampliamente utilizado para este fin
análisis de patrones : nada sofisticado aquí; nos fijamos en (i) páginas vistas como una en función del tiempo (es decir, hacer clic en un gran cantidad de enlaces con 200 mseg en cada Página de valor probatorio); (Ii) la ruta por el cual los usuarios '' travesías fuera del sitio, es sistemática y completa, o casi tan (como después de una algoritmo de back-tracking); y (iii) visitas precisamente-cronometrados (por ejemplo, 03 a.m. cada día).

Otros consejos

Hay mucha gente que bloquean Google Analytics por razones de privacidad.

razones más grandes son los usuarios tienen que tener Javascript activado e cargar toda la página como el código es a menudo en el pie de página. Awstars, otras soluciones serverside como la suya obtendrá todo. Además, el análisis hace un trabajo muy bien la identificación de los robots y raspadores.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow