تحليلات الموقع الأساسية لا يحتجز مع بيانات Google

https://stackoverflow.com/questions/2500403

21-09-2019
|

سؤال

بعد تعثره من قبل quesiton في وقت سابق: لذا فإن Google-analytics-domain-data-بدون مرشح

لقد قمت بتجربة نظام تحليلات أساسي للغاية.

جدول MySQL:

hit_id, subsite_id, timestamp, ip, url

Substite_id دعنا ننتقل لأسفل إلى مجلد (كما هو موضح في السؤال السابق).

يمكنني الآن الحصول على المقاييس التالية:

طرق عرض الصفحة - مجمعة بواسطة subsite_id والتاريخ
مشاهدات صفحات فريدة - تم تجميعها بواسطة subsite_id ، التاريخ ، URL ، IP (وليس nescects بشكل necects google!)
من المحتمل أن يكون الوقت المعتاد "الصفحة الأكثر زيارة" ، "وقت زيارة" إلخ. إلخ. إلخ. إلخ.

لقد قارنت الآن بياناتي مع تلك الموجودة في Google Analytics ووجدت ذلك لدى Google قيم أقل من كل مقياس. أي ، الإعداد الخاص بي يحسب المزيد من الزيارات من Google.

لذلك بدأت في خصم IP من مختلف زحفات الويب ، Google ، Yahoo & Dotbot حتى الآن.

أسئلة قصيرة:

هل يستحقني أن أقوم بجمع قائمة بجميع زحفات الزحف الرئيسية للخصم ، هل من المحتمل أن تتغير أي قائمة بانتظام؟
هل هناك أي مرشحات واضحة أخرى ستقدم Google على بيانات GA؟
ما هي البيانات الأخرى التي ستجمعها والتي قد تكون مزيد من الاستخدام أسفل الخط؟
ما هي المتغيرات التي تستخدمها Google لوضع الكلمات الرئيسية للبحث عن الدخول إلى موقع؟

سيتم استخدام البيانات داخليًا فقط في "نظام التصنيف الفرعي" الخاص بنا ، لكنني أود أن أظهر لمستخدمي بعض البيانات الأساسية (طرق عرض الصفحة ، والصفحات الأكثر شعبية ، وما إلى ذلك) للرجوع إليها.

المحلول

نقص الإبلاغ من قبل الحفر من جانب العميل مقابل EEMs من جانب الخادم ليكون النتيجة المعتادة لهذه المقارنات.

إليكم كيف حاولت التوفيق بين التباين عندما صادفت هذه الدراسات:

مصادر البيانات المسجلة في مجموعة من جانب الخادم ولكن ليس من جانب العميل:

يضرب من أجهزة محمولة لا تدعم JavaScript (ربما يكون هذا مصدرًا مهمًا للتفاوت بين تقنيتي التجميع-EG ، 07 يناير دراسة comScore أظهر أن 19 ٪ من مستخدمي الإنترنت في المملكة المتحدة يصلون إلى الإنترنت من جهاز محمول)
يضرب من العناكب, ، روبوتات (التي ذكرتها بالفعل)

مصادر البيانات/الأحداث التي تميل جمعها من جانب الخادم إلى التسجيل بإخلاص أكبر (سلبيات أقل كاذبة) مقارنة بعلامات صفحة JavaScript:

يضرب من المستخدمين وراءهم جدران الحماية، وخاصة جدران الحماية للشركات-علامات صفحة حظر الجدران ، بالإضافة إلى تكوين بعضها لرفض/حذف ملفات تعريف الارتباط.
يضرب من المستخدمين الذين لديهم JavaScript المعوقين في متصفحاتهم-خمسة في المئة ، وفقا ل بيانات W3C
يضرب من المستخدمين الذين الخروج من الصفحة قبل تحميلها. مرة أخرى ، هذا مصدر أكبر للتفاوت مما تعتقد. الأكثر استشهاد دراسة لدعم ذلك ، تم إجراء هذا بواسطة Stone Temple Consulting ، والذي أظهر أن الفرق في حركة مرور الزوار الفريدة بين موقعين متطابقين تم تكوينه مع نفس نظام تحليلات الويب ، ولكنه اختلف فقط في رمز تتبع JS في الأسفل من الصفحات في موقع واحد ، وفي أعلى من الصفحات في الآخر-كان ذلك 4.3%

FWIW ، إليك المخطط الذي أستخدمه لإزالة/تحديد العناكب ، الروبوتات ، إلخ:

مراقبة طلباتناrobots.txt ملف: ثم بالطبع تصفية جميع الطلبات الأخرى من نفس عنوان IP + وكيل المستخدم (لن تطلب جميع العناكب Robots.txt بالطبع ، ولكن مع خطأ ضئيل ، ربما يكون أي طلب لهذا المورد هو روبوت.
قارن عناوين وكيل المستخدم وعناوين IP مقابل القوائم المنشورة: ib.net وuser-agents.org نشر القائمتين اللذين يبدو أنهما الأكثر استخدامًا لهذا الغرض
تحليل النمط: لا شيء متطور هنا ؛ نحن ننظر إلى (i) طرق عرض الصفحة كدالة للوقت (أي ، النقر على الكثير من الروابط مع 200 ميللي ثانية في كل صفحة أمر أساسي) ؛ (2) المسار الذي يعبر به "المستخدم" من الموقع ، هل هو منهجي وكامل أو تقريبًا (مثل اتباع خوارزمية التتبع الخلفي) ؛ و (3) زيارات محددة بالتوقيت (على سبيل المثال ، 3 صباحًا كل يوم).

نصائح أخرى

الكثير من الأشخاص يحظرون Google Analytics لأسباب خصوصية.

الأسباب الأكبر هي أن المستخدمين يجب أن يكونوا قد تم تمكين JavaScript وتحميل الصفحة بأكملها لأن الكود غالبًا ما يكون في تذييل التذييل. AWSTARS ، ستحصل حلول الخوادم الأخرى مثلك على كل شيء. بالإضافة إلى ذلك ، تقوم Analytics بعمل جيد حقيقي في تحديد روبوتات وكاشطات.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow