كيفية تتبع جميع أنشطة الموقع وتصفية بيانات روبوت الويب

StackOverflow https://stackoverflow.com/questions/1285749

  •  18-09-2019
  •  | 
  •  

سؤال

أقوم بعمل تتبع بدائي للغاية لمناظر الصفحة عن طريق تسجيل رابط تسجيل الدخول، ورموز الإحالة، وجلسات، مرات، وغيرها، ولكن العثور على قصفته مع الروبوتات (Google و Yahoo وما إلى ذلك). أتساءل ما هي طريقة فعالة هي تصفية هذه الإحصاءات أو عدم تسجيلها؟

لقد قمت بتجربة قوائم روبوت IP وغيرها ولكن هذا ليس مضمونا.

هل هناك نوع من الروبوتس، و HTACCESS، و PHP Server-Server-Server-side، أو JavaScript أو طريقة أخرى يمكن أن "خدعة" الروبوتات أو تجاهل التفاعل غير البشري؟

هل كانت مفيدة؟

المحلول

فقط لإضافة - تقنية يمكنك استخدامها داخل واجهةك ستكون استخدام JavaScript لتغليف الإجراءات التي تؤدي إلى بعض الزيادات المعدة / العداد تفاعل المستخدم، للحصول على مثال بدائي للغاية، وسوف يتبع الروبوت ()

<a href="javascript:viewItem(4)">Chicken Farms</a>

function viewItem(id)
{
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick';
}

لجعل تلك النقرات أسهل في تتبعها، قد تسفر عن طلب مثل

www.example.com/items?id=4&from=userclick

من شأن ذلك أن يساعدك على تتبع موثوق عدد المرات التي يتم فيها النقر فوق شيء "النقر"، لكن لديها عيوب واضحة، وبالطبع يعتمد ذلك حقا على ما تحاول تحقيقه.

نصائح أخرى

ذلك يعتمد على ما يجب تحقيقه. إذا كنت تريد البحث عن روبوتات لإيقاف زيارة مسارات / صفحات معينة، فيمكنك تضمينها في Robots.txt. غالبية الروبوتات التي تتصرف جيدا ستتوقف عن ضربها.

إذا كنت ترغب بروبوتات لفهرسة هذه المسارات، لكنك لا ترغب في رؤيتها في تقاريرك، فأنت بحاجة إلى تنفيذ بعض منطق الترشيح. على سبيل المثال، تحتوي جميع الروبوتات الرئيسية على سلسلة واضحة للغاية وكيل المستخدم (مثل GoogleBot / 2.1). يمكنك استخدام هذه السلاسل لتصفية هذه الزيارات من التقارير الخاصة بك.

حسنا، ستستخدم جميع الروبوتات وكيل مستخدم معين، حتى تتمكن من تجاهل تلك الطلبات فقط.

ولكن أيضا، إذا كنت تستخدم فقط Robots.txt ورفضها من الزيارة؛ حسنا هذا سوف يعمل أيضا.

لا تنشد Weel!

أي أداة إحصائية في الوقت الحالي مرشحات طلب الروبوتات. يمكنك تثبيت Awstats (مصدر مفتوح) حتى لو كان لديك استضافة مشتركة. إذا لن تقوم بتثبيت برنامج في الخادم الخاص بك، فيمكنك استخدام Google Analytics إضافة برنامج نصي فقط في نهاية صفحاتك. كلا الحلول جيدة جدا. بهذه الطريقة، يجب عليك فقط تسجيل أخطائك (500 و 404 و 403 كافية).

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top