هل يجب أن أتخلص من الروبوتات التي تزور موقعي؟

StackOverflow https://stackoverflow.com/questions/327192

  •  11-07-2019
  •  | 
  •  

سؤال

لقد لاحظت في أجهزة التتبع الخاصة بي أن الروبوتات تزور موقعي كثيرًا.هل يجب عليّ تغيير ملف robots.txt أو تعديله أو تغيير شيء ما؟لست متأكدًا مما إذا كان هذا جيدًا، لأنهم يقومون بالفهرسة أم ماذا؟

هل كانت مفيدة؟

المحلول

هل يجب عليّ تغيير ملف robots.txt أو تعديله أو تغيير شيء ما؟

يعتمد على البوت.ستتجاهل بعض برامج الروبوت ملف robots.txt.واجهنا مشكلة مماثلة منذ 18 شهرًا مع برنامج Google AD bot لأن عميلنا كان يشتري عددًا كبيرًا جدًا من الإعلانات.سوف تتجاهل برامج Google AD (كما هو موثق) استثناءات أحرف البدل (*)، ولكنها تستمع إلى التجاهل الصريح.

تذكر أن برامج الروبوت التي تحترم ملف robots.txt لن تزحف إلى موقعك.يعد هذا أمرًا غير مرغوب فيه إذا كنت تريد منهم الوصول إلى بياناتك للفهرسة.

الحل الأفضل هو خنق أو توفير محتوى ثابت للروبوتات.

لست متأكدًا مما إذا كان هذا جيدًا، لأنهم يقومون بالفهرسة أم ماذا؟

يمكن أن يقومون بالفهرسة/الكشط/السرقة.كل نفس حقا.ما أعتقد أنك تريده هو تقييد معالجة طلب http الخاص بهم استنادًا إلى UserAgents.تعتمد كيفية القيام بذلك على خادم الويب الخاص بك وحاوية التطبيق.

كما هو مقترح في الإجابات الأخرى، إذا كان الروبوت ضارًا، فسوف تحتاج إما إلى العثور على نمط UserAgent وإرسال 403 محظور لهم.أو، إذا قامت الروبوتات الضارة بتغيير سلاسل وكيل المستخدم ديناميكيًا، فلديك خياران إضافيان:

  • وكلاء المستخدم في القائمة البيضاء - على سبيل المثال.إنشاء عامل تصفية وكيل مستخدم يقبل فقط وكلاء مستخدم معينين.هذا غير كامل للغاية.
  • حظر IP - سيحتوي رأس http على عنوان IP المصدر.أو، إذا كنت تتعرض لهجوم DOS'd (هجوم رفض الخدمة)، فستواجه مشكلات أكبر

نصائح أخرى

وأنا حقا لا أعتقد أن تغيير ملف robots.txt هو الذهاب الى مساعدة، فقط لأن السير جيدة تلتزم به. جميع البعض تجاهله وتحليل المحتوى الخاص بك كما يشاؤون. أنا شخصيا استخدام http://www.codeplex.com/urlrewriter للتخلص من الروبوتات غير مرغوب فيها من قبل الاستجابة مع رسالة ممنوع إذا وجدوا.

ووالمتطفلين لا يهتمون ملف robots.txt. يمكنك منع لهم شيء من هذا القبيل mod_security (والذي هو البرنامج المساعد أباتشي رائع في حد ذاته). أو هل يمكن تجاهلها.

وقد تضطر إلى استخدام هتكس لحرمان بعض السير المسمار مع السجلات الخاصة بك. انظر هنا: http://spamhuntress.com/2006/02/ 13 / آخر المتعطشة-جافا بوت /

وكان لي الكثير من السير جافا الزحف على موقعي، مضيفا

وSetEnvIfNoCase عامل المستخدم ^ جافا / 1. javabot = نعم
SetEnvIfNoCase عامل المستخدم ^ Java1. javabot = نعم
حرمان من الحياة الفطرية = javabot

وجعلها تتوقف. الآن هم فقط الحصول على 403 مرة واحدة وهذا كل شيء:)

وعملت مرة واحدة لالعملاء الذين لديهم عدد من السير "مقارنة الأسعار" ضرب موقع كل الوقت. والمشكلة هي أن الموارد الخلفية لدينا كانت نادرة وتكلف المال في الصفقة.

وبعد محاولة لمحاربة بعض هذه لبعض الوقت، ولكن السير فقط إبقاء تغيير خصائصها المعروفة. لقد انتهى مع الاستراتيجية التالية:

لكل دورة على الخادم نحن مصممون إذا كان المستخدم في أي نقطة النقر بسرعة كبيرة. بعد عدد معين من التكرارات، وكنا مجموعة "isRobot" العلم صحيح ومجرد خنق أسفل سرعة الاستجابة في تلك الدورة بإضافة ينام. نحن لا نقول للمستخدم بأي حال من الأحوال، لأنه سوف نبدأ دورة جديدة في هذه القضية.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top