سؤال

أقوم بإنشاء زاحف ويب واسع النطاق، ما هو عدد الحالات الأمثل عند الزحف إلى الويب عند تشغيله على خادم ويب مخصص موجود في مزارع خوادم الإنترنت.

هل كانت مفيدة؟

المحلول

وspare_memory_on_machine / memory_footprint_of_crawler_process * 0.95

نصائح أخرى

لإنشاء زاحف واسع النطاق، سيتعين عليك التعامل مع بعض المشكلات مثل:

• استحالة الاحتفاظ بالمعلومات كلها في قاعدة بيانات واحدة.

• ذاكرة الوصول العشوائي (RAM) غير كافية للتعامل مع الفهارس (الفهارس) الضخمة

• أداء متعدد الخيوط والتزامن

• مصائد الزاحف (حلقة لا نهائية تم إنشاؤها عن طريق تغيير عناوين URL والتقويمات ومعرفات الجلسات...) والمحتوى المكرر.

• الزحف من أكثر من جهاز كمبيوتر

• رموز HTML مشوهة

• أخطاء http المستمرة من الخوادم

• قواعد البيانات بدون ضغط، مما يجعل حاجتك إلى مساحة أكبر بحوالي 8 مرات.

• إعادة الزحف الروتينية والأولويات.

• استخدام الطلبات مع الضغط (Deflate/gzip) (جيد لأي نوع من برامج الزحف).

وبعض الأشياء المهمة

• احترام ملف robots.txt

• وتأخير الزاحف على كل طلب لعدم اختناق خوادم الويب.

سيعتمد تكوين الخيط الأمثل على الكود الخاص بك.أقوم بتشغيل 100 عملية باستخدام .net.أنصحك باستخدام فئة الجدول الزمني لتجنب المواضيع المفتوحة غير الضرورية.

ملاحظة.إذا كنت تستخدم 5 سلاسل رسائل، فسوف يستغرق الأمر سنوات للوصول إلى زحف الويب "على نطاق واسع".

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top