مشاركة عناوين المواقع التي تمت زيارتها بين العناكب متعددة في سكرابي?

StackOverflow https://stackoverflow.com//questions/23047080

سؤال

أنا باستخدام سكرابيد لتشغيل العناكب متعددة وظائف عبر نفس المجال.افترضت كان سكرابي هاشتابل من عناوين المواقع التي تمت زيارتها أنها مشتركة ومنسقة مع العناكب الأخرى عندما زحف.عندما أقوم بإنشاء مثيلات من نفس العنكبوت بواسطة

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

بل يزحف نفس عناوين المواقع ويتم كشط البيانات المكررة.هل تعامل شخص ما مع مشكلة مماثلة من قبل?

هل كانت مفيدة؟

المحلول

نصيحتي هي محاولة تقسيم الموقع إلى عدة start_urls.ثم, يمكنك تمرير قيم مختلفة ل start_urls لكل عنكبوت.

إذا كنت ترغب في الحصول على يتوهم بشكل خاص ، (أو إذا كانت الصفحات التي تريد الزحف تغيير على أساس منتظم) هل يمكن إنشاء العنكبوت الذي يزحف خريطة الموقع ، يقسم الروابط إلى n الحمقى ، ثم يبدأ n العناكب الأخرى للزحف في الواقع الموقع...

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top