مشاركة عناوين المواقع التي تمت زيارتها بين العناكب متعددة في سكرابي?
-
21-12-2019 - |
سؤال
أنا باستخدام سكرابيد لتشغيل العناكب متعددة وظائف عبر نفس المجال.افترضت كان سكرابي هاشتابل من عناوين المواقع التي تمت زيارتها أنها مشتركة ومنسقة مع العناكب الأخرى عندما زحف.عندما أقوم بإنشاء مثيلات من نفس العنكبوت بواسطة
curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.
بل يزحف نفس عناوين المواقع ويتم كشط البيانات المكررة.هل تعامل شخص ما مع مشكلة مماثلة من قبل?
المحلول
نصيحتي هي محاولة تقسيم الموقع إلى عدة start_urls
.ثم, يمكنك تمرير قيم مختلفة ل start_urls
لكل عنكبوت.
إذا كنت ترغب في الحصول على يتوهم بشكل خاص ، (أو إذا كانت الصفحات التي تريد الزحف تغيير على أساس منتظم) هل يمكن إنشاء العنكبوت الذي يزحف خريطة الموقع ، يقسم الروابط إلى n
الحمقى ، ثم يبدأ n
العناكب الأخرى للزحف في الواقع الموقع...
لا تنتمي إلى StackOverflow