سؤال

ما زلت قادمًا جديدًا لـ Python ، لذلك آمل ألا يكون هذا السؤال غير متاح.

كلما زادت جوجل لحلول تجريف الويب ، كلما أصبحت أكثر حيرة (غير قادر على رؤية غابة ، على الرغم من التحقيق في العديد من الأشجار ..)

لقد قرأت وثائق حول عدد من المشاريع ، بما في ذلك (على سبيل المثال لا الحصر) Scrapy Mechanize Spynner

لكن لا يمكنني حقًا معرفة المطرقة التي يجب أن أحاول استخدامها ..

هناك صفحة محددة أحاول الزحف (www.schooldigger.com) وهي تستخدم ASP ، وهناك بعض نص Java أحتاج إلى أن أكون قادرًا على محاكاة.

أنا أدرك أن هذا النوع من المشكلات لا يتم التعامل معه بسهولة ، لذلك أحب أي إرشادات.

بالإضافة إلى بعض النقاش العام للخيارات المتاحة (والعلاقات بين المشاريع المختلفة ، إن أمكن) لدي بعض الأسئلة المحددة

  1. عند استخدام Scrapy ، هل هناك أي طريقة لتجنب تحديد "العناصر" التي يتم تحليلها ، وتنزيل أول مئات من الصفحات أو نحو ذلك؟ لا أرغب فعليًا في تنزيل مواقع الويب بأكملها ، لكنني أود أن أكون قادرًا على معرفة الصفحات التي يتم تنزيلها أثناء تطوير المكشطة.

  2. ميكانيكي ، ASP و JavaScript ، يرجى الاطلاع على سؤال نشرته ولكن لم أر أي إجابات على ،https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. لماذا لا تبني نوعًا من الأداة المساعدة (إما تطبيق Turbogears أو سد متصفح) يتيح للمستخدم تحديد الروابط لمتابعة العناصر والحالة البيئية؟ كل ما أقترحه هو نوع من واجهة المستخدم الرسومية للجلوس حول واجهة برمجة تطبيقات التحليل. لا أعرف ما إذا كان لدي المعرفة الفنية لإنشاء مثل هذا المشروع ، لكنني لا أرى سبب عدم إمكانية ذلك ، في الواقع ، يبدو أنه ممكن بالنظر إلى ما أعرفه عن Python. ربما بعض التعليقات حول المشكلات التي سيواجهها هذا النوع من المشروع؟

  4. الأهم من ذلك ، هل كل زحف الويب مصممة "موقع محدد"؟ يبدو لي أنني أعيد اختراع العجلة في الكود الخاص بي .. (ولكن هذا ربما لأنني لست جيدًا في البرمجة)

  5. أي شخص لديه أي أمثلة من الكاشطات التي تم إيصالها بالكامل؟ هناك الكثير من الأمثلة في الوثائق ، (التي كانت تدرسها) ، لكن يبدو أنها تركز جميعها على البساطة ، لمجرد تعرض استخدام الحزمة ، ربما استفد من مثال أكثر تفصيلاً/ تعقيدًا.

شكرا لأفكارك.

هل كانت مفيدة؟

المحلول

لتفاعل المتصفح الكامل ، من الأفضل أن تنظر إلى استخدامها السيلينيوم RC

يحتوي هذا على برنامج تشغيل Python ويمكنك نص المستعرض "للاختبار" حول أي موقع على الإنترنت

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top