تبحث عن بديل مجاني لـ Webzinc .NET ، كشط الشاشة ، مكتبات أتمتة الويب لـ .NET [مغلقة

StackOverflow https://stackoverflow.com/questions/1951753

سؤال

لقد جئت عبر مكتبة .NET:

http://www.webzinc.com/online/faq.aspx

ومع ذلك ، كنت أتساءل عما إذا كان هناك بديل مجاني هناك؟

هل كانت مفيدة؟

المحلول

بناء الروبوتات ليس بهذه الصعوبة ، وهناك عدد من الكتب التي تصف الخوارزمية العامة للقيام بذلك (سيحضر بحث Google البسيط عددًا من الخوارزميات).

إن jist منه من .net incpecitve هو بشكل متكرر:

  • تنزيل الصفحات - يتم ذلك من خلال HttpWebRequest/HttpWebResponse, ، أو ال WebClient الطبقات. أيضا ، يمكنك استخدام الجديد واجهة برمجة تطبيقات WCF Web من CodePlex, ، وهو أ واسع تحسين على ما سبق ، ويعني خصيصًا لإنتاج/استهلاك محتوى REST ، وهو يعمل بشكل رائع لأغراض العنكبوت (بشكل رئيسي بسبب قابلية التوسيع)

  • تحليل المحتوى الذي تم تنزيله - أنا بشدة نوصي HTML ATCILITY PACK وكذلك فيزلر امتداد حزمة خفة الحركة HTML. ستتعامل حزمة HTML Agility مع HTML المشوهة وتسمح لك بالاستعلام عن عناصر HTML باستخدام XPath (أو مجموعة فرعية من). بالإضافة إلى ذلك ، سيسمح لك Fizzler بالاستخدام محددات CSS إذا كنت معتادا على استخدامها في jQuery.

  • بمجرد حصولك على HTML بتنسيق منظم ، قم بمسح بنية المحتوى ذي الصلة بك ومعالجته.

    • مسح التنسيق المهيكلة للروابط الخارجية ووضعه في قائمة الانتظار المراد معالجتها (مقابل أي قيود تريدها لتطبيقك ، فأنت لا تفهرس الويب بأكمله ، هل أنت؟).

    • احصل على العنصر التالي في قائمة الانتظار ، وكرر العملية مرة أخرى.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top