أفضل مكتبة مفتوحة المصدر أو التطبيق للزحف ومواقع الويب من الألغام

StackOverflow https://stackoverflow.com/questions/759363

سؤال

أود أن أعرف ما هي أفضل مكتبة مصدر EOPEN للزحف وتحليل المواقع. مثال واحد سيكون وكالات عقارية مجنزرة، حيث أرغب في الاستيلاء على المعلومات من عدد من المواقع وتجميعها في موقعي الخاص. لذلك، أحتاج إلى الزحف المواقع واستخراج إعلانات العقارات.

هل كانت مفيدة؟

المحلول

أقوم بالكثير من القصاصات باستخدام حزم بيثون ممتازة Urllib2., ميكانيكية و جميلة.

أقترح أيضا أن ننظر إلى lxml. و الرملي, على الرغم من أنني لا أستخدمها حاليا (لا تزال تخطط لتجربة Scrapy).

تحتوي لغة بيرل أيضا على مرافق رائعة للخرطات.

نصائح أخرى

PHP / Curl هو مزيج قوي للغاية، خاصة إذا كنت ترغب في استخدام النتائج مباشرة في صفحة ويب ...

مشترك مع السيد موروزوف، أفعل قليلا من التجريف أيضا، أساسا مواقع العمل. لم أضطر إلى اللجوء إلى ميكانيكية، إذا كان ذلك يساعد أي شيء. الجميلات الجميلة مع Urllib2 كانت دائما كافية.

لقد استخدمت LXML، وهو رائع. ومع ذلك، أعتقد أنه ربما لم يكن متاحا مع تطبيقات Google قبل بضعة أشهر عندما جربته، إذا كنت بحاجة إلى ذلك.

شكري يرجع إلى السيد موروزوف للذكر على الرملي. لم يسمع به.

إلى جانب الرملي، يجب عليك أيضا أن ننظر في شبه حظي

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top