سؤال

لقد وجدت مشروعًا ، جاكسر الذي يدمج محرك JavaScript من Firefox على جانب الخادم ، بحيث يمكن تحليل جانب الخادم HTML بشكل جيد للغاية. لكن هذا المشروع يبدو ميتاً. من المفيد حقًا لزحف صفحات الويب لتحليل البيانات HTML & استخراج.

هل هناك بعض التكنولوجيا الجديدة مفيدة لاستخراج المعلومات؟

هل كانت مفيدة؟

المحلول

ما فعلته في الماضي هو استخدام السيلينيوم RC للتحكم في متصفح الويب (عادةً ما يكون Firefox) من رمز إلى مواقع تحميل ومواقع الويب باستخدام متصفح ويب حقيقي.

الشيء الرائع في هذا الأمر هو أنك ترميز في الغالب بلغة تشعر بالراحة معها سواء كانت بيرل أو روبي أو C#. ولكن لاستخدام قوة السيلينيوم لا تزال بحاجة إلى معرفة وكتابة جافا سكريبت.

نصائح أخرى

طريقة أخرى مثيرة للاهتمام للقيام بذلك هي الاستخدام node.js بالتزامن مع jsdom و عقدة HTMLParser لتحميل صفحة وتحليل javaScript فيه. إنه لا يعمل حقًا خارج الصندوق بعد في الوقت الحالي ولكن Dav Glass (من Yahoo) كان لديه نجاح تشغيل yui في node.js باستخدام نسخة معدلة من هذا التحرير والسرد.

هذا أمر مثير للاهتمام إذا قررت أنه لا يوجد شيء جيد بما فيه الكفاية وتريد تنفيذ خاص بك. إذا كان الأمر كذلك ، فسيصنع مشروعًا مفتوح المصدر ممتازًا.

لقد حققت بعض النجاح في كتابة زاحف يدعم JS في Python + Pywebkitgtk + JavaScript. إنه أبطأ بكثير من الزاحف التقليدي ، لكنه ينجز المهمة ويمكنه القيام بأشياء رائعة مثل صنع لقطات الشاشة والتقاط محتوى "تم حجبه" بحقن JS.

هناك مقالة لائقة مع بعض رمز المثال هنا:

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

itsnat يشبه Jaxer الفرق الرئيسي هو Java ، بدلاً من JavaScript.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top