سؤال

أنا أستخدم Cyberneko حاليًا في محاولة للاستيلاء على المعلومات التي أريدها من موقع ويب. ومع ذلك ، أعتقد أن موقع الويب يتحقق من إصدار وكيل المستخدم/المستعرض للاحتفاظ به من مجرد الاستيلاء على محتوى عنوان URL.

أنا على دراية باستخدام HTMLUnit لتغيير إصدار المتصفح ، ولكن لست متأكدًا مما إذا كان بإمكاني القيام بذلك باستخدام Cyberneko.

هل يعرف أي شخص ما إذا كان من الممكن فعل شيء من هذا القبيل؟

هل كانت مفيدة؟

المحلول

لم أستخدم Cyberneko مطلقًا ، لكنني اعتقدت أنه مجرد محلل HTML ، أي لم أكن أعتقد أنه يمكنك استخدامه لإصدار طلبات HTTP وفي الواقع تحميل صفحة الويب.

قد يكون حقيقة أن طلب HTTP الصادر عن Cyberneko يفتقد العديد من الرؤوس مثل رأس وكيل المستخدم. هناك طريقة سهلة للتأكد من أن طلب HTTP يبدو وكأنه طلب تم إرساله من المتصفح هو استخدام HTTPClient بدلاً من Cyberneko لتنزيل صفحة الويب. هناك بعض رمز المثال المتاح هنا.

بمجرد تنزيل الصفحة بنجاح ، استخدم Cyberneko لتحليل البتات التي تهتم بها.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top