استخراج شعبة المحتوى من htmlsource في سلسلة (جافا)

https://stackoverflow.com/questions/836462

08-07-2019
|

سؤال

وأنا أحاول لاستخراج المحتوى من شعبة العلامة الخاصة (التي يحددها اسم_الفئة له) من سلسلة تحتوي على مصدر أتش تي أم أل. أعتقد أن ميزات التعبير العادي جافا ليست سهلة الاستخدام كما في بيرل، أليس كذلك؟

لا أحد فعل ذلك من قبل ويمكن أن تعطيني قطعة من التعليمات البرمجية؟ ربما دوم التصفح هو حل جيد، ولكن لم يتم العثور على أي دروس خصوصية، مطابقة لمشكلتي.

المحلول

وبناء على تعليقاتكم يبدو وكأنه لديك حالة عامة ( "الزاحف")، وبالتالي كنت تحليل ملف XML بشكل فعال. إذا كانت الصفحة المصدر هي XHTML، ثم لديك مجموعة متنوعة من الخيارات في مختلف المكتبات XML. (JDom، على سبيل المثال).

نصائح أخرى

هل يمكن استخدام HTML محلل أو بعض أخرى HTML مكتبة تحليل من هذا <وأ href = "HTTP: //java-source.net/open-source/html-parsers "يختلط =" نوفولو noreferrer "> قائمة .

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow