سؤال

لدي سلسلة Java مع SGML ، شيء من هذا القبيل ...

<misspell></misspell><plain>I</plain> <plain>know</plain> <plain>you</plain> <suggestion>ducky</suggestion> <plain>suck</plain> <plain>and</plain> <plain>I</plain> <plain>rocky</plain> <plain>rock</plain>

كيف يمكنني تحليلها للحصول على النص على سبيل المثال <suggestion> </suggestion>حتى للحصول على "Ducky" ؟؟

هل يمكن أن يكون javax.swing.text.html.parser.parse أي مساعدة؟ أو لا يمكنني سوى تحليل مستندات HTML معها؟

هل كانت مفيدة؟

المحلول

السلسلة التي تظهرها ليست HTML ، ولكن يمكن تحليلها محلل XML.

ال SAX API هو جزء من JDK و AFAIK معظم محلات XML تنفذها.

نصائح أخرى

جرب محلل HTML ، فهي (بالضرورة) تسامح تمامًا من العلامات المشوهة و HTML بطبيعتها تستند إلى SGML.

على سبيل المثال http://htmlparser.sourceforge.net/

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top