كيفية تحليل (غير منسق بشكل جيد) HTML في الروبوت؟

سؤال

وكيفية تحليل HTML غير جيد تشكلت في الروبوت؟

ولقد حاولت استخدام XOM وTagSoup، ولكن يمكنني الحصول على الخطأ التالي عند إنشاء البناء:

11-26 20:42:39.294: ERROR/dalvikvm(1298): Could not find method org.apache.xerces.impl.Version.getVersion, referenced from method nu.xom.Builder.

لا بد لي من تثبيت Xerces استخدام XOM أو يمكنني استخدام tagsoup دون XOM؟

المحلول

وقد تجد JTidy ( http://jtidy.sourceforge.net/ ) - ميناء HTMLTidy أن تكون خفيفة الوزن بما فيه الكفاية. هذا إخراج XHTML عند الطلب

نصائح أخرى

وXOM قد تتطلب Xerces أن تكون في classpath - قد تعتمد على إصدار جافا. حاليا نستخدم

xercesImpl-2.8.0.jar

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow