كيفية تحليل (غير منسق بشكل جيد) HTML في الروبوت؟
سؤال
وكيفية تحليل HTML غير جيد تشكلت في الروبوت؟
ولقد حاولت استخدام XOM وTagSoup، ولكن يمكنني الحصول على الخطأ التالي عند إنشاء البناء:
11-26 20:42:39.294: ERROR/dalvikvm(1298): Could not find method org.apache.xerces.impl.Version.getVersion, referenced from method nu.xom.Builder.
لا بد لي من تثبيت Xerces استخدام XOM أو يمكنني استخدام tagsoup دون XOM؟
المحلول
وقد تجد JTidy ( http://jtidy.sourceforge.net/ ) - ميناء HTMLTidy أن تكون خفيفة الوزن بما فيه الكفاية. هذا إخراج XHTML عند الطلب
نصائح أخرى
وXOM قد تتطلب Xerces أن تكون في classpath - قد تعتمد على إصدار جافا. حاليا نستخدم
xercesImpl-2.8.0.jar
لا تنتمي إلى StackOverflow