كيفية تحليل (غير منسق بشكل جيد) HTML في الروبوت؟

StackOverflow https://stackoverflow.com/questions/1805869

  •  05-07-2019
  •  | 
  •  

سؤال

وكيفية تحليل HTML غير جيد تشكلت في الروبوت؟

ولقد حاولت استخدام XOM وTagSoup، ولكن يمكنني الحصول على الخطأ التالي عند إنشاء البناء:

11-26 20:42:39.294: ERROR/dalvikvm(1298): Could not find method org.apache.xerces.impl.Version.getVersion, referenced from method nu.xom.Builder.

لا بد لي من تثبيت Xerces استخدام XOM أو يمكنني استخدام tagsoup دون XOM؟

هل كانت مفيدة؟

المحلول

وقد تجد JTidy ( http://jtidy.sourceforge.net/ ) - ميناء HTMLTidy أن تكون خفيفة الوزن بما فيه الكفاية. هذا إخراج XHTML عند الطلب

نصائح أخرى

وXOM قد تتطلب Xerces أن تكون في classpath - قد تعتمد على إصدار جافا. حاليا نستخدم

xercesImpl-2.8.0.jar
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top