سؤال

(لقد رأيت أسئلة مماثلة ، لكنني أعتقد أن أيًا منهم يلبي احتياجاتي المحددة ، وبالتالي ...)

أود أن أعرف ما إذا كانت هناك مكتبة Java لتحليل العالم الحقيقي (اقرأ: غير مكتمل ، غير مؤهل) HTML. عن طريق التحليل ، أعني أشياء مثل:

  • اكتشاف اللون الأبرز في قطعة HTML
  • تغيير هذا اللون إلى بعض الألوان الأخرى (وبالتالي ، يجب أن يدعم تعديل HTML أيضًا)
  • تشذيب العلامات غير المرغوب فيها
  • إصلاح HTML ليؤدي إلى مقتطف HTML جيدا

تتم أجزاء من آخر اثنين من قبل المكتبات مثل أريحا وجتيدي. "الإضافات" على رأس هذه ستكون رائعة.

شكرا لك مقدما!

هل كانت مفيدة؟

المحلول

قد ترغب في التحقق من TagSoup:

http://home.ccil.org/~cowan/xml/tagsoup/

نصائح أخرى

حسنًا ، سأرتبها أولاً في XML صالحة ، ثم باستخدام XSLT ، قم بعمل نسخة عميقة مشروطة حيث سأقوم بأكثر الألوان/التقليم/التقليم/أيًا من المعالجة التي تحتاجها.

ألق نظرة على jtidy, ، منفذ جافا HTML مرتبة. سيؤدي ذلك ، بناءً على الخيارات التي تختارها ، وإصلاح HTML غير الممتاز وتنظيفها بطريقة أخرى.

ستحتاج إلى شيء آخر للأشياء المتغيرة للألوان.

ربما ستجد شيئًا في هذه القائمة (جرب TagSoup ، nekohtml ، vietspider htmlparser).

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top