سؤال

كيف يمكنني تجريد جميع الصفات من علامات HTML في سلسلة، باستثناء "Alt" و "SRC" باستخدام Java؟

ومزيد من .. كيف يمكنني الحصول على المحتوى من سمات "SRC" في السلسلة؟

:)

هل كانت مفيدة؟

المحلول 2

حسنا، حل هذا بطريقة أو بأخرى.

استخدم مكتبة HTMLCleaner لتحليل بيانات الإدخال بتنسيق صالح.

ثم استخدم محلل دوم لتكرار أكثر من كل شيء، وشريط جميع العلامات والسمات غير المسموح بها.

(وبعض الخارقة القبيحة القبيحة؛))

هذا كان نوعا من الكثير من العمل.

نصائح أخرى

يمكنك:

  • تنفيذ أ ساكس المحلل;
  • بنيت وثيقة مع محلل دوم, ، امشي بها وتقليمها ثم تعود إلى أتش تي أم أل. أو
  • استخدام an. تحول الهوية في XSLT (على افتراض وجود HTML بتنسيق XHTML أو يمكن تحويله إليه، قل، جيتي) مع بعض الحالات الإضافية لإزالة السمات التي لا تريدها.

مهما فعلت، لا تحاول أن تفعل ذلك مع تعبيرات منتظمة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top