كيفية تجريد سمات HTML باستثناء "SRC" و "Alt" في Java
سؤال
كيف يمكنني تجريد جميع الصفات من علامات HTML في سلسلة، باستثناء "Alt" و "SRC" باستخدام Java؟
ومزيد من .. كيف يمكنني الحصول على المحتوى من سمات "SRC" في السلسلة؟
:)
المحلول 2
حسنا، حل هذا بطريقة أو بأخرى.
استخدم مكتبة HTMLCleaner لتحليل بيانات الإدخال بتنسيق صالح.
ثم استخدم محلل دوم لتكرار أكثر من كل شيء، وشريط جميع العلامات والسمات غير المسموح بها.
(وبعض الخارقة القبيحة القبيحة؛))
هذا كان نوعا من الكثير من العمل.
نصائح أخرى
يمكنك:
- تنفيذ أ ساكس المحلل;
- بنيت وثيقة مع محلل دوم, ، امشي بها وتقليمها ثم تعود إلى أتش تي أم أل. أو
- استخدام an. تحول الهوية في XSLT (على افتراض وجود HTML بتنسيق XHTML أو يمكن تحويله إليه، قل، جيتي) مع بعض الحالات الإضافية لإزالة السمات التي لا تريدها.
مهما فعلت، لا تحاول أن تفعل ذلك مع تعبيرات منتظمة.
لا تنتمي إلى StackOverflow