الحصول على العناصر حسب النوع في HTML مشوهة

https://stackoverflow.com/questions/1712464

19-09-2019
|

سؤال

ما هي أسهل طريقة في جافا لاسترداد جميع العناصر مع نوع معين في صفحة HTML مشوهة؟ لذلك أريد أن أفعل شيئا مثل هذا:

public static void main(String[] args) {
    // Read in an HTML file from disk
    // Retrieve all INPUT elements regardless of whether the HTML is well-formed
    // Loop through all elements and retrieve their ids if they exist for the element
}

المحلول

htmlleaner. يمكن القول أن أحد أفضل محلل HTML هناك عندما يتعلق الأمر بالتعامل مع HTML (إلى حد ما) مشوهة.

الوثائق هي هنا مع بعض عينات التعليمات البرمجية؛ أنت تبحث أساسا عن getElementsByName() طريقة.

إلقاء نظرة على مقارنة من محلل جافا HTML إذا كنت تفكر في مكتبات أخرى.

نصائح أخرى

كان لدي نجاح باستخدام Tagsup. وبعد هيريس وصف قصير من صفحتهم الرئيسية:

هذه هي الصفحة الرئيسية للصفحة من Tagsup، وهي محلل متوافقة مع SAX مكتوبة في جافا، بدلا من تحليل XML أو سحق XML بشكل جيد أو ساري المفعول، بتسوية HTML كما تم العثور عليها في البرية: الفقراء، سيئة وحشية، على الرغم من ذلك كثيرا من القصور وبعد تم تصميم Tagsup للأشخاص الذين يتعين عليهم معالجة هذه الأشياء باستخدام بعض المشاركات من تصميم تطبيقات عقلانية. من خلال توفير واجهة SAX، فإنه يسمح بتطبيق أدوات XML القياسية على أسوأ HTML. تتضمن Tagneup أيضا معالج سطر الأوامر يقوم بقراءة ملفات HTML ويمكن أن تولد إما HTML نظيف أو XML من XML بشكل جيد وهو تقريب وثيق إلى XHTML.

يفحص جيتي.

Jtidy هو ميناء جافا من HTML Tidy، مدقق بناء جملة HTML وطابعة جميلة. مثل ابن عمها غير Java، يمكن استخدام JTIDY كأداة لتنظيف HTML المشوه والخلفي. بالإضافة إلى ذلك، يوفر JTIDY واجهة DOM للمستند الذي تتم معالجته، مما يجعلك بفعالية قادرا على استخدام JTIDY كحلل دوم ل HTML العالم الحقيقي.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow