سؤال

لقد كتبت رمز C # الذي يستخدم مكتبة HTMLAGIMEPACK من أجل كشط صفحة موجودة في: أكبر المناطق الحضرية في العالم (صفحة 2). وبعد لسوء الحظ، تتكون الصفحة من محتوى مشوه.

أنا في مأزق حول كيفية كشط هذه الصفحة. الرمز الحالي لدي (الظهور أدناه) يتجمد على تحليل HTML:

 HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
 CityNodes = (from node in cityRecords.Descendants()
              where node.Name == "td"
              select node).ToList();

الهدف هو تحليل كل مدينة مدرجة في الصفحة مع كل نقطة من نقاط البيانات؛ لا شيء آخر. تبحث عن توصيات حول كيفية تعديل الرمز أعلاه أو استخدام مكتبة أخرى متاحة بحرية.

شكرا!

هل كانت مفيدة؟

المحلول

قم بتشغيل المحتوى من خلال HTML Tidy قبل تحليله.

http://tidy.sourceforge.net/

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top