مشكلة تجريف صفحة الويب مع محتوى مشوه
-
19-09-2019 - |
سؤال
لقد كتبت رمز C # الذي يستخدم مكتبة HTMLAGIMEPACK من أجل كشط صفحة موجودة في: أكبر المناطق الحضرية في العالم (صفحة 2). وبعد لسوء الحظ، تتكون الصفحة من محتوى مشوه.
أنا في مأزق حول كيفية كشط هذه الصفحة. الرمز الحالي لدي (الظهور أدناه) يتجمد على تحليل HTML:
HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
CityNodes = (from node in cityRecords.Descendants()
where node.Name == "td"
select node).ToList();
الهدف هو تحليل كل مدينة مدرجة في الصفحة مع كل نقطة من نقاط البيانات؛ لا شيء آخر. تبحث عن توصيات حول كيفية تعديل الرمز أعلاه أو استخدام مكتبة أخرى متاحة بحرية.
شكرا!
المحلول
قم بتشغيل المحتوى من خلال HTML Tidy قبل تحليله.
لا تنتمي إلى StackOverflow