مجموعة HTMLNODE و ORASING
-
20-09-2019 - |
سؤال
أحاول استخراج النص الوارد في صفحة ويب. بحيث أستخدم حزمة Attmly HTML Tool Tool الثالثة. في ذلك ذكروا:
HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");
HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}
إنه يعمل بالنسبة لي للاستيلاء على جميع الروابط الأخرى الموجودة في الصفحة. لكني أريد الحصول على جميع بيانات النص الواردة في تلك الصفحة. هل هو ممكن؟
المحلول
نعم ، هذا ممكن. قم بتنزيل التعليمات البرمجية المصدر لمشروع عينة HTMLAGILITYPACK وإلقاء نظرة على HTML2TXT ، وخاصة htmlconvert.cs. يمكنك نسخ/لصق طريقتها إلى كل ما تفعله.
أو ، لهذه المسألة ، قم بتجميع عينة مشروع كما هو ويضع إشارة إلى الثنائيات. htmlagilitypack.samples.htmltotext.convert () سوف تفعل بالضبط ما تحتاجه.
نصائح أخرى
أنت تستخدم محدد XPath هناك. إذا قمت بتحديد جميع العقد ("*") ثم قم بإجراء foreach هل ستعمل؟
ملاحظة: ما هي لغة البرمجة هذه؟
لا تنتمي إلى StackOverflow