مجموعة HTMLNODE و ORASING

https://stackoverflow.com/questions/1535865

20-09-2019
|

سؤال

أحاول استخراج النص الوارد في صفحة ويب. بحيث أستخدم حزمة Attmly HTML Tool Tool الثالثة. في ذلك ذكروا:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

إنه يعمل بالنسبة لي للاستيلاء على جميع الروابط الأخرى الموجودة في الصفحة. لكني أريد الحصول على جميع بيانات النص الواردة في تلك الصفحة. هل هو ممكن؟

المحلول

نعم ، هذا ممكن. قم بتنزيل التعليمات البرمجية المصدر لمشروع عينة HTMLAGILITYPACK وإلقاء نظرة على HTML2TXT ، وخاصة htmlconvert.cs. يمكنك نسخ/لصق طريقتها إلى كل ما تفعله.

أو ، لهذه المسألة ، قم بتجميع عينة مشروع كما هو ويضع إشارة إلى الثنائيات. htmlagilitypack.samples.htmltotext.convert () سوف تفعل بالضبط ما تحتاجه.

نصائح أخرى

أنت تستخدم محدد XPath هناك. إذا قمت بتحديد جميع العقد ("*") ثم قم بإجراء foreach هل ستعمل؟

ملاحظة: ما هي لغة البرمجة هذه؟

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow