سؤال

أحاول استخراج النص الوارد في صفحة ويب. بحيث أستخدم حزمة Attmly HTML Tool Tool الثالثة. في ذلك ذكروا:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

إنه يعمل بالنسبة لي للاستيلاء على جميع الروابط الأخرى الموجودة في الصفحة. لكني أريد الحصول على جميع بيانات النص الواردة في تلك الصفحة. هل هو ممكن؟

هل كانت مفيدة؟

المحلول

نعم ، هذا ممكن. قم بتنزيل التعليمات البرمجية المصدر لمشروع عينة HTMLAGILITYPACK وإلقاء نظرة على HTML2TXT ، وخاصة htmlconvert.cs. يمكنك نسخ/لصق طريقتها إلى كل ما تفعله.

أو ، لهذه المسألة ، قم بتجميع عينة مشروع كما هو ويضع إشارة إلى الثنائيات. htmlagilitypack.samples.htmltotext.convert () سوف تفعل بالضبط ما تحتاجه.

نصائح أخرى

أنت تستخدم محدد XPath هناك. إذا قمت بتحديد جميع العقد ("*") ثم قم بإجراء foreach هل ستعمل؟

ملاحظة: ما هي لغة البرمجة هذه؟

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top