Коллекция и анализ HTMLNODE
-
20-09-2019 - |
Вопрос
Я пытаюсь извлечь текст, содержащийся на веб -странице. Так что я использую третий пакет гибкости HTML Thride Tool HTML. В том, что они упомянули:
HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");
HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}
Я работает для меня, чтобы захватить все остальные ссылки, содержащиеся на странице. Но я хочу получить все текстовые данные, содержащиеся на этой странице. Является ли это возможным?
Решение
Да, это возможно. Загрузите исходный код для HTMLagilityPack и посмотрите на образцевой проект HTML2TXT, особенно htmlconvert.cs. Вы можете в значительной степени скопировать/вставить их метод во все, что вы делаете.
Или, в этом отношении, составьте образец проекта как есть и установите ссылку на двоичные файлы. Htmlagilitypack.samples.htmltotext.convert () сделает именно то, что вам нужно.
Другие советы
Вы используете там селектор XPath. Если вы выберете все узлы ("*"), а затем выполните ли это Foreach, будет ли это работать?
PS: Какой это язык программирования?