Вопрос

Я пытаюсь извлечь текст, содержащийся на веб -странице. Так что я использую третий пакет гибкости HTML Thride Tool HTML. В том, что они упомянули:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

Я работает для меня, чтобы захватить все остальные ссылки, содержащиеся на странице. Но я хочу получить все текстовые данные, содержащиеся на этой странице. Является ли это возможным?

Это было полезно?

Решение

Да, это возможно. Загрузите исходный код для HTMLagilityPack и посмотрите на образцевой проект HTML2TXT, особенно htmlconvert.cs. Вы можете в значительной степени скопировать/вставить их метод во все, что вы делаете.

Или, в этом отношении, составьте образец проекта как есть и установите ссылку на двоичные файлы. Htmlagilitypack.samples.htmltotext.convert () сделает именно то, что вам нужно.

Другие советы

Вы используете там селектор XPath. Если вы выберете все узлы ("*"), а затем выполните ли это Foreach, будет ли это работать?

PS: Какой это язык программирования?

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top