htmlnode 컬렉션 및 구문 분석
-
20-09-2019 - |
문제
웹 페이지에 포함 된 텍스트를 추출하려고합니다. 세 번째 Pary Tool HTML Agility Pack을 사용하고 있습니다. 그들은 언급했다.
HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");
HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}
페이지에 포함 된 다른 모든 링크를 가져 오는 것은 저와 함께 노력하고 있습니다. 그러나 해당 페이지에 포함 된 모든 텍스트 데이터를 얻고 싶습니다. 가능합니까?
해결책
네, 가능합니다. htmlagilitypack의 소스 코드를 다운로드하고 html2txt 샘플 프로젝트, 특히 htmlconvert.cs를 살펴보십시오. 당신은 당신이하고있는 모든 방법에 그들의 방법을 거의 복사/붙여 넣을 수 있습니다.
또는 그 문제에 대해 샘플 프로젝트를 AS-IS를 컴파일하고 바이너리에 대한 참조를 설정하십시오. htmlagilitypack.samples.htmltotext.convert ()는 필요한 것을 정확하게 수행합니다.
다른 팁
XPath 선택기를 사용하고 있습니다. 모든 노드 ( "*")를 선택한 다음 Foreach를 수행하면 작동합니까?
추신 : 이것은 어떤 프로그래밍 언어입니까?
제휴하지 않습니다 StackOverflow