문제

웹 페이지에 포함 된 텍스트를 추출하려고합니다. 세 번째 Pary Tool HTML Agility Pack을 사용하고 있습니다. 그들은 언급했다.

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

페이지에 포함 된 다른 모든 링크를 가져 오는 것은 저와 함께 노력하고 있습니다. 그러나 해당 페이지에 포함 된 모든 텍스트 데이터를 얻고 싶습니다. 가능합니까?

도움이 되었습니까?

해결책

네, 가능합니다. htmlagilitypack의 소스 코드를 다운로드하고 html2txt 샘플 프로젝트, 특히 htmlconvert.cs를 살펴보십시오. 당신은 당신이하고있는 모든 방법에 그들의 방법을 거의 복사/붙여 넣을 수 있습니다.

또는 그 문제에 대해 샘플 프로젝트를 AS-IS를 컴파일하고 바이너리에 대한 참조를 설정하십시오. htmlagilitypack.samples.htmltotext.convert ()는 필요한 것을 정확하게 수행합니다.

다른 팁

XPath 선택기를 사용하고 있습니다. 모든 노드 ( "*")를 선택한 다음 Foreach를 수행하면 작동합니까?

추신 : 이것은 어떤 프로그래밍 언어입니까?

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top