質問

Webページに含まれるテキストを抽出しようとしています。 3番目のPary Tool HTML Agility Packを使用しています。彼らが言及したという点で:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

ページに含まれる他のすべてのリンクを取得するために機能しています。しかし、そのページに含まれるすべてのテキストデータを取得したいと思います。出来ますか?

役に立ちましたか?

解決

うん、それは可能です。 htmlagilitypackのソースコードをダウンロードし、HTML2TXTサンプルプロジェクト、特にhtmlconvert.csをご覧ください。あなたは彼らの方法をあなたがしていることを何でもコピー/貼り付けることができます。

または、そのために、サンプルプロジェクトをAS-ISにコンパイルし、バイナリへの参照を設定します。 htmlagilitypack.samples.htmltotext.convert()は、必要なことを正確に実行します。

他のヒント

そこでXPathセレクターを使用しています。すべてのノード( "*")を選択して、それが機能しますか?

PS:これはどのようなプログラミング言語ですか?

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top