Pregunta

Estoy tratando de extraer el texto contenido en una página web. Así que estoy usando una tercera herramienta pary HTML agilidad paquete. En ese mencionaron:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

Se está trabajando para mí para agarrar todos los demás enlaces contenidos en una página. Pero quiero obtener todos los datos de texto contenidos en esa página. ¿Es posible?

¿Fue útil?

Solución

Sí, es posible. Descargar el código fuente de la HtmlAgilityPack y echar un vistazo en el proyecto de ejemplo Html2Txt, particularmente HtmlConvert.cs. Se puede casi copiar / pegar su método en lo que sea que estás haciendo.

O, para el caso, compilar el proyecto de ejemplo como está y establecer una referencia a los binarios. HtmlAgilityPack.Samples.HtmlToText.Convert () va a hacer exactamente lo que necesita.

Otros consejos

está utilizando un selector XPath allí. Si selecciona todos los nodos ( "*") y luego realizar la foreach ¿funcionaría?

PS: ¿qué lenguaje de programación es esto

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top