Htmlnode recogida y el análisis
-
20-09-2019 - |
Pregunta
Estoy tratando de extraer el texto contenido en una página web. Así que estoy usando una tercera herramienta pary HTML agilidad paquete. En ese mencionaron:
HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");
HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}
Se está trabajando para mí para agarrar todos los demás enlaces contenidos en una página. Pero quiero obtener todos los datos de texto contenidos en esa página. ¿Es posible?
Solución
Sí, es posible. Descargar el código fuente de la HtmlAgilityPack y echar un vistazo en el proyecto de ejemplo Html2Txt, particularmente HtmlConvert.cs. Se puede casi copiar / pegar su método en lo que sea que estás haciendo.
O, para el caso, compilar el proyecto de ejemplo como está y establecer una referencia a los binarios. HtmlAgilityPack.Samples.HtmlToText.Convert () va a hacer exactamente lo que necesita.
Otros consejos
está utilizando un selector XPath allí. Si selecciona todos los nodos ( "*") y luego realizar la foreach ¿funcionaría?
PS: ¿qué lenguaje de programación es esto