Pregunta

# Código c

He escrito que utiliza la biblioteca HtmlAgilityPack con el fin de raspar una página ubicada en: Más Grande del Mundo Las áreas urbanas (Página 2) . Por desgracia, la página se compone de contenido con formato incorrecto.

Estoy en un punto muerto sobre cómo raspar esta página. El código actual He (que aparece más abajo) se congela en analizar el código HTML:

 HtmlNodeCollection cityRecords = _htmlDocument.DocumentNode.SelectNodes("//table[@class='boldtable']//tr[position() != 1]");
 CityNodes = (from node in cityRecords.Descendants()
              where node.Name == "td"
              select node).ToList();

El objetivo es analizar todos y cada ciudad que aparece en la página con cada uno de los puntos de datos; nada mas. Buscando recomendaciones sobre cómo modificar el código anterior o utilizar otra biblioteca de libre acceso.

Gracias!

¿Fue útil?

Solución

Ejecutar el contenido a través de HTML Tidy antes de analizarlo.

http://tidy.sourceforge.net/

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top