Biblioteca para generar XmlDocument .NET desde la sopa etiqueta HTML

https://stackoverflow.com/questions/704832

22-08-2019
|

Pregunta

Estoy buscando una biblioteca .NET que puede generar un árbol XML limpio, idealmente System.Xml.XmlDocument, a partir del código HTML válido. ES DECIR. que debería hacer el tipo de mejores estimaciones de esfuerzo, reparaciones y sustituciones de los navegadores hacer cuando se enfrentan a esta situación, y generar un XmlDocument imaginario. La biblioteca también debe estar bien mantenido. :)

Me di cuenta que es mucho (demasiado?) Para preguntar, y agradecería alguna pista útiles. Parece que hay un buen número de implementaciones de esta para Java, pero yo preferiría no generar mis propios enlaces. Hasta ahora para .NET he encontrado http://www.majestic12.co.uk/ proyectos / html_parser.php y http://users.rcn.com/ creitzel / tidy.html # dotnet y http://sourceforge.net/projects/tidyfornet.

Todavía no he construido o probado ninguno de estos, pero a partir de los documentos (parciales) y actualizaciones raras no parece que lo hacen como si tuvieran lo que estoy buscando. Entonces, ¿qué recomendaciones tiene, ya sea entre estas opciones, o de su experiencia pasada.

Solución

El HTML agilidad Paquete es muy valorado. Sin duda, hacer el análisis sintáctico / mejor conjetura etc.

El modelo es intentially similar a XmlDocument, incluyendo SelectNodes etc para consultar.

Si necesita una salida XHTML, hay una bandera OptionOutputAsXml; Asumo que este valor está a true y llamando resultados Save en XHTML.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow