Biblioteca para gerar .NET XmlDocument de sopa de marca HTML

https://stackoverflow.com/questions/704832

22-08-2019
|

Pergunta

Eu estou procurando uma biblioteca .NET que pode gerar uma árvore XML limpo, idealmente System.Xml.XmlDocument, a partir do código HTML inválido. OU SEJA ele deve fazer o tipo de melhores suposições esforço, reparos e substituições navegadores fazer quando confrontado com esta situação, e gerar um XmlDocument fingir. A biblioteca também deve ser bem conservado. :)

Sei que isso é muito (demasiado?) Para perguntar, e eu gostaria de receber todas as ligações úteis. Parece haver um bom número de implementações deste para Java, mas eu prefiro não gerar minhas próprias ligações. Até agora for .NET eu encontrei http://www.majestic12.co.uk/ projectos / html_parser.php e http://users.rcn.com/ creitzel / tidy.html # dotnet e http://sourceforge.net/projects/tidyfornet.

Eu ainda não construídos ou testado qualquer um desses, mas a partir dos (escassos) docs e actualizações raros que não parece que eles têm o que eu estou procurando. Então, o que recomendações você tem, quer entre estas escolhas, ou a partir de sua experiência passada.

Solução

O HTML agilidade pack é altamente cotados. Ele certamente vai fazer a análise / melhor acho etc.

O modelo é semelhante ao intentially XmlDocument, incluindo SelectNodes etc para consulta.

Se você precisar de saída xhtml, há uma bandeira OptionOutputAsXml; Presumo que esta configuração para true e chamando resultados Save em xhtml.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow