Bibliothèque pour générer XmlDocument .NET de soupe tag HTML

https://stackoverflow.com/questions/704832

22-08-2019
|

Question

Je suis à la recherche d'une bibliothèque .NET qui peut générer un arbre de Xml propre, idéalement System.Xml.XmlDocument, à partir du code HTML invalide. C'EST À DIRE. il devrait faire le genre de meilleures estimations de l'effort, les réparations et les navigateurs de substitutions faire lorsqu'ils sont confrontés à cette situation, et générer un XmlDocument faire semblant. La bibliothèque devrait également être bien entretenu. :)

Je sais que cela est beaucoup (trop?) De demander, et je vous serais reconnaissant de toutes les pistes utiles. Il semble y avoir un bon nombre d'implémentations de ce Java, mais je préfère ne pas générer mes propres liaisons. Jusqu'à présent, pour .NET J'ai trouvé http://www.majestic12.co.uk/ projets / html_parser.php et http://users.rcn.com/ creitzel / tidy.html # DotNet et http://sourceforge.net/projects/tidyfornet.

Je semble pas encore construit ou testé aucun d'entre eux, mais des (rares) docs et mises à jour rares, ils ne pas qu'ils ont ce que je cherche. Alors, quelles recommandations avez-vous, que ce soit parmi ces choix, ou de votre expérience passée.

La solution

Le HTML Agilité pack est de premier ordre. Il va certainement faire l'analyse syntaxique / etc mieux deviner.

Le modèle est similaire à intentially XmlDocument, y compris SelectNodes etc pour l'interrogation.

Si vous avez besoin d'une sortie xhtml, il y a un drapeau OptionOutputAsXml; Je suppose que ce paramètre à true et appelant les résultats de Save en xhtml.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow