Bibliothèque pour générer XmlDocument .NET de soupe tag HTML
-
22-08-2019 - |
Question
Je suis à la recherche d'une bibliothèque .NET qui peut générer un arbre de Xml propre, idéalement System.Xml.XmlDocument, à partir du code HTML invalide. C'EST À DIRE. il devrait faire le genre de meilleures estimations de l'effort, les réparations et les navigateurs de substitutions faire lorsqu'ils sont confrontés à cette situation, et générer un XmlDocument faire semblant. La bibliothèque devrait également être bien entretenu. :)
Je sais que cela est beaucoup (trop?) De demander, et je vous serais reconnaissant de toutes les pistes utiles. Il semble y avoir un bon nombre d'implémentations de ce Java, mais je préfère ne pas générer mes propres liaisons. Jusqu'à présent, pour .NET J'ai trouvé http://www.majestic12.co.uk/ projets / html_parser.php et http://users.rcn.com/ creitzel / tidy.html # DotNet et http://sourceforge.net/projects/tidyfornet.
Je semble pas encore construit ou testé aucun d'entre eux, mais des (rares) docs et mises à jour rares, ils ne pas qu'ils ont ce que je cherche. Alors, quelles recommandations avez-vous, que ce soit parmi ces choix, ou de votre expérience passée.
La solution
Le HTML Agilité pack est de premier ordre. Il va certainement faire l'analyse syntaxique / etc mieux deviner.
Le modèle est similaire à intentially XmlDocument, y compris SelectNodes etc pour l'interrogation.
Si vous avez besoin d'une sortie xhtml, il y a un drapeau OptionOutputAsXml
; Je suppose que ce paramètre à true et appelant les résultats de Save
en xhtml.