Library .NET XmlDocument von HTML-Tag zu generieren Suppe

https://stackoverflow.com/questions/704832

22-08-2019
|

Frage

Ich suche nach einer .NET-Bibliothek, die eine saubere XML-Struktur erzeugen kann, im Idealfall System.Xml.XmlDocument, von ungültigem HTML-Code. I.E. es sollte die Art von Best-Effort-Vermutungen, Reparaturen und Ersetzungen Browser tun, wenn sie mit dieser Situation konfrontiert, und eine pretend XmlDocument erzeugen. Die Bibliothek sollte auch gut gepflegt sein. :)

Ich weiß, das ist eine Menge (zu viel?) Zu fragen, und ich möchte alle nützlichen Leitungen zu schätzen wissen. Es scheint eine ganze Reihe von Implementierungen dieses für Java zu sein, aber ich würde lieber nicht meine eigenen Bindungen erzeugen. Bisher für .NET habe ich gefunden http://www.majestic12.co.uk/ Projekte / html_parser.php und http://users.rcn.com/ creitzel / tidy.html # dotnet und http://sourceforge.net/projects/tidyfornet.

Ich habe noch nicht gebaut oder eine dieser getestet, sondern von den (spärlichen) docs und seltenem Updates sie nicht scheinen, wie sie das, was ich suche. Also, welche Empfehlungen haben Sie entweder unter diesen Entscheidungen oder aus der Vergangenheit Erfahrung.

Lösung

Die HTML Agility Pack- hoch bewertet wird. Es wird sicherlich das Parsen tun / gut erraten etc.

Das Modell ist intentially ähnlich wie XmlDocument, einschließlich Select etc für die Abfrage.

Wenn Sie xhtml Ausgang benötigen, gibt es eine OptionOutputAsXml Flagge; Ich gehe davon aus, dass dies auf true setzen und Save Ergebnisse in xhtml aufrufen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow