Domanda

Sto cercando una libreria .NET che può generare un albero Xml pulito, idealmente System.Xml.XmlDocument, dal codice HTML valido. OSSIA dovrebbe fare il tipo di congetture migliori sforzo, riparazioni e sostituzioni browser che fare di fronte a questa situazione, e generare un XmlDocument finta. La biblioteca dovrebbe anche essere ben mantenuto. :)

Mi rendo conto che questo è molto (troppo?) A chiedere, e gradirei qualche indizio utile. Sembra che ci siano un discreto numero di implementazioni di questo per Java, ma preferirei non generare i miei attacchi. Finora per NET ho trovato http://www.majestic12.co.uk/ progetti / html_parser.php e http://users.rcn.com/ creitzel / tidy.html # dotnet e http://sourceforge.net/projects/tidyfornet.

Non ho ancora costruito o provato uno di questi, ma dalla documentazione (sparse) e aggiornamenti rari che non sembrano come se avessero quello che sto cercando. Allora, cosa raccomandazioni avete, sia tra queste scelte, o dalla vostra esperienza passata.

È stato utile?

Soluzione

Il HTML Agility pacchetto è molto apprezzato. Sarà certamente fare il parsing / migliore indovinare etc.

Il modello è simile a XmlDocument intentially, tra cui SelectNodes ecc per l'interrogazione.

Se avete bisogno di output xhtml, c'è una bandiera OptionOutputAsXml; Presumo che l'impostazione di questo vero e chiamando risultati Save in XHTML.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top