HTMLタグのスープから.NET XmlDocumentオブジェクトを生成するためのライブラリ
-
22-08-2019 - |
質問
私は、無効なHTMLコードからクリーンなXMLツリー、理想的にSystem.Xml.XmlDocumentはを、生成することができます.NETライブラリを探しています。即ちそれはこのような状況に直面したときにブラウザが行うベストエフォート推測、修理、および置換のようなものを作り、ふりをXmlDocumentを生成する必要があります。また、ライブラリには、よく維持されるべきです。 :)
私はこれが依頼する(すぎ?)たくさんあると認識し、私は、任意の有用なリードをいただければ幸いです。そこのJavaのため、この実装のかなりの数のように見えるが、私はむしろ、自分のバインディングを生成しないでしょう。これまでのところ、.NETのために、私が発見した http://www.majestic12.co.uk/プロジェクト/ html_parser.php と http://users.rcn.com/ creitzel / tidy.html#のDOTNET に、そして http://sourceforge.net/projects/tidyfornet。
私はまだ構築された、またはこれらのいずれかをテストしたが、彼らは私が探しているものを持っているように(スパース)ドキュメントや珍しいアップデートから、彼らはいないようですしていません。ですから、これらの選択肢の中で、またはあなたの過去の経験からいずれか、どのような勧告を持っています。
解決
高く評価されの HTML敏捷性パック。それは確かに最高の推測など/解析を行います。
モデルを照会するためSELECTNODESなどを含め、常にXmlDocumentにintentially同様である。
あなたは、XHTML出力が必要な場合は、、OptionOutputAsXml
フラグがあります。私はこれをtrueに設定すると、XHTMLでSave
結果を呼び出すことを前提としています。