我在寻找能够产生一个干净的XML树,最好System.Xml.XmlDocument,从无效的HTML代码中的.NET库。 I.E.它应该做出怎样尽力猜测,修理,而当这种情况面临替代的浏览器做,并生成假装XmlDocument的。图书馆也应该是很好的维护。 :)

我意识到这是很多(太多了吗?)要问了,我将不胜感激任何有用的线索。似乎有相当数量的对Java的这种实现的,但我宁愿不产生自己的绑定。到目前为止,对于.NET,我发现 http://www.majestic12.co.uk/项目/ html_parser.php http://users.rcn.com/ creitzel / tidy.html#DOTNET http://sourceforge.net/projects/tidyfornet

我没有建成或测试任何这些,但是从(疏)文档和罕见的更新,他们似乎并不像他们有什么我要找的。那么建议你有,这两种选择中,或从过去的经验。

有帮助吗?

解决方案

HTML敏捷性包是高度评价。这肯定会做解析/最好的猜测等。

该模型是intentially类似于XmlDocument的,包括的SelectNodes等进行查询。

如果您需要的XHTML输出,还有一个OptionOutputAsXml标志;我假定这设置为true,并在XHTML调用Save结果。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top