Вопрос

Я ищу библиотеку .NET, которая может генерировать чистое дерево Xml, в идеале System.Xml.XmlDocument, из недопустимого HTML-кода.И.Е.он должен сделать все возможное, чтобы догадаться, исправить и заменить браузеры, столкнувшись с этой ситуацией, и сгенерировать воображаемый XmlDocument.Библиотека также должна содержаться в хорошем состоянии.:)

Я понимаю, что это слишком много (слишком?) вопросов, и я буду признателен за любые полезные советы.Кажется, существует немало реализаций этого для Java, но я бы предпочел не создавать свои собственные привязки.До сих пор для .NET я нашел http://www.majestic12.co.uk/projects/html_parser.php и http://users.rcn.com/creitzel/tidy.html#dotnet, и http://sourceforge.net/projects/tidyfornet .

Я еще не создавал и не тестировал ни один из них, но судя по (редкой) документации и редким обновлениям, в них нет того, что я ищу.Итак, какие у вас есть рекомендации из этих вариантов или из вашего прошлого опыта?

Это было полезно?

Решение

А Пакет гибкости HTML имеет высокий рейтинг.Он обязательно выполнит анализ/наилучшее предположение и т. д.

Модель намеренно похожа на XmlDocument, включая SelectNodes и т. д. для выполнения запросов.

Если вам нужен вывод в формате xhtml, есть OptionOutputAsXml флаг;Я предполагаю, что установка этого значения в true и вызов Save результаты в xhtml.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top