문제

Invalid HTML 코드에서 깨끗한 XML 트리, 이상적으로 System.xml.xmldocument를 생성 할 수있는 .NET 라이브러리를 찾고 있습니다. 즉,이 상황에 직면 할 때 브라우저가하는 최고의 노력, 수리 및 대체 브라우저를 만들고 xmldocument를 생성해야합니다. 도서관은 또한 잘 관리되어야합니다. :)

나는 이것이 너무 많이 (너무 많은가?) 물어 보는 것을 알고 있으며 유용한 리드에 감사드립니다. Java에 대해서는 상당한 수의 구현이있는 것 같습니다. 그러나 나는 내 자신의 바인딩을 생성하지 않을 것입니다. 지금까지 .net을 위해 찾았습니다 http://www.majestic12.co.uk/projects/html_parser.php 그리고 http://users.rcn.com/creitzel/tidy.html#dotnet, 그리고 http://sourceforge.net/projects/tidyfornet .

나는 아직 이들 중 어느 것도 구축하거나 테스트하지 않았지만 (스파 스) 문서와 희귀 업데이트에서 내가 찾고있는 것 같지 않은 것 같습니다. 따라서 이러한 선택 중 또는 과거 경험 중에서 어떤 권장 사항이 있습니까?

도움이 되었습니까?

해결책

그만큼 HTML 민첩성 팩 고도로 평가됩니다. 그것은 확실히 구문 분석 / 최고의 추측을 할 것입니다.

이 모델은 쿼리를위한 SelectNodes 등을 포함하여 XMLDocument와 강력하게 유사합니다.

XHTML 출력이 필요한 경우 a가 있습니다 OptionOutputAsXml 깃발; 나는 이것을 true로 설정하고 호출한다고 가정합니다 Save XHTML 결과.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top