문제

(나는 본 적이 비슷한 질문,하지만 난 그들 중 누구도 수용 나의 특정 요구에 따라서...)

나는지 알고 싶은 경우가 있는 자바 라이브러리에 대한 분석의 실제(읽기:불완전한 형식)HTML.분석에 의하여,내 말과 같은 것들:

  • 알아내는 가장 눈에 띄는 색상에서 HTML 덩어리
  • 변화하는 색상을 몇 가지 다른 색상(따라서,가를 지원하는 수정의 HTML 뿐만)
  • 잘라내는 원치 않는 태그
  • 고정 HTML 결과에 잘 형성되 HTML 코드 조각

부분의 마지막 두 가지에 의해 수행된 라이브러리 등과 같은 여리고와 jTidy.'플러그인'의 상단에 이러한 좋은 것입니다.

사전에 감사합니다!

도움이 되었습니까?

해결책

You might want to check out TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

다른 팁

잘 정돈 그것은 첫 번째로 유효한 XML,다음 사용하 XSLT 할 조건 깊은 복사본을 어디로 나는 할 것이 가장 눈에 띄는 색/치기/아 처리를 필요합니다.

이것은 Microsoft에서 수정 된 것으로 보입니다. 이제는 받아 들일 수있는 속도로 돌아 왔으며, 알고있는 한 우리의 관리자는 사이트 모음 구성에 수정 / 변경을 적용하지 않았습니다.

Maybe you will find something in this list (try TagSoup, NekoHTML, VietSpider HTMLParser).

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top