문제

나는 jtidy와 xhtml dom parsing을하려고 노력하고 있으며, 반 직관적 인 작업 인 것 같습니다. 특히 HTML을 구문 분석하는 방법이 있습니다.

Node Tidy.parse(Reader, Writer)

그리고 그것을 얻기 위해u003Cbody /> 그 노드의 경우, 나는 사용해야한다고 가정합니다.

Node Node.findBody(TagTable)

그 tagtable의 인스턴스는 어디에서 얻어야합니까? (생성자가 보호되고, 그것을 생산할 공장을 찾지 못했습니다.)

JTIDY 8.0-SNAPSHOT를 사용합니다.

도움이 되었습니까?

해결책

나는 거기에 있음을 발견했다 많이 신체를 추출하는 간단한 방법 :

tidy = new Tidy();
tidy.setXHTML(true);
Tidy.SetPrintoNly (True);

그런 다음 독자 작성자 쌍에서 Tidy를 사용하십시오.

그렇게 간단합니다.

다른 팁

당신은 사용할 수 있습니다 parseDOM 대신에, 당신에게 줄 수있는 방법 org.w3c.dom.Document 뒤:

Document document = Tidy.parseDOM(reader, writer);
Node body = document.getElementsByTagName("body").item(0);
라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top