質問

JTidyを使用してXHTML DOM解析を行おうとしていますが、これは直観に反するタスクのようです。特に、HTMLを解析する方法があります:

Node Tidy.parse(Reader, Writer)

そして< body />を取得するにはそのノードの、私は使用する必要があると思います

Node Node.findBody(TagTable)

そのTagTableのインスタンスはどこで取得する必要がありますか? (コンストラクタは保護されており、それを生産する工場が見つかりません。)

JTidy 8.0-SNAPSHOTを使用しています。

役に立ちましたか?

解決

本文を抽出するためのより簡単な メソッドがあることがわかりました:

tidy = new Tidy();
tidy.setXHTML(true);
tidy.setPrintBodyOnly(true);

次に、リーダーとライターのペアで整頓を使用します。

本来あるべきシンプル。

他のヒント

代わりに parseDOM メソッドを使用すると、 org.w3c.dom.Document が返されます:

Document document = Tidy.parseDOM(reader, writer);
Node body = document.getElementsByTagName("body").item(0);
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top