HTMLタグでメインコンテンツを入手するには、Tikaを使用する方法
-
21-12-2019 - |
質問
はどういうわけか携帯のオプション - Text-Mainと--htmlのページのメインコンテンツを取得するためのtext-mainと--html?
解決
コマンドラインtika-app.jar
ファイルではこれを行うことはできません。
Apache Tikaの例の1つで、コードは次のようなものである必要があります。
ContentHandler handler = new BodyContentHandler(
new ToXMLContentHandler());
String bodyHtml = null;
InputStream stream = ContentHandlerExample.class.getResourceAsStream("test.doc");
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try {
parser.parse(stream, handler, metadata);
bodyHtml = handler.toString();
} finally {
stream.close();
}
System.out.println(bodyHtml);
.
「テスト」を含む単一段落を持つ単語文書に対して実行する出力の出力:
<p xmlns="http://www.w3.org/1999/xhtml">test</p>
. 所属していません StackOverflow