HTMLタグでメインコンテンツを入手するには、Tikaを使用する方法

https://stackoverflow.com//questions/25046420

apache-tika

21-12-2019
|

質問

はどういうわけか携帯のオプション - Text-Mainと--htmlのページのメインコンテンツを取得するためのtext-mainと--html？

解決

コマンドラインtika-app.jarファイルではこれを行うことはできません。

を実行するためのビットのJavaコードを書く必要があります。

Apache Tikaの例の1つで、コードは次のようなものである必要があります。

ContentHandler handler = new BodyContentHandler(
            new ToXMLContentHandler());
String bodyHtml = null;

InputStream stream = ContentHandlerExample.class.getResourceAsStream("test.doc");
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try {
    parser.parse(stream, handler, metadata);
    bodyHtml = handler.toString();
} finally {
    stream.close();
}
System.out.println(bodyHtml);

「テスト」を含む単一段落を持つ単語文書に対して実行する出力の出力：

<p xmlns="http://www.w3.org/1999/xhtml">test</p>

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow