HTMLタグでメインコンテンツを入手するには、Tikaを使用する方法

StackOverflow https://stackoverflow.com//questions/25046420

  •  21-12-2019
  •  | 
  •  

質問

はどういうわけか携帯のオプション - Text-Mainと--htmlのページのメインコンテンツを取得するためのtext-mainと--html?

役に立ちましたか?

解決

コマンドラインtika-app.jarファイルではこれを行うことはできません。

を実行するためのビットのJavaコードを書く必要があります。

Apache Tikaの例の1つで、コードは次のようなものである必要があります。

ContentHandler handler = new BodyContentHandler(
            new ToXMLContentHandler());
String bodyHtml = null;

InputStream stream = ContentHandlerExample.class.getResourceAsStream("test.doc");
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try {
    parser.parse(stream, handler, metadata);
    bodyHtml = handler.toString();
} finally {
    stream.close();
}
System.out.println(bodyHtml);
.

「テスト」を含む単一段落を持つ単語文書に対して実行する出力の出力:

<p xmlns="http://www.w3.org/1999/xhtml">test</p>
.

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top