どのようにApache POI 3.5の新しいOOXMLのサポートを使用して、DOCXファイルからプレーンテキストを抽出するには？

https://stackoverflow.com/questions/1492738

18-09-2019
|

質問

2009年9月28日、正式にオフィスに導入されたOOXML形式をサポートしたバージョン3.5をリリースするのApache POIプロジェクトで2007年、DOCXおよびXLSXのような。

任意のスタイルや書式設定を無視して、プレーンテキストでDOCXファイルの内容を抽出するためのサンプルコードを提供してください。

私は新しいOOXMLのサポートをカバーする任意のApacheのPOIの例を見つけることができなかったので、私はこれを求めています。

解決

これは私のために働きました。あなたが必要なjarファイルを（などのXMLBeansをアップグレードしてください。）

を追加していることを確認します

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

他のヒント

のこれは、より汎用的なの

POITextExtractor poitex = ExtractorFactory.createExtractor（中）

リターンpoitex.getText（）;

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow