どのようにApache POI 3.5の新しいOOXMLのサポートを使用して、DOCXファイルからプレーンテキストを抽出するには?
-
18-09-2019 - |
質問
2009年9月28日、正式にオフィスに導入されたOOXML形式をサポートしたバージョン3.5をリリースする のApache POIプロジェクトで2007年、DOCXおよびXLSXのような。
任意のスタイルや書式設定を無視して、プレーンテキストでDOCXファイルの内容を抽出するためのサンプルコードを提供してください。
私は新しいOOXMLのサポートをカバーする任意のApacheのPOIの例を見つけることができなかったので、私はこれを求めています。
解決
これは私のために働きました。あなたが必要なjarファイルを(などのXMLBeansをアップグレードしてください。)
を追加していることを確認しますpublic String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
他のヒント
のこれは、より汎用的なの
POITextExtractor poitex = ExtractorFactory.createExtractor(中)
リターンpoitex.getText();
所属していません StackOverflow