如何提取使用了Apache POI 3.5新OOXML的支持DOCX文件明文?
-
18-09-2019 - |
题
2009年9月28日,的Apache POI项目发布3.5版从而正式支持在办公室推出的OOXML格式2007年,像DOCX和XLSX。
请用于提取在纯文本一个DOCX文件的内容,忽略任何样式或格式提供一个代码示例。
我问这个,因为我一直无法找到任何Apache POI例子覆盖新的OOXML的支持。
解决方案
这为我工作。请确保您添加需要的jar(升级的xmlbeans等)
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
其他提示
<强>这是更通用强>
POITextExtractor poitex = ExtractorFactory.createExtractor(IN);
返回poitex.getText();
不隶属于 StackOverflow