2009年9月28日,的Apache POI项目发布3.5版从而正式支持在办公室推出的OOXML格式2007年,像DOCX和XLSX。

请用于提取在纯文本一个DOCX文件的内容,忽略任何样式或格式提供一个代码示例。

我问这个,因为我一直无法找到任何Apache POI例子覆盖新的OOXML的支持。

有帮助吗?

解决方案

这为我工作。请确保您添加需要的jar(升级的xmlbeans等)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

其他提示

<强>这是更通用

POITextExtractor poitex = ExtractorFactory.createExtractor(IN);

返回poitex.getText();

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top