Como extrair texto simples de um arquivo DOCX usando o novo suporte OOXML no Apache POI 3.5?
-
18-09-2019 - |
Pergunta
Em 28 de setembro de 2009, o projeto Apache POI versão 3.5 que suporta oficialmente os formatos OOXML introduzidos no Office lançado 2007, como DOCX e XLSX.
Por favor, forneça uma amostra de código para extrair o conteúdo de um arquivo DOCX em texto simples, ignorando quaisquer estilos ou formatação.
Estou perguntando isso porque eu fui incapaz de encontrar qualquer exemplos Apache POI cobrindo o novo suporte OOXML.
Solução
Isso funcionou para mim. Certifique-se de adicionar os frascos necessários (XMLBeans atualizar, etc.)
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
Outras dicas
Esta é mais genérico
= POITextExtractor poitex ExtractorFactory.createExtractor (em);
retornar poitex.getText ();
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow