Como extrair texto simples de um arquivo DOCX usando o novo suporte OOXML no Apache POI 3.5?

StackOverflow https://stackoverflow.com/questions/1492738

  •  18-09-2019
  •  | 
  •  

Pergunta

Em 28 de setembro de 2009, o projeto Apache POI versão 3.5 que suporta oficialmente os formatos OOXML introduzidos no Office lançado 2007, como DOCX e XLSX.

Por favor, forneça uma amostra de código para extrair o conteúdo de um arquivo DOCX em texto simples, ignorando quaisquer estilos ou formatação.

Estou perguntando isso porque eu fui incapaz de encontrar qualquer exemplos Apache POI cobrindo o novo suporte OOXML.

Foi útil?

Solução

Isso funcionou para mim. Certifique-se de adicionar os frascos necessários (XMLBeans atualizar, etc.)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

Outras dicas

Esta é mais genérico

= POITextExtractor poitex ExtractorFactory.createExtractor (em);

retornar poitex.getText ();

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top