¿Cómo extraer texto sin formato de un archivo DOCX usando el nuevo soporte OOXML en Apache POI 3.5?

StackOverflow https://stackoverflow.com/questions/1492738

  •  18-09-2019
  •  | 
  •  

Pregunta

El 28 de septiembre de 2009, el proyecto Apache POI lanzó la versión 3.5, que soporta oficialmente los formatos OOXML introducidas en la Oficina 2007, como DOCX y XLSX.

Por favor, proporcione un ejemplo de código para extraer el contenido de un archivo DOCX en texto plano, haciendo caso omiso de cualquier estilo o el formato.

Me pregunto porque no he sido capaz de encontrar ningún ejemplo de Apache POI que cubren el nuevo soporte OOXML.

¿Fue útil?

Solución

Esto funcionó para mí. Asegúrese de agregar los frascos necesarios (actualizar xmlbeans, etc.)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

Otros consejos

Esto es más genérico

POITextExtractor poitex = ExtractorFactory.createExtractor (en);

volver poitex.getText ();

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top