¿Cómo extraer texto sin formato de un archivo DOCX usando el nuevo soporte OOXML en Apache POI 3.5?
-
18-09-2019 - |
Pregunta
El 28 de septiembre de 2009, el proyecto Apache POI lanzó la versión 3.5, que soporta oficialmente los formatos OOXML introducidas en la Oficina 2007, como DOCX y XLSX.
Por favor, proporcione un ejemplo de código para extraer el contenido de un archivo DOCX en texto plano, haciendo caso omiso de cualquier estilo o el formato.
Me pregunto porque no he sido capaz de encontrar ningún ejemplo de Apache POI que cubren el nuevo soporte OOXML.
Solución
Esto funcionó para mí. Asegúrese de agregar los frascos necesarios (actualizar xmlbeans, etc.)
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
Otros consejos
Esto es más genérico
POITextExtractor poitex = ExtractorFactory.createExtractor (en);
volver poitex.getText ();
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow