Come estrarre testo normale da un file DOCX utilizzando il nuovo supporto OOXML in Apache POI 3.5?
-
18-09-2019 - |
Domanda
Il 28 settembre 2009 il progetto Apache POI ha rilasciato la versione 3.5 che supporta ufficialmente i formati OOXML introdotte in Office 2007, come DOCX e XLSX.
Si prega di fornire un esempio di codice per estrarre il contenuto di un file DOCX in formato testo, ignorando tutti gli stili o la formattazione.
Chiedo questo perché sono stato in grado di trovare alcun esempio Apache POI che coprono il nuovo supporto OOXML.
Soluzione
Questo ha funzionato per me. Assicurati di aggiungere i vasi necessari (aggiornare XMLBeans, ecc.)
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
Altri suggerimenti
Questo è più generico
POITextExtractor poitex = ExtractorFactory.createExtractor (in);
tornare poitex.getText ();
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow