Come estrarre testo normale da un file DOCX utilizzando il nuovo supporto OOXML in Apache POI 3.5?

StackOverflow https://stackoverflow.com/questions/1492738

  •  18-09-2019
  •  | 
  •  

Domanda

Il 28 settembre 2009 il progetto Apache POI ha rilasciato la versione 3.5 che supporta ufficialmente i formati OOXML introdotte in Office 2007, come DOCX e XLSX.

Si prega di fornire un esempio di codice per estrarre il contenuto di un file DOCX in formato testo, ignorando tutti gli stili o la formattazione.

Chiedo questo perché sono stato in grado di trovare alcun esempio Apache POI che coprono il nuovo supporto OOXML.

È stato utile?

Soluzione

Questo ha funzionato per me. Assicurati di aggiungere i vasi necessari (aggiornare XMLBeans, ecc.)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

Altri suggerimenti

Questo è più generico

POITextExtractor poitex = ExtractorFactory.createExtractor (in);

tornare poitex.getText ();

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top