Wie Klartext aus einer DOCX-Datei mit der neuen OOXML-Unterstützung in Apache POI 3.5 extrahieren?

StackOverflow https://stackoverflow.com/questions/1492738

  •  18-09-2019
  •  | 
  •  

Frage

Am 28. September 2009 wurde die Apache POI Projekt Version freigegeben 3.5, die offiziell die OOXML-Formate unterstützt in Office eingeführt 2007 wie DOCX und XLSX.

Bitte geben Sie ein Codebeispiel eine DOCX-Datei des Inhalts im Klartext zum Extrahieren, alle möglichen Arten oder Formatierungen zu ignorieren.

Ich frage das, weil ich nicht in der Lage gewesen, alle Apache POI Beispiele zu finden, um die neue OOXML-Unterstützung abdeckt.

War es hilfreich?

Lösung

Das funktionierte für mich. Stellen Sie sicher, dass Sie die erforderlichen Gläser hinzufügen (Upgrade XMLBeans usw.)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

Andere Tipps

Dies ist allgemeinere

POITextExtractor poitex = ExtractorFactory.createExtractor (in);

Rückkehr poitex.getText ();

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top