Wie Klartext aus einer DOCX-Datei mit der neuen OOXML-Unterstützung in Apache POI 3.5 extrahieren?
-
18-09-2019 - |
Frage
Am 28. September 2009 wurde die Apache POI Projekt Version freigegeben 3.5, die offiziell die OOXML-Formate unterstützt in Office eingeführt 2007 wie DOCX und XLSX.
Bitte geben Sie ein Codebeispiel eine DOCX-Datei des Inhalts im Klartext zum Extrahieren, alle möglichen Arten oder Formatierungen zu ignorieren.
Ich frage das, weil ich nicht in der Lage gewesen, alle Apache POI Beispiele zu finden, um die neue OOXML-Unterstützung abdeckt.
Lösung
Das funktionierte für mich. Stellen Sie sicher, dass Sie die erforderlichen Gläser hinzufügen (Upgrade XMLBeans usw.)
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
Andere Tipps
Dies ist allgemeinere
POITextExtractor poitex = ExtractorFactory.createExtractor (in);
Rückkehr poitex.getText ();
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow