Comment extraire le texte brut à partir d'un fichier DOCX en utilisant le nouveau support OOXML dans Apache POI 3.5?

StackOverflow https://stackoverflow.com/questions/1492738

  •  18-09-2019
  •  | 
  •  

Question

Le 28 Septembre 2009, le projet Apache POI a publié la version 3.5 qui supporte officiellement les formats OOXML introduits dans Office 2007, comme DOCX et XLSX.

S'il vous plaît fournir un exemple de code pour extraire le contenu d'un fichier DOCX en clair, en ignorant tous les styles ou le formatage.

Je demande cela parce que je suis incapable de trouver des exemples Apache POI couvrant le nouveau support OOXML.

Était-ce utile?

La solution

Cela a fonctionné pour moi. Assurez-vous que vous ajoutez les pots nécessaires (mise à niveau xmlbeans, etc.)

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

Autres conseils

Ceci est plus générique

POITextExtractor poitex = ExtractorFactory.createExtractor (in);

poitex.getText ()

retour;

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top