Как извлечь обычный текст из файла DOCX, используя новую поддержку OOXML в Apache POI 3.5?

StackOverflow https://stackoverflow.com/questions/1492738

  •  18-09-2019
  •  | 
  •  

Вопрос

28 сентября 2009 года Проект Apache POI выпущена версия 3.5, которая официально поддерживает форматы OOXML, представленные в Office 2007, такие как DOCX и XLSX.

Пожалуйста, предоставьте пример кода для извлечения содержимого файла DOCX в виде обычного текста, игнорируя любые стили или форматирование.

Я спрашиваю об этом, потому что мне не удалось найти ни одного примера Apache POI, охватывающего новую поддержку OOXML.

Это было полезно?

Решение

У меня это сработало.Убедитесь, что вы добавили необходимые jar-файлы (обновите xmlbeans и т.д.).

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

Другие советы

Это более общий термин

POITextExtractor poitex = extractor factory.createExtractor(в);

возвращает poitex.getText();

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top