Как извлечь обычный текст из файла DOCX, используя новую поддержку OOXML в Apache POI 3.5?
-
18-09-2019 - |
Вопрос
28 сентября 2009 года Проект Apache POI выпущена версия 3.5, которая официально поддерживает форматы OOXML, представленные в Office 2007, такие как DOCX и XLSX.
Пожалуйста, предоставьте пример кода для извлечения содержимого файла DOCX в виде обычного текста, игнорируя любые стили или форматирование.
Я спрашиваю об этом, потому что мне не удалось найти ни одного примера Apache POI, охватывающего новую поддержку OOXML.
Решение
У меня это сработало.Убедитесь, что вы добавили необходимые jar-файлы (обновите xmlbeans и т.д.).
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
Другие советы
Это более общий термин
POITextExtractor poitex = extractor factory.createExtractor(в);
возвращает poitex.getText();
Не связан с StackOverflow