Apache POI 3.5의 새로운 OOXML 지원을 사용하여 DOCX 파일에서 일반 텍스트를 추출하는 방법은 무엇입니까?
-
18-09-2019 - |
문제
2009 년 9 월 28 일 아파치 포이 프로젝트 DOCX 및 XLSX와 같이 Office 2007에 소개 된 OOXML 형식을 공식적으로 지원하는 버전 3.5.
스타일이나 형식을 무시하고 일반 텍스트로 DOCX 파일의 내용을 추출하기위한 코드 샘플을 제공하십시오.
새로운 OOXML 지원을 다루는 Apache POI 예제를 찾을 수 없었기 때문에 이것을 묻습니다.
해결책
이것은 나를 위해 효과가있었습니다. 필요한 항아리를 추가하십시오 (XMLBEANS 업그레이드 등).
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
다른 팁
이것은 더 일반적입니다
poitextextractor poitex = extractorfactory.createextractor (in);
return poitex.getText ();
제휴하지 않습니다 StackOverflow