Apache POI 3.5의 새로운 OOXML 지원을 사용하여 DOCX 파일에서 일반 텍스트를 추출하는 방법은 무엇입니까?

StackOverflow https://stackoverflow.com/questions/1492738

  •  18-09-2019
  •  | 
  •  

문제

2009 년 9 월 28 일 아파치 포이 프로젝트 DOCX 및 XLSX와 같이 Office 2007에 소개 된 OOXML 형식을 공식적으로 지원하는 버전 3.5.

스타일이나 형식을 무시하고 일반 텍스트로 DOCX 파일의 내용을 추출하기위한 코드 샘플을 제공하십시오.

새로운 OOXML 지원을 다루는 Apache POI 예제를 찾을 수 없었기 때문에 이것을 묻습니다.

도움이 되었습니까?

해결책

이것은 나를 위해 효과가있었습니다. 필요한 항아리를 추가하십시오 (XMLBEANS 업그레이드 등).

public String extractText(InputStream in) throws Exception {
    XWPFDocument doc = new XWPFDocument(in);
    XWPFWordExtractor ex = new XWPFWordExtractor(doc);
    String text = ex.getText();
    return text;
}

다른 팁

이것은 더 일반적입니다

poitextextractor poitex = extractorfactory.createextractor (in);

return poitex.getText ();

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top