문제

doc/docx 문서를 의미 있는 HTML로 변환하고 싶습니다.

몇 가지 희망 사항/요구 사항:

  1. 문서의 헤더가 <h1>, <h2> 등이고 테이블이 <table> 등인 의미론적 HTML입니다.

  2. 제목, 목록, 표 및 이미지를 처리할 수 있어야 합니다.그래프와 수학 공식은 좋은 추가 기능입니다.

• doc/docx에서 html로 직접 변환할 필요가 없으며 xml 또는 docbook과 같은 중간 형식을 사용할 수 있습니다.

• 프로그래밍 방식으로 작업해야 하며 많은 수의 문서를 다루어야 합니다.

지금까지 찾은 솔루션에 가장 가까운 것은 http://holloway.co.nz/docvert/index.html, 하지만 불행하게도 버그가 많고 사용자 기반이 작으며 많은 문서를 처리할 수 없습니다.개념 증명에 가깝습니다.

도움이 되었습니까?

해결책

라는 도구가 있습니다. 배기갱 Word 문서를 XML로 변환할 수 있습니다.

다른 팁

"문서의 헤더는"이것이 불가능하다고 생각합니다.MS Word에서는 결과만 기록하기 때문에 다양한 스타일로 결과를 기록합니다. <p>종이에 인쇄된 텍스트와 마찬가지로 원본 정보는 기록되지 않습니다.

당신의 다른 소원이 다가올 수도 있습니다.두 가지 상용 도구가이를 수행 할 수 있습니다 (무료 도구 나 온라인 도구를 믿지 말고 실제 작업을 수행하지 않습니다.)

Zapadoo의 1 단어 클리너 www.zapadoo.com
2 Wonder Studio의 Word용 HTML 클리너www.htmlcleaner.com

저는 작년에 출시된 두 번째 제품을 더 좋아합니다.둘 다 시도해 볼 수 있습니다.

docx4j(docx 전용, doc 아님)는 깨끗한 HTML 출력을 작성합니다.<p class="h1"> 대신 <h1>을 원하면 상황을 약간 변경해야 하지만 오픈 소스이므로 그렇게 할 수 있습니다.

이미지, 그래프 및 수학 공식을 제외하고 나열된 요구 사항을 구현하는 유틸리티를 작성했습니다.베타 품질입니다(즉, 내 컴퓨터에서 작동합니다).나는 그것을 출판했다. http://www.modeltext.com/word

더 많은 아이디어가 있습니다.

Gmail을 사용하여 Word 문서 변환

http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top