我想转换的word文件的语义HTML。

一些愿望的/需求:

  1. 语义HTML这样标题的文件 <h1>, <h2> 等等, 表 <table> 等等。

  2. 好应该能够处理标题、清单、表格和图片。图形和数学公式是一个不错的额外费用。

•没有被转化直接从word to html,可以使用中介的格式,例如xml或docbook.

•应通过程序,并有大量的文件。

最近的事情来解决,我已经找到此为止 http://holloway.co.nz/docvert/index.html, 但不幸的是,有许多一些错误,小小的用户基础和它不能处理大量的文件。更多的证明的概念。

有帮助吗?

解决方案

有一个工具,称为 向上转换 这是能够转换为Word文档进入XML。

其他提示

"标题的文件" 我认为这是不可能的。因为MS Word只有写下来的结果是,与不同风格的 <p> 就像打印文本在纸上,原有的信息都没有记录。

你其他的愿望能够接近。这里有两种商业工具,可以这样做 (不相信那些免费工具或网上工具,他们不这样做的实际工作。)

1词更清洁的Zapadoo www.zapadoo.com
2HTML清洁字由想知道工作室 www.htmlcleaner.com

我更喜欢第二个刚刚公布的最后一年。你可以试试他们两个。

docx4j(对于尝试只,不doc)写清洁HTML输出。你会需要改变的事情一点如果你想要的 <h1> 而不是的 <p class="h1">,但是其开放源,所以你可以做到这一点。

我写了一个实用工具,实现了要求你列出,不包括图像、图形和数学公式。这是beta质(即它的工作原理上我的机)。我出版了它在 http://www.modeltext.com/word

只是更多的想法。

新版转换为word文档

http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top