转换word到的语义HTML
题
我想转换的word文件的语义HTML。
一些愿望的/需求:
语义HTML这样标题的文件 <h1>, <h2> 等等, 表 <table> 等等。
好应该能够处理标题、清单、表格和图片。图形和数学公式是一个不错的额外费用。
•没有被转化直接从word to html,可以使用中介的格式,例如xml或docbook.
•应通过程序,并有大量的文件。
最近的事情来解决,我已经找到此为止 http://holloway.co.nz/docvert/index.html, 但不幸的是,有许多一些错误,小小的用户基础和它不能处理大量的文件。更多的证明的概念。
解决方案
有一个工具,称为 向上转换 这是能够转换为Word文档进入XML。
其他提示
"标题的文件"
我认为这是不可能的。因为MS Word只有写下来的结果是,与不同风格的 <p>
就像打印文本在纸上,原有的信息都没有记录。
你其他的愿望能够接近。这里有两种商业工具,可以这样做 (不相信那些免费工具或网上工具,他们不这样做的实际工作。)
1词更清洁的Zapadoo
www.zapadoo.com
2HTML清洁字由想知道工作室
www.htmlcleaner.com
我更喜欢第二个刚刚公布的最后一年。你可以试试他们两个。
docx4j(对于尝试只,不doc)写清洁HTML输出。你会需要改变的事情一点如果你想要的 <h1> 而不是的 <p class="h1">,但是其开放源,所以你可以做到这一点。
我写了一个实用工具,实现了要求你列出,不包括图像、图形和数学公式。这是beta质(即它的工作原理上我的机)。我出版了它在 http://www.modeltext.com/word
不隶属于 StackOverflow