Конвертировать doc / docx в семантический HTML
Вопрос
Я хотел бы преобразовать документы doc / docx в семантический HTML.
Некоторые пожелания / требования:
Семантический HTML, такой, что заголовки в документе - это <h1>, <h2> и т.д., таблицы - это <table> и так далее.
Предпочтительно должна быть предусмотрена возможность обработки заголовков, списков, таблиц и изображений.Графики и математические формулы - приятное дополнение.
• Не обязательно преобразовывать непосредственно из doc / docx в html, можно использовать промежуточный формат, такой как xml или docbook.
• Должен работать программно и с большим количеством документов.
Самое близкое к решению, которое я нашел до сих пор, это http://holloway.co.nz/docvert/index.html, но, к сожалению, есть много ошибок, небольшая база пользователей, и он не может обрабатывать большое количество документов.Скорее доказательство концепции.
Решение
Есть такой инструмент, который называется Поднявшийся который способен конвертировать документы Word в XML.
Другие советы
" заголовки в документе такие "
Я думаю, что это невозможно.Поскольку MS Word записывает только результат, используя разные стили <p>
точно так же, как печатный текст на бумаге, исходная информация не записывается.
Можно было бы учесть и другие ваши пожелания.Есть два коммерческих инструмента, которые могут это сделать (не верьте этим бесплатным инструментам или онлайн-инструментам, они не выполняют реальной работы.)
1 Средство для очистки слов от Zapadoo
www.zapadoo.com
2 Средство для очистки HTML для Word от wonder Studio
www.htmlcleaner.com
Я предпочитаю вторую, которая вышла только в прошлом году.Вы можете попробовать их оба.
docx4j (только для docx, не doc) записывает чистый HTML-вывод.Вам нужно было бы немного изменить положение вещей, если бы вы хотели <h1> вместо <p class="h1">, но у него открытый исходный код, так что вы можете это сделать.
Я написал утилиту, которая реализует перечисленные вами требования, исключая изображения, графики и математические формулы.Это бета-версия (то есть она работает на моей машине).Я опубликовал это на http://www.modeltext.com/word
Просто больше идей.
Используйте Gmail для конвертации документов Word
http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html