Вопрос

Я хотел бы преобразовать документы doc / docx в семантический HTML.

Некоторые пожелания / требования:

  1. Семантический HTML, такой, что заголовки в документе - это <h1>, <h2> и т.д., таблицы - это <table> и так далее.

  2. Предпочтительно должна быть предусмотрена возможность обработки заголовков, списков, таблиц и изображений.Графики и математические формулы - приятное дополнение.

• Не обязательно преобразовывать непосредственно из doc / docx в html, можно использовать промежуточный формат, такой как xml или docbook.

• Должен работать программно и с большим количеством документов.

Самое близкое к решению, которое я нашел до сих пор, это http://holloway.co.nz/docvert/index.html, но, к сожалению, есть много ошибок, небольшая база пользователей, и он не может обрабатывать большое количество документов.Скорее доказательство концепции.

Это было полезно?

Решение

Есть такой инструмент, который называется Поднявшийся который способен конвертировать документы Word в XML.

Другие советы

" заголовки в документе такие " Я думаю, что это невозможно.Поскольку MS Word записывает только результат, используя разные стили <p> точно так же, как печатный текст на бумаге, исходная информация не записывается.

Можно было бы учесть и другие ваши пожелания.Есть два коммерческих инструмента, которые могут это сделать (не верьте этим бесплатным инструментам или онлайн-инструментам, они не выполняют реальной работы.)

1 Средство для очистки слов от Zapadoo www.zapadoo.com
2 Средство для очистки HTML для Word от wonder Studio www.htmlcleaner.com

Я предпочитаю вторую, которая вышла только в прошлом году.Вы можете попробовать их оба.

docx4j (только для docx, не doc) записывает чистый HTML-вывод.Вам нужно было бы немного изменить положение вещей, если бы вы хотели <h1> вместо <p class="h1">, но у него открытый исходный код, так что вы можете это сделать.

Я написал утилиту, которая реализует перечисленные вами требования, исключая изображения, графики и математические формулы.Это бета-версия (то есть она работает на моей машине).Я опубликовал это на http://www.modeltext.com/word

Просто больше идей.

Используйте Gmail для конвертации документов Word

http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top