Pergunta

Gostaria de converter documentos DOC/DOCX em HTML semântico.

Alguns desejos/requisitos:

  1. HTML semântico de modo que os cabeçalhos no documento sejamu003Ch1> , Assim,u003Ch2> etc., as tabelas sãou003Ctable> e assim por diante.

  2. Deve ser de preferência possível lidar com títulos, listas, tabelas e imagens. Gráficos e fórmulas de matemática são um bom extra.

• Não precisa ser convertido diretamente do DOC/DOCX para HTML, poderia usar um formato intermediário, como XML ou DocBook.

• Deve funcionar programaticamente e com grande número de documentos.

A coisa mais próxima de uma solução que encontrei até agora é http://holloway.co.nz/docvert/index.html, mas, infelizmente, existem muitos bugs, pequena base de usuários e não pode lidar com muitos documentos. Mais uma prova de conceito.

Foi útil?

Solução

Há uma ferramenta chamada upcast que é capaz de converter documentos do Word em XML.

Outras dicas

"Os cabeçalhos do documento são" Eu acho que isso é impossível. Porque o MS Word apenas anota o resultado, com diferentes estilos de <p>Assim como o texto impresso no papel, as informações originais não são gravadas.

Seus outros desejos podem ser abordados. Existem duas ferramentas comerciais podem fazer isso (não acredite nessas ferramentas gratuitas ou ferramentas on -line, elas não fazem o trabalho real.)

1 limpador de palavras por zapadoo www.zapadoo.com
2 Limpador HTML para Word by Wonder Studiowww.htmlcleaner.com

Eu prefiro o segundo que foi lançado no ano passado. Você pode experimentar os dois.

Docx4j (apenas para docx, não doc) escreve saída HTML limpa. Você precisaria mudar um pouco as coisas se quisesseu003Ch1> ao invés deu003Cp class="h1"> , mas seu código aberto para que você possa fazer isso.

Escrevi um utilitário que implementa os requisitos listados, excluindo fórmulas de imagens, gráficos e matemática. É qualidade beta (ou seja, funciona na minha máquina). Eu publiquei em http://www.modeltext.com/word

Apenas mais idéias.

Use o Gmail para converter documentos de palavras

http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top