Question

Je voudrais convertir des documents doc / docx HTML sémantique.

Quelques souhaits / exigences:

  1. sémantique HTML tels que les en-têtes dans le document sont

    ,

    etc., les tables sont et ainsi de suite.

  2. doit être de préférence possible de gérer des titres, des listes, des tableaux et des images. Les graphiques et les formules mathématiques est un plus agréable.

  3. • N'a pas à convertir directement de doc / docx html, pourrait utiliser un format intermédiaire, tel que XML ou DocBook.

    • Si le travail programatically, et avec un grand nombre de documents.

    La chose la plus proche à une solution que j'ai trouvé à ce jour est http: // holloway. co.nz/docvert/index.html , mais malheureusement, il y a beaucoup de quelques bugs, petit nombre d'utilisateurs et il ne peut pas gérer un grand nombre de documents. Plus d'une preuve de concept.

    Était-ce utile?

    La solution

    Il y a un outil appelé upCast qui est capable de convertir des documents Word en XML.

    Autres conseils

    « têtes dans le document sont » Je pense que cela est impossible. Parce que MS Word seulement écrire sur le résultat, avec différents styles de <p> tout comme le texte imprimé sur du papier, l'information d'origine ne sont pas enregistrées.

    Vos autres souhaits pourraient être abordés. Il sont deux outils commerciaux peuvent le faire (Ne crois pas que ces outils gratuits ou des outils en ligne, ils ne font pas le travail réel.)

    1 Cleaner Word par Zapadoo www.zapadoo.com
    2 Cleaner HTML pour Word par l'émerveillement studio www.htmlcleaner.com

    Je préfère la deuxième qui a publié l'année dernière. Vous pouvez essayer les deux.

    docx4j (pour docx, et non doc) écrit la sortie HTML propre. Vous auriez besoin de changer les choses un peu si vous voulez

    au lieu de

    , mais son open source afin que vous puissiez le faire.

    J'ai écrit un utilitaire qui met en œuvre les exigences que vous avez énumérés, à l'exclusion des images, des graphiques et des formules mathématiques. Il est la qualité bêta (il fonctionne sur ma machine). Je l'ai publié à http://www.modeltext.com/word

    Juste plus d'idées.

    Utilisez Gmail pour convertir documents Word

    http://www.oreillynet.com/mac/blog/ 2006/05 / use_gmail_to_convert_word_docs.html

    Licencié sous: CC-BY-SA avec attribution
    Non affilié à StackOverflow
    scroll top