Frage

Ich möchte doc / docx-Dokumente semantische HTML konvertieren.

Einige Wünsche / Anforderungen:

  1. Semantic HTML so dass Header in dem Dokument ist

    ,

    usw., Tabellen sind und so weiter.

  2. vorzugsweise möglich sein, Überschriften, Listen, Tabellen und Bilder zu handhaben. Graphen und mathematische Formeln ist ein nettes Extra.

  3. • muss nicht konvertiert gerade von doc sein / docx zu html, könnte ein Zwischenformat, wie XML oder DocBook verwenden.

    • Should Arbeit programmatisch und mit einer großen Anzahl von Dokumenten.

    Die nächste Sache, eine Lösung, die ich bisher gefunden habe ist http: // Holloway. co.nz/docvert/index.html , aber leider gibt es viele ein paar Fehler, kleine Nutzerbasis und es kann viele Dokumente nicht verarbeiten. Mehr ein Proof of Concept.

    War es hilfreich?

    Lösung

    Es gibt ein Tool namens upCast die in der Lage ist, Word-Dokumente in XML zu konvertieren.

    Andere Tipps

    „Header in dem Dokument ist“ Ich denke, das ist unmöglich. Da MS Word aufschreiben nur das Ergebnis, wenn die verschiedenen Arten von <p> wie gedruckte Text auf Papier, sind die ursprünglichen Informationen nicht aufgezeichnet.

    Ihre andere Wünsche könnten angegangen werden. Im moment gibt es zwei kommerzielle Tools können dies tun, (Nicht diese kostenlosen Tools oder Online-Tools glaubt, sie die eigentliche Arbeit nicht tun.)

    1 Wort Reiniger von Zapadoo www.zapadoo.com
    2 HTML-Reiniger für Word durch Wunder Studio www.htmlcleaner.com

    Ich ziehe die zweiten, die erst im vergangenen Jahr veröffentlicht. Sie können versuchen, sie beide.

    docx4j (für docx, nicht nur doc) schreibt saubere HTML-Ausgabe. Sie würden ein wenig zu ändern Dinge brauchen, wenn man will

    statt

    , aber die Open-Source, so dass Sie das tun können.

    Ich schrieb ein Dienstprogramm, das die Anforderungen implementiert Sie aufgelistet, ohne Bilder, Grafiken und Mathe-Formeln. Es ist Beta-Qualität (das heißt, es funktioniert auf meinem Rechner). Ich veröffentlichte es unter http://www.modeltext.com/word

    Nur mehr Ideen.

    Verwenden von Google Mail zu konvertieren Word-Dokumenten

    http://www.oreillynet.com/mac/blog/ 2006/05 / use_gmail_to_convert_word_docs.html

    Lizenziert unter: CC-BY-SA mit Zuschreibung
    Nicht verbunden mit StackOverflow
    scroll top