Convert doc / docx zu semantische HTML
Frage
Ich möchte doc / docx-Dokumente semantische HTML konvertieren.
Einige Wünsche / Anforderungen:
-
Semantic HTML so dass Header in dem Dokument ist
,
usw., Tabellen sind
und so weiter.
vorzugsweise möglich sein, Überschriften, Listen, Tabellen und Bilder zu handhaben. Graphen und mathematische Formeln ist ein nettes Extra.
• muss nicht konvertiert gerade von doc sein / docx zu html, könnte ein Zwischenformat, wie XML oder DocBook verwenden.
• Should Arbeit programmatisch und mit einer großen Anzahl von Dokumenten.
Die nächste Sache, eine Lösung, die ich bisher gefunden habe ist http: // Holloway. co.nz/docvert/index.html , aber leider gibt es viele ein paar Fehler, kleine Nutzerbasis und es kann viele Dokumente nicht verarbeiten. Mehr ein Proof of Concept.
Lösung
Es gibt ein Tool namens upCast die in der Lage ist, Word-Dokumente in XML zu konvertieren.
Andere Tipps
„Header in dem Dokument ist“ Ich denke, das ist unmöglich. Da MS Word aufschreiben nur das Ergebnis, wenn die verschiedenen Arten von
<p>
wie gedruckte Text auf Papier, sind die ursprünglichen Informationen nicht aufgezeichnet.Ihre andere Wünsche könnten angegangen werden. Im moment gibt es zwei kommerzielle Tools können dies tun, (Nicht diese kostenlosen Tools oder Online-Tools glaubt, sie die eigentliche Arbeit nicht tun.)
1 Wort Reiniger von Zapadoo www.zapadoo.com
2 HTML-Reiniger für Word durch Wunder Studio www.htmlcleaner.comIch ziehe die zweiten, die erst im vergangenen Jahr veröffentlicht. Sie können versuchen, sie beide.
docx4j (für docx, nicht nur doc) schreibt saubere HTML-Ausgabe. Sie würden ein wenig zu ändern Dinge brauchen, wenn man will
statt
, aber die Open-Source, so dass Sie das tun können.
Ich schrieb ein Dienstprogramm, das die Anforderungen implementiert Sie aufgelistet, ohne Bilder, Grafiken und Mathe-Formeln. Es ist Beta-Qualität (das heißt, es funktioniert auf meinem Rechner). Ich veröffentlichte es unter http://www.modeltext.com/word
Nur mehr Ideen.
Verwenden von Google Mail zu konvertieren Word-Dokumenten
http://www.oreillynet.com/mac/blog/ 2006/05 / use_gmail_to_convert_word_docs.html
Lizenziert unter: CC-BY-SA mit ZuschreibungNicht verbunden mit StackOverflow