Convertire doc / docx a HTML semantico
Domanda
Vorrei convertire i documenti doc / docx in HTML semantico.
Alcuni desideri / esigenze:
-
Semantic HTML in modo tale che le intestazioni nel documento sono
,
, ecc, le tabelle sono
e così via.
dovrebbe preferibilmente essere possibile gestire intestazioni, elenchi, tabelle e immagini. I grafici e le formule matematiche è un bell'extra.
• non deve essere convertito direttamente dal doc / docx in html, potrebbe utilizzare un formato intermedio, come ad esempio XML o docbook.
• Dovrebbe funzionare programatically, e con il gran numero di documenti.
La cosa più vicina a una soluzione che ho trovato finora è http: // Holloway. co.nz/docvert/index.html , ma purtroppo ci sono molti alcuni bug, piccole base di utenti e non in grado di gestire un sacco di documenti. Più di un proof of concept.
Soluzione
C'è uno strumento chiamato upCast che è in grado di convertire i documenti Word in XML.
Altri suggerimenti
"intestazioni nel documento sono" Penso che questo sia impossibile. Perché MS Word scrivere solo in fondo il risultato, con diversi stili di
<p>
proprio come testo stampato su carta, le informazioni originali non vengono registrati.I tuoi altri desideri potrebbero essere avvicinati. Ci sono due strumenti commerciali possono fare questo (Non credete a quei strumenti gratuiti o strumenti on-line, non fanno il vero lavoro.)
1 Cleaner Word Zapadoo www.zapadoo.com
2 Cleaner HTML per Word da meravigliarsi Studio www.htmlcleaner.comIo preferisco la seconda che ha rilasciato solo lo scorso anno. È entrambi può provare.
docx4j (per docx non solo, doc) scrive l'output HTML pulito. Avresti bisogno di cambiare le cose un po 'se si voleva
anziché
, ma la sua open source in modo che si può fare.
ho scritto un programma di utilità che implementa i requisiti che hai elencato, escluse le immagini, grafici e formule matematiche. E 'la qualità beta (vale a dire, funziona sulla mia macchina). Ho pubblicato a http://www.modeltext.com/word
Proprio più idee.
Utilizza Gmail per convertire documenti Word
http://www.oreillynet.com/mac/blog/ 2006/05 / use_gmail_to_convert_word_docs.html
Autorizzato sotto: CC-BY-SA insieme a attribuzioneNon affiliato a StackOverflow