Domanda

Vorrei convertire i documenti doc / docx in HTML semantico.

Alcuni desideri / esigenze:

  1. Semantic HTML in modo tale che le intestazioni nel documento sono

    ,

    , ecc, le tabelle sono e così via.

  2. dovrebbe preferibilmente essere possibile gestire intestazioni, elenchi, tabelle e immagini. I grafici e le formule matematiche è un bell'extra.

  3. • non deve essere convertito direttamente dal doc / docx in html, potrebbe utilizzare un formato intermedio, come ad esempio XML o docbook.

    • Dovrebbe funzionare programatically, e con il gran numero di documenti.

    La cosa più vicina a una soluzione che ho trovato finora è http: // Holloway. co.nz/docvert/index.html , ma purtroppo ci sono molti alcuni bug, piccole base di utenti e non in grado di gestire un sacco di documenti. Più di un proof of concept.

    È stato utile?

    Soluzione

    C'è uno strumento chiamato upCast che è in grado di convertire i documenti Word in XML.

    Altri suggerimenti

    "intestazioni nel documento sono" Penso che questo sia impossibile. Perché MS Word scrivere solo in fondo il risultato, con diversi stili di <p> proprio come testo stampato su carta, le informazioni originali non vengono registrati.

    I tuoi altri desideri potrebbero essere avvicinati. Ci sono due strumenti commerciali possono fare questo (Non credete a quei strumenti gratuiti o strumenti on-line, non fanno il vero lavoro.)

    1 Cleaner Word Zapadoo www.zapadoo.com
    2 Cleaner HTML per Word da meravigliarsi Studio www.htmlcleaner.com

    Io preferisco la seconda che ha rilasciato solo lo scorso anno. È entrambi può provare.

    docx4j (per docx non solo, doc) scrive l'output HTML pulito. Avresti bisogno di cambiare le cose un po 'se si voleva

    anziché

    , ma la sua open source in modo che si può fare.

    ho scritto un programma di utilità che implementa i requisiti che hai elencato, escluse le immagini, grafici e formule matematiche. E 'la qualità beta (vale a dire, funziona sulla mia macchina). Ho pubblicato a http://www.modeltext.com/word

    Proprio più idee.

    Utilizza Gmail per convertire documenti Word

    http://www.oreillynet.com/mac/blog/ 2006/05 / use_gmail_to_convert_word_docs.html

    Autorizzato sotto: CC-BY-SA insieme a attribuzione
    Non affiliato a StackOverflow
    scroll top