Pregunta

Me gustaría convertir documentos doc / docx a HTML semántico.

Algunos deseos / necesidades:

  1. HTML Semántica de tal manera que las cabeceras en el documento son

    ,

    etc., las mesas están y así sucesivamente.

  2. preferentemente debería ser posible para manejar los encabezamientos, listas, tablas e imágenes. Los gráficos y fórmulas matemáticas es un buen extra.

  3. • No tiene que ser convertida directamente de doc / docx a html, podría utilizar un formato intermedio, tales como XML o DocBook.

    • En caso de trabajar mediante programación, y con gran número de documentos.

    Lo más parecido a una solución que he encontrado hasta ahora es http: // Holloway. co.nz/docvert/index.html , pero por desgracia hay muchas algunos errores, la base de usuarios pequeña y no pueden manejar una gran cantidad de documentos. Más de una prueba de concepto.

    ¿Fue útil?

    Solución

    Hay una herramienta llamada upCast que es capaz de convertir documentos de Word a XML.

    Otros consejos

    "encabezados en el documento son" Creo que esto es imposible. Porque MS Word sólo anote el resultado, con diferentes estilos de <p> al igual que el texto impreso en papel, la información original no se registran.

    Sus otros deseos podrían ser abordados. Hay dos herramientas comerciales pueden hacer esto (No creo esas herramientas libres o herramientas en línea, que no hacen el trabajo real.)

    1 Palabra Cleaner por Zapadoo www.zapadoo.com
    2 Limpiador HTML para Word por el asombro Estudio www.htmlcleaner.com

    Yo prefiero la segunda, que dio a conocer el año pasado. Puede probar ambos.

    docx4j (por docx solamente, no doc) escribe salida HTML limpio. Que había necesidad de cambiar las cosas un poco si quería

    en lugar de

    , pero su fuente abierta para que pueda hacer eso.

    escribí una utilidad que implementa los requisitos que enumeró, con exclusión de las imágenes, gráficos y fórmulas matemáticas. Es la calidad de la beta (es decir, funciona en mi máquina). Lo publiqué en http://www.modeltext.com/word

    Sólo más ideas.

    Usar Gmail para convertir documentos de Word

    http://www.oreillynet.com/mac/blog/ 2006/05 / use_gmail_to_convert_word_docs.html

    Licenciado bajo: CC-BY-SA con atribución
    No afiliado a StackOverflow
    scroll top