Convertir doc / docx a HTML semántico
Pregunta
Me gustaría convertir documentos doc / docx a HTML semántico.
Algunos deseos / necesidades:
-
HTML Semántica de tal manera que las cabeceras en el documento son
,
etc., las mesas están
y así sucesivamente.
preferentemente debería ser posible para manejar los encabezamientos, listas, tablas e imágenes. Los gráficos y fórmulas matemáticas es un buen extra.
• No tiene que ser convertida directamente de doc / docx a html, podría utilizar un formato intermedio, tales como XML o DocBook.
• En caso de trabajar mediante programación, y con gran número de documentos.
Lo más parecido a una solución que he encontrado hasta ahora es http: // Holloway. co.nz/docvert/index.html , pero por desgracia hay muchas algunos errores, la base de usuarios pequeña y no pueden manejar una gran cantidad de documentos. Más de una prueba de concepto.
Solución
Hay una herramienta llamada upCast que es capaz de convertir documentos de Word a XML.
Otros consejos
"encabezados en el documento son" Creo que esto es imposible. Porque MS Word sólo anote el resultado, con diferentes estilos de
<p>
al igual que el texto impreso en papel, la información original no se registran.Sus otros deseos podrían ser abordados. Hay dos herramientas comerciales pueden hacer esto (No creo esas herramientas libres o herramientas en línea, que no hacen el trabajo real.)
1 Palabra Cleaner por Zapadoo www.zapadoo.com
2 Limpiador HTML para Word por el asombro Estudio www.htmlcleaner.comYo prefiero la segunda, que dio a conocer el año pasado. Puede probar ambos.
docx4j (por docx solamente, no doc) escribe salida HTML limpio. Que había necesidad de cambiar las cosas un poco si quería
en lugar de
, pero su fuente abierta para que pueda hacer eso.
escribí una utilidad que implementa los requisitos que enumeró, con exclusión de las imágenes, gráficos y fórmulas matemáticas. Es la calidad de la beta (es decir, funciona en mi máquina). Lo publiqué en http://www.modeltext.com/word
Sólo más ideas.
Usar Gmail para convertir documentos de Word
http://www.oreillynet.com/mac/blog/ 2006/05 / use_gmail_to_convert_word_docs.html
Licenciado bajo: CC-BY-SA con atribuciónNo afiliado a StackOverflow