Pregunta

Recientemente aprendí sobre la estructura básica del archivo .docx (es un archivo zip especialmente estructurado).Sin embargo, docx no tiene el formato de un documento.

¿Cómo funciona un archivo doc?¿Cuál es el formato del archivo, estructura, etc.?

¿Fue útil?

Solución

El formato completo para archivos binarios .doc está documentado en este pdf de (el artículo de Wikipedia sobre .doc)

Otros consejos

No es una respuesta directa a su pregunta, pero recomiendo leer el artículo de Joel Spolsky. ¿Por qué son tan complicados los formatos de archivos de Microsoft Office?(Y algunas soluciones).Le dará una idea de lo complejo que es realmente el formato .doc y por qué.Joel también ofrece una descripción muy básica de en qué consiste el formato .doc:

Verá, los archivos de Excel 97-2003 son documentos compuestos OLE, que son, esencialmente, sistemas de archivos dentro de un solo archivo.Estos son suficientemente complicados para que deba leer otras especificaciones de 9 páginas para resolverlo.Y estas "especificaciones" se parecen más a las estructuras de datos de C que a las que tradicionalmente pensamos como una especificación.Es un sistema de archivos jerárquico completo.

(La cita se refiere a archivos de Excel pero también se aplica a documentos de Word).Artículo informativo y útil para comprender por qué los archivos .docx y ODF están estructurados y diseñados de manera mucho más lógica cuando se examinan desde una perspectiva externa.

La idea básica detrás del formato DOC de MS Word es un documento compuesto OLE que, como ya escribió Kibbee, es básicamente un volcado de memoria.Es una forma muy compleja y enrevesada de almacenar documentos, pero si alguna vez has profundizado en la aplicación Word, sabrás la increíble cantidad de funciones que tiene, y si la has usado en un entorno empresarial, tendrás una buena sensación de cómo se integra con otros programas de la serie Office.

En general, los documentos OLE Compund son estructuras muy extensibles que le permiten guardar todo tipo de datos en un solo archivo e incluso, hasta cierto punto, manejar datos para los que no tiene una aplicación instalada.Por ejemplo, si inserta un objeto Equation (del Editor de ecuaciones de MS) en un documento, se almacena como un subobjeto que es como un archivo dentro del archivo, pero este objeto no solo contiene los datos necesarios para el Editor de ecuaciones. para editarlo y renderizarlo, también tiene una representación genérica de mapa de bits (o metarchivo, tal vez) almacenada para que pueda mostrarse, aunque no editarse, en una máquina sin el Editor de ecuaciones instalado.

Este fue el por qué, Para el cómo Tendrás que leer las especificaciones a las que otras personas ya se han vinculado;)

Sin embargo, si desea trabajar con los archivos de una manera fácil, asegúrese de que su software se ejecute en una máquina Windows con Word instalado, luego use COM/OLE Automation para abrir y manipular los documentos.Entonces no tendrás que preocuparte por el formato del archivo.

Doc es el formato binario de un documento de Word; aquí está el Especificación de formato de archivo binario de Microsoft Office Word 97-2007 [*.doc] documento.

El formato .doc es bastante complejo.Como la mayoría de los formatos de Microsoft, refleja una larga historia de cambios entre versiones y compatibilidad heredada.Lo publicaron no hace mucho, así que si quieres verlo (y otros formatos anteriores a Office 2007), noqueate aquí.

Está el .doc de Microsoft Word y luego está el .doc de texto sin formato.Parece que te estás preguntando acerca del formato propietario de Microsoft.

De Wikipedia:

El formato DOC varía entre los formatos de Microsoft Office Word.Las versiones de Word hasta la 97 utilizaron un formato diferente al de la versión de Microsoft Word entre 97 y 2003.

No fue hasta Word 2007 donde .docx, aunque es un archivo empaquetado, no es necesariamente un archivo .zip.Es un documento XML estructurado.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top