Question

J'ai récemment appris la structure de base du fichier .docx (une archive zip spécialement structurée). Cependant, docx n'est pas formaté comme un doc.

Comment fonctionne un fichier doc? Quels sont le format, la structure, etc. du fichier?

Était-ce utile?

La solution

Le format complet des fichiers .doc binaires est documenté dans ce pdf de ( le Article Wikipedia sur .doc )

Autres conseils

Ce n'est pas une réponse directe à votre question, mais je recommande vivement de lire l'article de Joel Spolsky, Pourquoi les formats de fichiers Microsoft Office sont-ils si compliqués? (Et quelques solutions de contournement) . Cela vous donnera une idée de la complexité du format .doc et de la raison de son utilisation. Joel donne également un aperçu très sommaire de la composition du format .doc:

  

Vous voyez, les fichiers Excel 97-2003 sont des documents composés OLE, qui sont essentiellement des fichiers.   systèmes dans un seul fichier. Celles-ci sont suffisamment compliquées pour que vous lisiez   une autre spécification de 9 pages pour comprendre cela. Et ces & specs & # 8220; & # 8221; ressemblent plus à des données C   structures que ce que nous pensons traditionnellement comme une spécification. C'est un fichier entier hiérarchique   système.

(la citation fait référence à des fichiers Excel mais s'applique également à la documentation Word). Article informatif et utile pour comprendre pourquoi les fichiers .docx et ODF sont structurés et conçus de manière beaucoup plus logique lorsqu’ils sont examinés depuis un point de vue extérieur.

L’idée de base du format DOC MS Word est un document OLE Compund qui, comme l’a déjà écrit Kibbee, est fondamentalement un vidage de la mémoire. C'est un moyen très complexe et compliqué de stocker des documents, mais si vous avez déjà vraiment creusé dans l'application Word, vous saurez à quel point ses fonctionnalités sont incroyablement nombreuses, et si vous les avez utilisées dans un contexte professionnel, vous aurez une bonne comprendre comment il s'intègre aux autres programmes de la série Office.

En règle générale, les documents Compound OLE sont des structures très extensibles qui vous permettent de regrouper toutes sortes de données dans un seul fichier et même, dans une certaine mesure, de gérer des données pour lesquelles aucune application n'est installée. Par exemple, si vous insérez un objet Equation (à partir de l'Éditeur d'équations MS) dans un document, il est stocké en tant que sous-objet qui ressemble à un fichier dans le fichier, mais cet objet ne contient pas uniquement les données requises pour l'éditeur d'équation. pour l'éditer et la restituer, il a également une représentation bitmap générique (ou métafichier, peut-être) stockée de sorte qu'elle puisse être affichée, bien que non modifiée, sur une machine sur laquelle l'Éditeur d'équations n'est pas installé.

C’est la raison pour laquelle , pour le comment vous devez lire les spécifications déjà utilisées par d'autres personnes;)

Si vous souhaitez utiliser facilement les fichiers, assurez-vous que votre logiciel s'exécute sur une machine Windows sur laquelle Word est installé, puis utilisez COM / OLE Automation pour ouvrir et manipuler les documents. Vous n'aurez alors pas à vous soucier du format de fichier.

Le format .doc est assez complexe. Comme la plupart des formats Microsoft, il reflète une longue histoire de changements entre les versions et le support existant. Ils l'ont publiée il n'y a pas si longtemps. Si vous souhaitez l'afficher (ainsi que d'autres formats antérieurs à Office 2007), assommez-vous ici .

Il y a le fichier .doc de Microsoft Word, puis le fichier texte .doc. On dirait que vous vous interrogez sur le format propriétaire de Microsoft.

De Wikipedia :

  

Le format DOC varie selon les formats Microsoft Office Word. Les versions de Word jusqu’à 97 utilisaient un format différent de celui de Microsoft Word entre 97 et 2003.

Il a fallu attendre Word 2007 pour que .docx soit un fichier empaqueté. pas nécessairement une archive .zip. C'est un document XML structuré.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top