Domanda

Di recente ho imparato a conoscere la struttura di base del file .docx (è un archivio zip appositamente strutturato). Tuttavia, docx non è formattato come un documento.

Come funziona un file doc? Qual è il formato del file, la struttura, ecc?

È stato utile?

Soluzione

Il formato completo per i file binari .doc è documentato in questo pdf da ( the Articolo di Wikipedia su .doc )

Altri suggerimenti

Non è una risposta diretta alla tua domanda, ma consiglio vivamente di leggere l'articolo di Joel Spolsky, Perché i formati di file di Microsoft Office sono così complicati? (E alcune soluzioni alternative) . Ti darà un'idea di quanto sia veramente complesso il formato .doc - e perché. Joel offre anche una panoramica di base di cosa consiste il formato .doc:

  

Vedete, i file Excel 97-2003 sono documenti composti OLE, che sono essenzialmente file   sistemi all'interno di un singolo file. Questi sono sufficientemente complicati che devi leggere   un'altra specifica di 9 pagine per capirlo. E queste & # 8220; specifiche & # 8221; assomigliano di più ai dati C.   strutture rispetto a quelle che tradizionalmente consideriamo una specifica. È un intero file gerarchico   sistema.

(La citazione si riferisce ai file Excel ma si applica anche ai documenti di Word). Articolo informativo e utile per capire perché i file .docx e ODF sono strutturati e progettati in modo molto più logico quando vengono esaminati da una prospettiva esterna.

L'idea alla base del formato DOC di MS Word è un documento OLE Compund che, come ha già scritto Kibbee, è fondamentalmente un dump della memoria. È un modo molto complesso e contorto per archiviare documenti, ma se hai mai scavato davvero nell'applicazione Word saprai quante follemente ha caratteristiche e se l'hai usato in un ambiente aziendale avrai un buon sentimento per come si integra con altri programmi della serie Office.

In generale, i documenti OLE Compund sono strutture molto estensibili che ti consentono di inserire tutti i tipi di dati in un unico file e persino di gestire i dati per i quali non hai un'applicazione installata. Ad esempio, se si inserisce un oggetto Equation (dall'editor di equazioni MS) in un documento, questo viene archiviato come oggetto secondario che è come un file all'interno del file, ma questo oggetto non contiene solo i dati richiesti per Equation Editor per modificarlo e renderizzarlo, ha anche una rappresentazione bitmap generica (o metafile, forse) memorizzata in modo che possa essere visualizzata, anche se non modificata, su una macchina senza Equation Editor installato.

Questo è stato il perché , per il come dovrai leggere le specifiche che altre persone hanno già collegato;)

Se vuoi una semplice soluzione per lavorare con i file, assicurati che il tuo software funzioni su un computer Windows con Word installato, quindi usa l'automazione COM / OLE per aprire e manipolare i documenti. Allora non dovrai preoccuparti del formato del file.

Doc è il formato binario del documento word - ecco il Documento di specifica del file binario di Microsoft Office Word 97-2007 [* .doc] .

Il formato .doc è piuttosto complesso. Come la maggior parte dei formati Microsoft, riflette una lunga storia di cambiamenti tra le versioni e il supporto legacy. L'hanno pubblicato non molto tempo fa, quindi se si desidera visualizzarlo (e altri formati pre-Office 2007), buttati fuori qui .

C'è il .doc di Microsoft Word e poi il .doc in chiaro. Sembra che ti stia chiedendo quale sia il formato proprietario Microsoft.

Da Wikipedia :

  

Il formato DOC varia tra i formati di Word di Microsoft Office. Le versioni di Word fino a 97 utilizzavano un formato diverso dalla versione di Microsoft Word tra 97 e 2003.

Non è stato fino a Word 2007 in cui .docx , sebbene sia un file impacchettato, è non necessariamente un archivio .zip. È un documento XML strutturato.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top