Pergunta

Eu aprendi recentemente sobre a estrutura básica do arquivo .docx (é um arquivo zip especialmente estruturado). No entanto, docx não está formatada como um doc.

Como funciona um arquivo doc? Qual é o formato de arquivo, estrutura, etc?

Foi útil?

Solução

O formato completo para arquivos .doc binários está documentado no este pdf a partir de ( o artigo da Wikipedia sobre .doc )

Outras dicas

Não é uma resposta directa à sua pergunta, mas eu recomendo a leitura do artigo de Joel Spolsky, Por que os formatos de arquivo do Microsoft Office tão complicado? (E algumas soluções) . Ele vai te dar alguns insights sobre a complexidade do formato .doc realmente é - e por quê. Joel também dá uma visão muito básica do que o formato .doc consiste em:

Você vê, Excel 97-2003 arquivos são documentos compostos OLE, que são, essencialmente, arquivo sistemas dentro de um único arquivo. Estes são suficientemente complicado que você tem que ler outra especificação 9 página para descobrir isso. E essas “especificações” olhar mais como dados C estruturas do que o que nós tradicionalmente pensar como uma especificação. É um arquivo hierárquico toda sistema.

(A citação se refere a arquivos do Excel, mas ela se aplica a documentos do Word também). artigo informativo e útil para entender por que .docx e arquivos ODF são estruturados e concebidos de forma muito mais logicamente ao ser examinado a partir de uma perspectiva externa.

A idéia básica por trás do formato DOC MS Word é um Compund documento OLE que, como Kibbee já escreveu, é basicamente um despejo de memória. É uma maneira muito complexa e complicada para armazenar documentos, mas se você já realmente escavado no aplicativo Word você vai saber como insanamente muitos recursos que tem, e se você tê-lo usado em um negócio configuração que você terá uma boa sensação de como ele se integra com outros programas da série Office.

Em geral, OLE Compund documentos são estruturas muito extensível que lhe permite encher todos os tipos de dados em um arquivo e até mesmo para alguns dados punho grau você não tem um aplicativo instalado para. Por exemplo, se você inserir um objeto Equation (a partir do MS Equation Editor) em um documento que é armazenado como um sub-objeto que é como um arquivo dentro do arquivo, mas esse objeto não contém apenas os dados necessários para o Equation Editor para editar e torná-lo, ele também tem um bitmap genérico (ou metafile, talvez) representação armazenado para que possa ser exibido, embora não editado, em uma máquina sem Equation editor instalado.

Este foi o por , da como você vai ter que ler as especificações outras pessoas ligadas ao já;)

Se você quer o caminho mais fácil para trabalhar com os arquivos, porém, certifique-se as corridas de software em uma máquina Windows com o Word instalado, em seguida, usar COM / automação OLE para abrir e manipular os documentos. Você não terá que se preocupar com formato de arquivo depois.

Doc é o formato binário de documento do word - aqui está o Microsoft Office Word 97-2007 binário File Format Specification [* .doc] documento.

O formato .doc é bastante complexa. Como a maioria dos formatos da Microsoft, ele reflete uma longa história de mudanças entre as versões e suporte legado. Eles publicaram que não há muito tempo, por isso, se você quiser vê-lo (e outros formatos pre-Office 2007), bater-se aqui .

Há .doc do Microsoft Word e então há planície .doc texto. Parece que você está se perguntando sobre o formato proprietário da Microsoft.

A partir Wikipedia :

O formato DOC varia entre Microsoft Office Word formatos. Word versões até 97 utilizado um formato diferente da versão Microsoft Word entre 97 e 2003.

Não foi até Word 2007, onde .docx , embora um arquivo embalado, é não necessariamente um arquivo .zip. É um documento XML estruturado.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top