Frage

Ich habe gelernt, vor kurzem über die Grundstruktur der DOCX-Datei (es ist ein speziell strukturiertes Zip-Archiv). Allerdings ist docx nicht wie ein Dokument formatiert.

Wie funktioniert eine doc-Datei arbeiten? Was ist das Dateiformat, Struktur, etc?

War es hilfreich?

Lösung

Das vollständige Format für binäre .doc-Dateien in diese pdf aus ( die Wikipedia-Artikel über .doc )

Andere Tipps

Es ist keine direkte Antwort auf Ihre Frage, aber ich empfehle Joel Spolsky Artikel lesen,

Die Grundidee hinter dem MS Word DOC-Format ist ein OLE-Compund Dokument, die als Kibbee bereits geschrieben hat, im Grunde Dump ist ein Speicher. Es ist ein sehr komplexer und gewundener Weg, um Dokumente zu speichern, aber wenn Sie jemals wirklich in die Anwendung Wort gegraben haben Sie wissen, wie irrsinnig viele Features, die es hat, und wenn Sie es in einem Unternehmen verwendet haben Setzen Sie ein gutes haben Gefühl dafür, wie es mit anderen Programmen in der Office-Serie integriert.

Im Allgemeinen OLE Compund Dokumente sind sehr dehnbare Strukturen, die Sie alle Arten von Daten in eine Datei zu stopfen erlaubt und sogar bis zu einem gewissen Grad Griff Daten Sie eine Anwendung für nicht installiert haben. Zum Beispiel, wenn Sie ein Formel-Objekts einfügen (aus dem MS Formel-Editor) in ein Dokument wird sie als Unterobjekt gespeichert, die wie eine Datei in der Datei ist, aber das Objekt enthält nicht nur die erforderlichen Daten für die Formel-Editor zu bearbeiten und macht es, es hat auch eine generische Bitmap (oder Metafile, vielleicht) Darstellung gespeichert, sodass sie angezeigt werden können, wenn auch nicht auf einer Maschine bearbeitet, ohne Formel-Editor installiert ist.

Dies war die Warum , für die wie Sie werden die Spezifikationen andere Leute haben im Zusammenhang mit bereits gelesen haben;)

Wenn Sie die einfache Möglichkeit, wollen aus den Dateien allerdings zu umgehen, stellen Sie sicher, dass Ihre Software läuft auf einem Windows-Rechner mit Word installiert ist, dann COM / OLE-Automatisierung verwenden zu öffnen und die Dokumente zu manipulieren. Sie werden dann nicht über Dateiformat kümmern.

Das DOC-Format ist recht komplex. Wie die meisten Microsoft-Formate, spiegelt es eine lange Geschichte der Änderungen zwischen den Versionen und Legacy-Unterstützung. Sie veröffentlichten es nicht allzu lange her, wenn Sie so wollen es sehen können (und andere Pre-Office 2007-Formate), klopfen Sie sich hier aus.

Es gibt Microsoft Word .doc und dann gibt es Klartext .doc. Es klingt wie Sie über das proprietäre Microsoft-Format fragen.

Wikipedia :

  

Das DOC-Format ändert sich unter Microsoft Office Word-Formate. Word-Versionen bis zu 97 verwendeten ein anderes Format von Microsoft Word-Version zwischen 97 und 2003.

Erst Word 2007, wo .docx , obwohl eine gepackte Datei ist nicht unbedingt ein ZIP-Archiv. Es ist ein strukturiertes XML-Dokument.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top