Pregunta

Al guardar un documento de Word 2003 a XML y luego de vuelta resultados en un tamaño de archivo reducido, y probablemente más que yo no conozco. Un diff en el WordML del nuevo documento en contra de la vieja muestra diferencias sólo en la revisión guardar de identificación. Por lo tanto, lo que se está perdiendo en el ida y vuelta ?

Si no hay nada en realidad se está perdiendo, entonces, ¿cómo se explicaría los pocos miles de bytes fuera el tamaño del archivo?

¿Fue útil?

Solución

Por lo que yo sé Word almacena cierta información, además de texto y el formato de los archivos DOC, por ejemplo, información de usuario, algunas cosas en el historial de documentos, etc. Esta información se acumula cuando se utiliza "Archivo> Guardar". Supongo que el ahorro como XML y volver a guardar como tiras DOC esa información.

Si no recuerdo mal, tan simple "Guardar como" reduce el tamaño del archivo ya y creo que solía haber algún elemento de menú que le permite guardar una versión del archivo DOC que era significativamente más pequeño en tamaño que el "Archivo> guardar versión".

Otros consejos

El siguiente es sólo una suposición.

archivo .doc es en realidad de almacenamiento estructurado OLE archivo compuesto . Esta última es una manera de empaquetar múltiples flujos en un solo documento de una manera bien definida, y la estructura es realmente muy cerca de un un archivo del sistema de archivos-en-- por ejemplo, que tiene "sectores", y tabla de asignación de sector . Tal enfoque permite editar archivos de documentos en el lugar sin tener que reescribir por completo.

Sin embargo, los resultados de este enfoque de almacenamiento en cierta redundancia, como los sectores no utilizados. Cuando el archivo de ida y vuelta, se vuelve a crear de manera efectiva a partir de cero, y por lo tanto es eliminado cualquier tipo de artefactos de almacenamiento redundantes.

Si nos fijamos en un documento de Word (.doc) en un editor hexadecimal, se verá que hay muchos, muchos bloques de ceros redundantes. Gran formato, doc!

De todos modos, el ahorro a XML y luego de vuelta a doc podría deshacerse de algunos de esos miles de ceros bytes.

Si usted es realmente curioso basta con abrir ambos archivos en un editor hexadecimal y ejecutar un algoritmo de diferencias, puede intentar Taller Hex y Hex Editor Neo.

Mis experimentos con un puñado de grandes documentos de Word 2003 muestra que el ahorro como XML, entonces el ahorro que, como .doc, de hecho se traduce en un ligero, aunque no significativamente, archivo más pequeño. Como usted señala, los atributos rsidR son diferentes, pero que no tiene en cuenta la reducción en el tamaño ya que los nuevos rsidRs suelen ser del mismo tamaño.

Como Danra señala, archivos .doc tienen carreras de bytes idénticos. Sin embargo, el archivo más pequeño guardado como .doc también tiene este tipo de carreras, así que creo que esto es un artefacto del formato binario .doc y no de datos que llevan información. Me eyeballed algunos de los archivos .doc ronda tropezó y se podía ver ninguna diferencia en la apariencia del todo, el apoyo a la idea de que las diferencias no son de soporte de información.

examinar los archivos XML creados después de ida y de disparo muestra la diferencia principal es varias RPR (Propiedades de funcionamiento) sin contenido se eliminan después de convertir a XML. Parece guardar como XML elimina los estilos de carácter no utilizados y las propiedades.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top