Pergunta

Essa é uma pergunta divertida do que uma de maneira séria, mas como o formato Adobe PDF torna os documentos tão ... portáteis?

Acabei de criar um pequeno documento do Word, 235kb de tamanho, contendo várias fotos coloridas e algumas frases textuais. Um PDF criado usando CutePDF (que eu entendo não é o método mais eficiente de criação de PDF) é de apenas 176kb. Essa é uma taxa de compressão de 25%. Quando esses arquivos são colocados em uma pasta compactada, o PDF é capaz de compressão a 3%, onde o .docx pode levar apenas 2%. Tenho certeza de que arquivos maiores teriam diferenças ainda maiores no tamanho.

Minha pergunta é: como a Adobe consegue tornar seus arquivos muito menores? Eu entendo que eles são extraídos dos gráficos raster, mas meus 3 arquivos de bitmap realmente não podem ser ajudados tanto da raster, podem?

Foi útil?

Solução

Se você tem Acrobat 9, existe uma boa ferramenta embutida para que você possa ver como o PDF foi montado (e as compressões usadas). Há um post de blog explicando como usá -lo em http://pdf.jpedal.org/java-pdf-blog/bid/10479/viewing-pdf-objects

Outras dicas

Existem algumas maneiras pelas quais ele pode estar compactando isso:

  1. Os arquivos PDF usam compactação LZW e ZIP.

  2. Se a imagem for escalada no documento ou for um DPI maior no disco, você permite no CutePDF (por exemplo, se o CutePDF estiver definido para 300DPI e a imagem for 600 dpi), ela poderá ser escalada no PDF.

  3. A Microsoft armazena toneladas de informações no formato DOCX, no XML. Muito mais do que é realmente necessário para exportar apenas as informações (por exemplo, tente copiar e colar seu texto em uma célula de caixa de texto e observar as informações HTML que sai - eu tinha um limite em um tamanho de caixa de texto para um CMS e Uma frase de 7 palavras aumentou para 950 caracteres). Isso é assim pode ser editado posteriormente e com muitas informações esotéricas para garantir que tudo seja exibido em todas as permuções possíveis. O PDF não precisa dessas informações e, portanto, pode fazer a fonte e o tamanho e retirar todas as informações desnecessárias, economizando uma tonelada de espaço.

Quando você usa arquivos tão pequenos, qualquer sobrecarga no formato do documento terá um efeito desproporcional, e é por isso que você está vendo um % de diferenças tão grandes.

Peguei um JPEG de 2683kb e o inseri em um novo documento do Word 2003. O arquivo .doc resultante foi de 2725kb (ou 2697kb como docx). Transformar isso em um PDF me dá um PDF de 2701kb. Então, estou vendo uma diferença de 25kb, mas apenas cerca de 1% de diferença devido ao tamanho dos dados da imagem. É cerca da metade do que você conseguiu, mas talvez a versão do Word que você tem seja mais detalhada ao fazer Docx?

Para o PDF, o Acrobat mostra o uso de espaço como imagem 2691k, 8,27k de cabeça e fontes 1K. O PDF é um formato bastante esparso em sua sintaxe, que limita a sobrecarga e grande parte tem cordas repetidas, por isso é facilmente compressível.

Se você quiser ver o que o PDF contém em uma visão semelhante a uma árvore, você pode baixar a versão demo de Cosedit.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top