Pergunta

Eu uso o Abbyy FineReader para ScanSnap para fazer OCR em alguns arquivos PDF digitalizados.O software afirma que retém as imagens PDF originais.Os tamanhos dos arquivos PDF pré-OCR e pós-OCR são quase idênticos, o que é bom.

Depois que o software for concluído, todas as imagens PDF aparecerão com suavização de serrilhado no Acrobat X.A navegação na página é muito mais lenta do que antes, e quando eu amplio/diminuo o zoom, as imagens vão primeiro para o que parece ser a versão pré-aliasing antes de mudar rapidamente para imagens com suavização de serrilhado.

Esquerda:PDF digitalizado / Certo:depois do OCR com Abbyy enter image description here

Gostaria de obter as imagens originais sem anti-aliasing.Curiosamente, quando abro uma única página do PDF com suavização de serrilhado no Photoshop, não há suavização de serrilhado e a imagem se parece com a da esquerda.

Minha experiência limitada em programação de PDF me leva a acreditar que Abbyy provavelmente define algum tipo de sinalizador anti-alias para cada imagem durante o processamento de OCR.Como faço para desmarcar esse sinalizador?

Qualquer indicação de ideias úteis seria muito apreciada.

Foi útil?

Solução

/Interpolate true entrada no dicionário de imagens da versão OCR, e é isso que causa o 'anti-aliasing'.Se isso (e não JPEG2000 em vez de compactação JPEG) é a causa da lentidão, você verifica arquivos grandes o suficiente.

Para desmarcar esta chave, o melhor seria desligá-la durante a criação de um arquivo e, se isso não for possível, escrever e executar um pequeno programa em linguagem adequada.

Mas, como o seu arquivo não contém 'objetos compactados' e a chave ofensiva está à vista dentro de um arquivo, no espírito de 'trabalho realizado rapidamente', você pode simplesmente processar seu arquivo, por exemplo.assim:

perl -M-encoding -0777pe "s!/Interpolate true!' 'x17!ge" <in.pdf >out.pdf

Outras dicas

.

Depois que o software for feito, todas as imagens em PDF aparecem anti-aliased no Acrobat X. A navegação de página é muito mais lenta do que antes, e quando eu aumentar / sair, as imagens primeiro vão ao que se parece com o pré-aliasing pré-anti-aliasing versão antes de mudar rapidamente para imagens anti-aliased.

na verdade no arquivo original 2013_11_15_22_51_31.pdf contém uma imagem jpeg enquanto o OCR 'Ed arquivo

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top