Domanda

Io uso ABBYY FINERERER per ScanSnap a OCR un paio di file PDF scansionati. Il software afferma che conserva le immagini PDF originali. Le taglie dei file PDF pre-OCR e post-OCR sono quasi identiche, che è buona.

Al termine del software, tutte le immagini PDF appaiono anti-alias in Acrobat X. La navigazione della pagina è molto più lenta di prima, e quando ingrandisci / fuori, le immagini vanno prima a ciò che sembra il pre-anti-aliasing Versione prima di modificare rapidamente le immagini anti-alias.

sinistra: scansionata PDF / a destra: dopo OCR con ABBYY Inserire l'immagine Descrizione qui

Vorrei ottenere le immagini originali senza ritorno anti-aliasing. È interessante notare che, quando apro una singola pagina dal PDF anti-alias in Photoshop, non c'è anti-aliasing e l'immagine sembra quella sinistra.

La mia esperienza di programmazione PDF limitata mi porta a credere che Abbyy rivendisse una specie di bandiera anti-alias per ogni immagine durante l'elaborazione dell'OCR. Come faccio a impostare questo flag?

Qualsiasi puntatori a idee utili sarebbe molto apprezzata.

È stato utile?

Soluzione

C'è /Interpolate true Entry nel dizionario dell'immagine di versione OCR-ED, e questo è ciò che provoca "anti-aliasing".Se questo (e non JPEG2000 invece della compressione JPEG) è una causa di rallentamento, controlli su file abbastanza grandi.

Per impostare questo tasto, il meglio sarebbe quello di spegnerlo durante la creazione di un file e, se non è possibile, scrivere ed eseguire un piccolo programma in una lingua adatta.

Ma, dal momento che il tuo file non sfoggia "oggetti compressi" e la chiave offensiva è in vista semplice all'interno di un file, nello spirito del 'lavoro fatto rapidamente' è semplicemente elaborare il tuo file e.g.In questo modo:

perl -M-encoding -0777pe "s!/Interpolate true!' 'x17!ge" <in.pdf >out.pdf
.

Altri suggerimenti

.

Al termine del software, tutte le immagini PDF appaiono anti-alias in Acrobat X. La navigazione della pagina è molto più lenta di prima, e quando ingrandisci / fuori, le immagini vanno prima a ciò che sembra il pre-anti-aliasing Versione prima di modificare rapidamente le immagini anti-alias.

In realtà nel file originale 2013_11_15_22_51_31.pdf contiene un'immagine JPEG mentre l'OCR 'Ed file 2013_11_15_22_51_31_ocr.pdf contiene un'immagine JPEG2000.

Confrontandoli in diversi spettatori, diventa chiaro che l'immagine nel file OCR'ed non è intrinsecamente anti-alias. Inoltre, non c'è una bandiera evidente nel PDF che istruisce gli spettatori PDF per applicare l'anti-aliasing all'immagine JPEG2000. Pertanto, Adobe Reader sembra rendering automaticamente le immagini JPEG e JPEG2000 in modo diverso, applicando anti-aliasing a quest'ultimo ma non al primo.

Confrontando entrambe le immagini in dettaglio, tuttavia, diventa chiaro che queste immagini non sono identiche ma invece l'immagine nel PDF ocr'ed è leggermente ruotata.

Assumere ABBYY FINERERER ha riconosciuto che l'immagine scansionata originale non è orientata correttamente. Quindi, lo ha ruotato leggermente per correggere questo orientamento.

Pertanto, la sostituzione dell'immagine nella versione OCR'ed con quella dall'originale non è alcuna opzione: A causa della rotazione le informazioni OCR parzialmente saranno alquanto spenta.

Cosa si potrebbe voler provare è ricordare l'immagine JPEG2000 su JPEG e sostituire l'immagine nella versione OCR'ed con questo ricodificato. Ciò significherà una certa perdita di qualità ma molto probabilmente è possibile sbarazzarsi dell'anti-aliasing in questo modo.

Essere consapevoli, tuttavia, che l'immagine JPEG2000 è leggermente più grande dell'immagine JPEG per accogliere la rotazione.

PS: Come ha sottolineato @Vadimr, è effettivamente una voce / interpolata True nel dizionario dell'immagine della versione OCR-ED mi è mancato quando guardi il file. Questo non sembra essere il problema principale che rallenta il rendering.

The Original JPEG

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top