Question

J'utilise Abbyy FineReader pour ScanSnap pour OCR quelques fichiers PDF numérisés.Le logiciel prétend conserver les images PDF originales.Les tailles des fichiers PDF avant et après OCR sont presque identiques, ce qui est une bonne chose.

Une fois le logiciel terminé, toutes les images PDF apparaissent anticrénelées dans Acrobat X.La navigation dans les pages est beaucoup plus lente qu'avant, et lorsque je zoome/dézoome, les images passent d'abord à ce qui ressemble à la version pré-anti-aliasing avant de passer rapidement aux images anti-aliasées.

Gauche:PDF numérisé / Droite:après OCR avec Abbyy enter image description here

Je voudrais récupérer les images originales sans anti-aliasing.Fait intéressant, lorsque j'ouvre une seule page du PDF anti-aliasé dans Photoshop, il n'y a pas d'anticrénelage et l'image ressemble à celle de gauche.

Mon expérience limitée en programmation PDF m'amène à croire qu'Abbyy définit probablement une sorte d'indicateur anti-alias pour chaque image pendant le traitement OCR.Comment puis-je désactiver ce drapeau ?

Tous les conseils vers des idées utiles seraient très appréciés.

Était-ce utile?

La solution

Il y a /Interpolate true entrée dans le dictionnaire d'images de la version OCR-ed, et c'est ce qui provoque « l'anticrénelage ».Que cela (et non JPEG2000 au lieu de la compression JPEG) soit une cause de ralentissement, vous vérifiez les fichiers suffisamment volumineux.

Pour désactiver cette clé, le mieux serait de la désactiver lors de la création d'un fichier, et si ce n'est pas possible, d'écrire et d'exécuter un petit programme dans un langage adapté.

Mais, comme votre fichier ne contient pas d'« objets compressés » et que la clé incriminée est bien en vue dans un fichier, dans l'esprit du « travail effectué rapidement », vous pouvez simplement traiter votre fichier, par ex.comme ça:

perl -M-encoding -0777pe "s!/Interpolate true!' 'x17!ge" <in.pdf >out.pdf

Autres conseils

Une fois le logiciel terminé, toutes les images PDF semblent anti-aliasées dans Acrobat X. La navigation de page est beaucoup plus lente qu'auparavant, et lorsque je zoomez dans / out, les images vont d'abord à ce qui ressemble à la pré-aliasing version avant de passer rapidement à des images anti-aliasées.

En réalité dans le fichier d'origine 2013_11_15_22_51_31.pdf contient une image JPEG pendant que l'OCR 'ed fichier 2013_11_15_22_51_31_oc.pdf contient une image JPEG2000.

Les comparer dans des téléspectateurs tiers, il devient clair que l'image du fichier OCR'ed n'est pas intrinsèquement anti-alias. En outre, il n'y a pas d'indicateur évident dans le PDF instructant les téléspectateurs PDF d'appliquer anti-aliasing à l'image JPEG2000. Ainsi, Adobe Reader semble automatiquement rendre les images JPEG et JPEG2000 différemment, en appliquant des anti-aliasings à ce dernier mais pas au premier.

comparer les deux images en détail, cependant, il devient clair que ces images ne sont pas identiques mais que l'image dans le PDF ocr'ed est légèrement tournée.

Je suppose que Abbyy FineReader a reconnu que l'image numérisée d'origine n'est pas correctement orientée. Ainsi, il l'a légèrement tourné pour corriger cette orientation.

Ainsi, le remplacement de l'image dans la version OCR'ed avec celui de l'original n'est pas une option: en raison de la rotation, les informations OCR seraient partiellement quelque peu éteintes.

Ce que vous voulez essayer d'essayer est de recoder l'image JPEG2000 à JPEG et de remplacer l'image dans la version OCR'ed avec ceci recodé. Cela signifiera une perte de qualité mais très probablement vous pouvez vous débarrasser de l'anti-aliasing de cette façon.

Soyez conscient, cependant, que l'image JPEG2000 est légèrement supérieure à celle de l'image JPEG pour accueillir la rotation.

PS: Comme @vadimr a souligné, il y a en effet une entrée véritable / interpolate dans le dictionnaire d'image de la version OCR-DE j'ai manqué lorsque vous regardez le fichier. Cela ne semble pas être le problème majeur ralentissant le rendu.

l'original JPEG

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top