Frage

Ich verwende Abbyy FineReader für ScanSnap, um ein paar gescannte PDF-Dateien mit OCR zu versehen.Die Software behauptet, dass sie die ursprünglichen PDF-Bilder beibehält.Die PDF-Dateigrößen vor und nach der OCR sind nahezu identisch, was gut ist.

Nachdem die Software fertig ist, werden alle PDF-Bilder in Acrobat X geglättet angezeigt.Die Seitennavigation ist viel langsamer als zuvor, und wenn ich hinein-/herauszoome, erscheinen die Bilder zunächst in der scheinbaren Version vor dem Anti-Aliasing, bevor sie schnell zu Bildern mit Anti-Aliasing wechseln.

Links:Gescanntes PDF / Rechts:nach OCR mit Abbyy enter image description here

Ich möchte die Originalbilder ohne Anti-Aliasing zurückerhalten.Wenn ich eine einzelne Seite der geglätteten PDF-Datei in Photoshop öffne, gibt es interessanterweise kein Glättungseffekt und das Bild sieht wie das linke aus.

Meine begrenzte Erfahrung in der PDF-Programmierung lässt mich vermuten, dass Abbyy während der OCR-Verarbeitung wahrscheinlich für jedes Bild eine Art Anti-Alias-Flag setzt.Wie deaktiviere ich dieses Flag?

Für Hinweise auf nützliche Ideen wäre ich sehr dankbar.

War es hilfreich?

Lösung

Es gibt /Interpolate true Eintrag im Bildwörterbuch der OCR-ed-Version, und das verursacht „Anti-Aliasing“.Ob das (und nicht JPEG2000 statt JPEG-Komprimierung) eine Ursache für die Verlangsamung ist, prüfen Sie bei ausreichend großen Dateien.

Um diesen Schlüssel zu deaktivieren, wäre es am besten, ihn beim Erstellen einer Datei auszuschalten. Wenn das nicht möglich ist, schreiben Sie ein kleines Programm in einer geeigneten Sprache und führen es aus.

Da Ihre Datei jedoch keine „komprimierten Objekte“ enthält und der fehlerhafte Schlüssel in der Datei gut sichtbar ist, können Sie Ihre Datei im Sinne von „Schnell erledigt“ einfach bearbeiten, z. B.so was:

perl -M-encoding -0777pe "s!/Interpolate true!' 'x17!ge" <in.pdf >out.pdf

Andere Tipps

Nachdem die Software fertig ist, werden alle PDF-Bilder in Acrobat X geglättet angezeigt.Die Seitennavigation ist viel langsamer als zuvor, und wenn ich hinein-/herauszoome, erscheinen die Bilder zunächst in der scheinbaren Version vor dem Anti-Aliasing, bevor sie schnell zu Bildern mit Anti-Aliasing wechseln.

Eigentlich in der Originaldatei 2013_11_15_22_51_31.pdf enthält ein JPEG-Bild, während die OCR-Datei bearbeitet wird 2013_11_15_22_51_31_OCR.pdf enthält ein JPEG2000-Bild.

Beim Vergleich mit Drittanbieter-Viewern wird deutlich, dass das Bild in der OCR-Datei nicht von Natur aus geglättet ist.Darüber hinaus gibt es im PDF keine offensichtliche Markierung, die PDF-Betrachter anweist, Anti-Aliasing auf das JPEG2000-Bild anzuwenden.Daher scheint Adobe Reader JPEG- und JPEG2000-Bilder automatisch unterschiedlich zu rendern und Anti-Aliasing auf letztere anzuwenden, nicht jedoch auf erstere.

Beim detaillierten Vergleich beider Bilder wird jedoch deutlich, dass diese Bilder nicht identisch sind, sondern das Bild im OCR-bearbeiteten PDF leicht gedreht ist.

Ich gehe davon aus, dass Abbyy FineReader erkannt hat, dass das ursprünglich gescannte Bild nicht richtig ausgerichtet ist.Daher wurde es leicht gedreht, um diese Ausrichtung zu korrigieren.

Daher ist es keine Option, das Bild in der OCR-Version durch das Bild aus dem Original zu ersetzen:Durch die Rotation würden die OCR-Informationen teilweise etwas abweichen.

Vielleicht möchten Sie versuchen, das JPEG2000-Bild in JPEG umzukodieren und das Bild in der OCR-Version durch dieses umkodierte Bild zu ersetzen.Dies bedeutet einen gewissen Qualitätsverlust, aber höchstwahrscheinlich können Sie das Anti-Aliasing auf diese Weise beseitigen.

Beachten Sie jedoch, dass das JPEG2000-Bild etwas größer als das JPEG-Bild ist, um die Drehung zu ermöglichen.

PS:Wie @VadimR betonte, gibt es tatsächlich eine /Interpolieren Sie den wahren Eintrag im Bildwörterbuch der OCR-ed-Version Ich habe es beim Betrachten der Datei übersehen.Dies scheint nicht das Hauptproblem zu sein, das die Wiedergabe verlangsamt.

The original JPEG

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top