Как удалить сглаживание в формате PDF?

https://stackoverflow.com//questions/20011515

20-12-2019
|

Вопрос

Я использую ABBYY FineReader для Scansnap в OCR пару сканированных файлов PDF. Программное обеспечение утверждает, что сохраняет оригинальные изображения PDF. Размеры файлов PDF Pre-OCR и Post-OCR практически идентичны, что хорошо.

После выполнения программного обеспечения все изображения PDF появляются против псевдонима в Acrobat X. Навигация страницы намного медленнее, чем раньше, и когда я увеличиваю / выключаю, изображения сначала переходят к тому, что выглядит как предварительно сглаживание Версия, прежде чем быстро меняться на антисеменные изображения.

Левый: отсканированные pdf / Право: после OCR с ABBYY Введите описание изображения здесь

Я хотел бы получить оригинальные изображения без сглаживания назад. Интересно, что, когда я открываю одну страницу от антисеменного PDF в Photoshop, нет сглаживания, а изображение выглядит как левый.

Мой ограниченный опыт программирования PDF приводит мне полагать, что ABBYY, вероятно, устанавливает какой-то флаг против псевдонима для каждого изображения во время обработки OCR. Как я могу не установить этот флаг?

Любые указатели на полезные идеи будут высоко оценены.

Решение

Есть ввод /Interpolate true в словаре изображения OCR-ED версии, и это то, что вызывает «антисеменование».Это (а не jpeg2000 вместо сжатия jpeg) является причиной замедления, вы проверяете достаточно большие файлы.

Чтобы не установить этот ключ, лучше всего выключить его при создании файла, и если это невозможно, писать и запускать небольшую программу на подходящем языке.

Но, поскольку ваш файл не спорит «сжатые объекты» и оскорбительный ключ находится на простом виде внутри файла, в духе «Работа сделано быстро», вы можете просто обрабатывать ваш файл E.G.Как это:

perl -M-encoding -0777pe "s!/Interpolate true!' 'x17!ge" <in.pdf >out.pdf

Другие советы

После выполнения программного обеспечения все изображения PDF появляются против псевдонима в Acrobat X. Навигация страницы намного медленнее, чем раньше, и когда я увеличиваю / выключаю, изображения сначала переходят к тому, что выглядит как предварительно сглаживание Версия, прежде чем быстро меняться на антисеменные изображения.

На самом деле в исходном файле 2013_11_15_22_51_31.pdf содержит изображение JPEG во время OCR 'ed file 2013_11_15_22_51_31_11_pdf содержит изображение jpeg2000.

Сравнивая их в третьих сторонних зрителях, становится понятно, что изображение в файле OCR'ED не по своей природе против псевдонимов. Кроме того, в PDF нет очевидного флага в PDF, начисляющих VDF-зрителям, чтобы применить антиквартизацию на изображение JPEG2000. Таким образом, Adobe Reader, похоже, автоматически отображает изображения JPEG и JPEG2000 по-разному, применяя претензию к последнему, но не к первым.

По сравнению с обоими изображениями подробно, хотя становится понятно, что эти изображения не идентичны, а вместо этого изображения в OCR'ED PDF немного повернута.

Я предполагаю, что ABBYY FineReader признал, что исходное отсканированное изображение не ориентировано правильно. Таким образом, слегка повернул его, чтобы исправить эту ориентацию.

Таким образом, замена изображения в ocr'Ed версию с одним из оригинала нет варианта: из-за поворота информации OCR будет частично будет с частично.

То, что вы можете попробовать, - это восстановить изображение JPEG2000 на JPEG и заменить изображение в версию OCR'ED с этим ReCoded One. Это будет означать некоторую потерю качества, но, скорее всего, вы можете избавиться от асглазии таким образом.

Будьте в курсе, хотя изображение JPEG2000 немного больше, чем изображение JPEG для размещения для вращения.

PS: Как указал @vadimr, действительно есть / Interpolate истинная запись в словаре изображения ocr-ed версии , когда я пропустил при рассмотрении файла. Это, похоже, не является основной проблемой, замедляющей рендеринга.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow