我使用 Abbyy FineReader for ScanSnap 对几个扫描的 PDF 文件进行 OCR。该软件声称它保留了原始的 PDF 图像。OCR 前和 OCR 后的 PDF 文件大小几乎相同,这很好。

软件完成后,所有 PDF 图像在 Acrobat X 中都显示消除锯齿。页面导航比以前慢得多,当我放大/缩小时,图像首先转到看起来像抗锯齿前版本的版本,然后快速更改为抗锯齿图像。

左边:扫描版 PDF / 正确的:使用 Abbyy 进行 OCR 后 enter image description here

我想获得没有抗锯齿的原始图像。有趣的是,当我在 Photoshop 中打开抗锯齿 PDF 的单个页面时,没有抗锯齿,图像看起来像左边的图像。

我有限的 PDF 编程经验使我相信 Abbyy 可能在 OCR 处理过程中为每个图像设置某种抗锯齿标志。如何取消设置此标志?

任何有用的想法的指示将不胜感激。

有帮助吗?

解决方案

/Interpolate true OCR 版本的图像字典中的条目,这就是导致“抗锯齿”的原因。无论这(而不是 JPEG2000 而不是 JPEG 压缩)是否是导致速度变慢的原因,您都需要检查足够大的文件。

要取消设置此键,最好是在创建文件时将其关闭,如果不可能,请用合适的语言编写并运行一个小程序。

但是,由于您的文件不支持“压缩对象”,并且有问题的密钥位于文件内的普通视图中,因此本着“快速完成工作”的精神,您可以简单地处理您的文件,例如像这样:

perl -M-encoding -0777pe "s!/Interpolate true!' 'x17!ge" <in.pdf >out.pdf

其他提示

软件完成后,所有PDF图像都看起来在Acrobat X中抗锯齿。页面导航比以前慢得多,当我放大/缩小时,图像首先转到抗锯齿上的内容在快速转换为抗锯齿图像之前的版本。

实际上在原始文件中 2013_11_15_22_51_31.pdf 在OCR时包含JPEG图像'ed file 2013_11_15_22_51_31_CR.PDF 包含JPEG2000图像。

将它们与第三方查看器中的比较,很明显,OCR'ED文件中的图像并不是固有的反别名。此外,PDF中没有明显的标志,指示PDF查看器将抗锯齿应用于JPEG2000图像。因此,Adobe Reader似乎以不同方式自动渲染JPEG和JPEG2000图像,将抗锯齿应用于后者而不是前者。

详细比较两个图像,明确表示这些图像不相同,而是稍微旋转OCR'ed PDF中的图像。

我假设Abbyy FineReader认识到原始扫描图像未正确面向。因此,它稍微旋转以纠正这种方向。

<因此,在原始版本中替换OCR'ed版本中的图像是否选项:由于旋转,OCR信息将部分地截止。

您可能想要尝试的是将JPEG2000图像重新介绍给JPEG并用此重新编码的版本替换OCR'ED版本中的图像。这将意味着一些质量损失,但最有可能你可以通过这种方式摆脱抗锯齿。

但是,请注意,JPEG2000图像略大于JPEG图像以适应旋转。

ps:随着@vadimr指出,实际上,在查看文件时,我错过了OCR-ED版本的图像字典中的 /插值真实条目。这似乎并不是播放渲染的主要问题。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top