如何消除 PDF 图像中的抗锯齿功能？

题

我使用 Abbyy FineReader for ScanSnap 对几个扫描的 PDF 文件进行 OCR。该软件声称它保留了原始的 PDF 图像。OCR 前和 OCR 后的 PDF 文件大小几乎相同，这很好。

软件完成后，所有 PDF 图像在 Acrobat X 中都显示消除锯齿。页面导航比以前慢得多，当我放大/缩小时，图像首先转到看起来像抗锯齿前版本的版本，然后快速更改为抗锯齿图像。

我想获得没有抗锯齿的原始图像。有趣的是，当我在 Photoshop 中打开抗锯齿 PDF 的单个页面时，没有抗锯齿，图像看起来像左边的图像。

我有限的 PDF 编程经验使我相信 Abbyy 可能在 OCR 处理过程中为每个图像设置某种抗锯齿标志。如何取消设置此标志？

任何有用的想法的指示将不胜感激。

解决方案

有 /Interpolate true OCR 版本的图像字典中的条目，这就是导致“抗锯齿”的原因。无论这（而不是 JPEG2000 而不是 JPEG 压缩）是否是导致速度变慢的原因，您都需要检查足够大的文件。

要取消设置此键，最好是在创建文件时将其关闭，如果不可能，请用合适的语言编写并运行一个小程序。

但是，由于您的文件不支持“压缩对象”，并且有问题的密钥位于文件内的普通视图中，因此本着“快速完成工作”的精神，您可以简单地处理您的文件，例如像这样：

perl -M-encoding -0777pe "s!/Interpolate true!' 'x17!ge" <in.pdf >out.pdf

其他提示

软件完成后，所有PDF图像都看起来在Acrobat X中抗锯齿。页面导航比以前慢得多，当我放大/缩小时，图像首先转到抗锯齿上的内容在快速转换为抗锯齿图像之前的版本。

实际上在原始文件中 2013_11_15_22_51_31.pdf 在OCR时包含JPEG图像'ed file 2013_11_15_22_51_31_CR.PDF 包含JPEG2000图像。

将它们与第三方查看器中的比较，很明显，OCR'ED文件中的图像并不是固有的反别名。此外，PDF中没有明显的标志，指示PDF查看器将抗锯齿应用于JPEG2000图像。因此，Adobe Reader似乎以不同方式自动渲染JPEG和JPEG2000图像，将抗锯齿应用于后者而不是前者。

详细比较两个图像，明确表示这些图像不相同，而是稍微旋转OCR'ed PDF中的图像。

我假设Abbyy FineReader认识到原始扫描图像未正确面向。因此，它稍微旋转以纠正这种方向。

<因此，在原始版本中替换OCR'ed版本中的图像是否选项：由于旋转，OCR信息将部分地截止。

您可能想要尝试的是将JPEG2000图像重新介绍给JPEG并用此重新编码的版本替换OCR'ED版本中的图像。这将意味着一些质量损失，但最有可能你可以通过这种方式摆脱抗锯齿。

但是，请注意，JPEG2000图像略大于JPEG图像以适应旋转。

ps：随着@vadimr指出，实际上，在查看文件时，我错过了OCR-ED版本的图像字典中的 /插值真实条目。这似乎并不是播放渲染的主要问题。

许可以下： CC-BY-SA 和归因