我有一个包含阿拉伯语内容的 pdf 文档,当我尝试在文档中搜索特定单词时,adobe reader 没有返回任何结果。

好像是格式问题...我该如何解决这个问题?谢谢。

有帮助吗?

解决方案

至少有四种不同的方法可以将文本放入 PDF 文档(按顺序或可能性):

  1. 使用标准文本运算符和标准字体放置文本
  2. 将带有标准文本运算符的文本与非标准字体放置在一起
  3. 绘制代表文本的一幅或多幅图像
  4. 通过使用各种 PDF 图形命令手动绘制字形来放置文本

情况 1 通常是可搜索的。如果字体和编码正常,则情况 2 是可搜索的 - 如果不是(非拉丁字体可能就是这种情况),那么可能没有可靠的方法将编码的字形映射回 Unicode(顺便说一下) - PDF 对 Unicode 相当不利)。如果不了解 PDF 是如何生成的,情况 3 是完全无法搜索的。案例4是完全无法搜索到的。

也就是说,所有案例都可以使用理解阿拉伯语的 OCR 引擎来阅读。据我了解, 虹膜引擎 做阿拉伯语。

其他提示

这可能不是实际上是文字,也可能是在一个容器中Reader不讲究。这是特别常见的扩展文本对象为矢量图形,当你处理,大多数人都不会的字体已经安装在他们的系统上。它在屏幕上看起来一样,但它不是搜索。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top