PDF ドキュメントが検索できないのはなぜですか?[閉まっている]

https://stackoverflow.com/questions/1983561

22-09-2019
|

質問

アラビア語のコンテンツを含む PDF ドキュメントがあり、ドキュメント内で特定の単語を検索しようとすると、Adobe Reader で結果が返されません。

フォーマットの問題のようです...どうすればそれを修正できますか?ありがとう。

解決

PDF ドキュメントにテキストを取り込むには、少なくとも 4 つの異なる方法があります (順序または可能性の順に)。

標準のテキスト演算子と標準フォントを使用してテキストを配置します。
標準以外のフォントを使用した標準テキスト演算子を使用してテキストを配置します。
テキストを表す 1 つ以上の画像を描画します
さまざまな PDF グラフィックスコマンドを使用して手動でグリフを描画し、テキストを配置します。

ケース 1 は通常、検索可能です。ケース 2 は、フォントとエンコーディングが正常であれば検索可能ですが、そうでない場合 (これはおそらく非ラテン語フォントの場合に当てはまります)、エンコードされたグリフを Unicode にマッピングし直す信頼できる方法はおそらくありません (ちなみに- PDF は Unicode にかなり敵対的です)。ケース 3 は、PDF がどのように生成されたかを詳しく知らなければ、まったく検索できません。ケース4はまったく検索できません。

とはいえ、すべてのケースはアラビア語を理解できる OCR エンジンで読み取られます。私はそれを理解していますアイリスエンジンアラビア語をやります。

他のヒント

これは実際には、テキストではないかもしれない、またはそれはリーダーに注意を払っていないことを容器の中にあるかもしれません。それはあなたがほとんどの人は進んでいないフォントを使用している取引は、彼らのシステムにインストールされているとするとき、ベクトル図形にテキストオブジェクトを拡張するために、特に一般的です。これは、画面上の同じに見えますが、それは検索できないのです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow