Frage

Ich habe ein PDF-Dokument mit Inhalten in arabischen Sprache und wenn ich versuche, innerhalb des Dokuments nach einem bestimmten Wort zu suchen, gibt adobe reader keine Ergebnisse.

es scheint ein Format Problem ... wie kann ich das Problem lösen? Dank.

War es hilfreich?

Lösung

Es gibt mindestens vier verschiedene Arten von Text in ein PDF-Dokument (in der Reihenfolge oder Wahrscheinlichkeit) zu erhalten:

  1. Stellen Sie den Text mit Standardtext Operatoren und Standardschriften
  2. Stellen Sie den Text mit Standardtext Operatoren mit Nicht-Standard-Schriftart
  3. Ziehen Sie ein oder mehrere Bilder, die den Text
  4. repräsentieren
  5. Platzieren Sie den Text, indem Sie manuell die Glyphen mit verschiedenen PDF-Grafiken Zeichenbefehle

Fall 1 ist in der Regel durchsucht werden. Fall 2 ist durchsuchbar, wenn die Schrift und Codierung gesund ist - wenn sie nicht (und das ist wahrscheinlich der Fall für nicht-lateinische Schriften), dann gibt es wahrscheinlich keine zuverlässige Möglichkeit ist die codierten Glyphen zurück auf Unicode abbilden (und übrigens - PDF ist ziemlich Unicode feindlich). Fall 3 ist völlig unergründlich, ohne zu wissen mehr darüber, wie die PDF generiert wurde. Fall 4 ist völlig unergründlich.

Wie gesagt, alle Fälle, Fälle mit einer OCR-Engine gelesen werden, die Arabisch versteht. Ich verstehe, dass die Iris Motor tut Arabisch.

Andere Tipps

Es könnte eigentlich nicht Text sein, oder es könnte in einem Behälter sein, dass Leser nicht achten auf. Es ist besonders häufig Textobjekte in Vektorformen zu erweitern, wenn man es zu tun mit Schriften, die die meisten Menschen auf ihrem System nicht installiert haben werden. Es sieht genauso auf dem Bildschirm, aber es ist nicht durchsuchbar.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top