pourquoi un document pdf peut être pas consultable? [fermé]

https://stackoverflow.com/questions/1983561

22-09-2019
|

Question

J'ai un document PDF avec du contenu en langue arabe et lorsque je tente de rechercher dans le document pour un mot spécifique, lecteur Adobe renvoie aucun résultat.

il semble un problème de format ... Comment puis-je résoudre ce problème? merci.

La solution

Il y a au moins quatre différentes façons d'obtenir du texte dans un document PDF (dans l'ordre ou la probabilité):

Placez le texte avec les opérateurs de texte standard et polices standard
Placez le texte avec les opérateurs de texte standard avec des polices non standard
Dessine une ou plusieurs images qui représentent le texte
Placez le texte en dessinant manuellement les glyphes avec différents graphiques PDF commandes

Cas n ° 1 est généralement consultable. Cas n ° 2 est interrogeable si la police et l'encodage sont sains d'esprit - si elles ne sont pas (ce qui est probablement le cas pour les polices non latins) alors il n'y a probablement aucun moyen fiable pour cartographier les Glyphes encodées retour à Unicode (et par la manière - PDF est hostile assez Unicode). Cas n ° 3 est totalement insondables sans en savoir plus sur la façon dont a été généré le PDF. Cas n ° 4 est totalement insondables.

Cela dit, tous les cas cas être lus avec un moteur OCR qui comprend l'arabe. Je comprends que le moteur Iris fait l'arabe.

Autres conseils

Il pourrait ne pas être réellement texte, ou il pourrait être dans un récipient que le lecteur ne paie pas attention. Il est particulièrement fréquent d'étendre les objets texte en formes vectorielles lorsque vous traitez avec les polices que la plupart des gens ne vont pas avoir installé sur leur système. Il semble même à l'écran, mais ce n'est pas consultable.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow