Extraire correctement le texte d'un PDF (UTF-8)
-
11-12-2019 - |
Question
Je veux extraire du texte de certains fichiers PDF (programmatiquement, avec un service utilitaire ou même avec copie / pâte), mais certains caractères sont vraiment étranges.Bien que je spécifie le codage UTF-8 lors de l'extraction du texte, des caractères tels que "ş, ţ, ă," etc. ressemblent à "" ˛ "et non" s, t, a "(ou au moins le caractère affiché).
Le texte est affiché correctement mais lorsque j'essaie de le copier par exemple, ces caractères ne sont pas ok.
Existe-t-il un moyen d'extraire le texte correctement ou de ces fichiers PDF corrompus d'une manière ou d'une autre (Java / C / Python, etc. ou Windows / Linux / etc Utility)?
La solution
Pouvez-vous extraire le texte correctement à Acrobat depuis le PDF?