Extraire correctement le texte d'un PDF (UTF-8)

https://stackoverflow.com//questions/10649511

pdf
text
utf-8
text-extraction
pdf-extraction

11-12-2019
|

Question

Je veux extraire du texte de certains fichiers PDF (programmatiquement, avec un service utilitaire ou même avec copie / pâte), mais certains caractères sont vraiment étranges.Bien que je spécifie le codage UTF-8 lors de l'extraction du texte, des caractères tels que "ş, ţ, ă," etc. ressemblent à "" ˛ "et non" s, t, a "(ou au moins le caractère affiché). Le texte est affiché correctement mais lorsque j'essaie de le copier par exemple, ces caractères ne sont pas ok.
Existe-t-il un moyen d'extraire le texte correctement ou de ces fichiers PDF corrompus d'une manière ou d'une autre (Java / C / Python, etc. ou Windows / Linux / etc Utility)?

La solution

Pouvez-vous extraire le texte correctement à Acrobat depuis le PDF?

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow