Question

Je veux extraire du texte de certains fichiers PDF (programmatiquement, avec un service utilitaire ou même avec copie / pâte), mais certains caractères sont vraiment étranges.Bien que je spécifie le codage UTF-8 lors de l'extraction du texte, des caractères tels que "ş, ţ, ă," etc. ressemblent à "" ˛ "et non" s, t, a "(ou au moins le caractère affiché). Le texte est affiché correctement mais lorsque j'essaie de le copier par exemple, ces caractères ne sont pas ok.
Existe-t-il un moyen d'extraire le texte correctement ou de ces fichiers PDF corrompus d'une manière ou d'une autre (Java / C / Python, etc. ou Windows / Linux / etc Utility)?

Était-ce utile?

La solution

Pouvez-vous extraire le texte correctement à Acrobat depuis le PDF?

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top