Extraindo corretamente o texto de um PDF (UTF-8)

https://stackoverflow.com//questions/10649511

pdf
text
utf-8
text-extraction
pdf-extraction

11-12-2019
|

Pergunta

Eu quero extrair texto de alguns arquivos PDF (programaticamente, com algum utilitário ou mesmo com cópia / pasta), mas alguns personagens estão saindo realmente estranhos.Embora eu especifique codificação UTF-8 ao extrair o texto, caracteres como "ş, ţ, ă," etc parecem "" ˛ "e não" s, t, a "(ou pelo menos o caractere exibido). O texto é exibido corretamente, mas quando tento copiá-lo, por exemplo, esses caracteres não estão bem.
Existe alguma maneira de extrair o texto corretamente ou são os arquivos PDF corrompidos de alguma forma (Java / C / Python etc ou Windows / Linux / etc utilitário)?

Solução

Você pode extrair o texto corretamente no Acrobat do PDF?

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow