Extraindo corretamente o texto de um PDF (UTF-8)
-
11-12-2019 - |
Pergunta
Eu quero extrair texto de alguns arquivos PDF (programaticamente, com algum utilitário ou mesmo com cópia / pasta), mas alguns personagens estão saindo realmente estranhos.Embora eu especifique codificação UTF-8 ao extrair o texto, caracteres como "ş, ţ, ă," etc parecem "" ˛ "e não" s, t, a "(ou pelo menos o caractere exibido).
O texto é exibido corretamente, mas quando tento copiá-lo, por exemplo, esses caracteres não estão bem.
Existe alguma maneira de extrair o texto corretamente ou são os arquivos PDF corrompidos de alguma forma (Java / C / Python etc ou Windows / Linux / etc utilitário)?
Solução
Você pode extrair o texto corretamente no Acrobat do PDF?
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow