Pergunta

Eu quero extrair texto de alguns arquivos PDF (programaticamente, com algum utilitário ou mesmo com cópia / pasta), mas alguns personagens estão saindo realmente estranhos.Embora eu especifique codificação UTF-8 ao extrair o texto, caracteres como "ş, ţ, ă," etc parecem "" ˛ "e não" s, t, a "(ou pelo menos o caractere exibido). O texto é exibido corretamente, mas quando tento copiá-lo, por exemplo, esses caracteres não estão bem.
Existe alguma maneira de extrair o texto corretamente ou são os arquivos PDF corrompidos de alguma forma (Java / C / Python etc ou Windows / Linux / etc utilitário)?

Foi útil?

Solução

Você pode extrair o texto corretamente no Acrobat do PDF?

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top