PDF에서 텍스트를 올바르게 추출 (UTF-8)

https://stackoverflow.com//questions/10649511

pdf
text
utf-8
text-extraction
pdf-extraction

11-12-2019
|

문제

일부 PDF 파일 (프로그래밍 방식으로 일부 유틸리티 또는 복사 / 붙여 넣기)에서 텍스트를 추출하고 있지만 일부 문자는 정말로 이상하게 나옵니다.텍스트를 추출 할 때 UTF-8 인코딩을 지정하지만 "Ş, ţ, ă,"등의 문자는 ""˛ "와 같은 문자"s, t, a "(또는 적어도 표시된 문자)처럼 보입니다. 텍스트가 올바르게 표시되지만 예를 들어 복사하려고 할 때 해당 문자는 괜찮지 않습니다.
텍스트를 올바르게 추출하거나 어떤 방식 으로든 손상된 PDF 파일 (java / c / python etc 또는 windows / linux / etc 유틸리티)이 있습니까?

해결책

PDF에서 Acrobat에서 텍스트를 올바르게 추출 할 수 있습니까?

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow