我想从一些pdf文件中提取文本(以编程方式,有一些实用程序,甚至是复制/粘贴),但有些人物就会出现真正奇怪。虽然我在提取文本时指定UTF-8编码,但是“,ţ,ă”等的字符看起来像“˛”而不是“s,t,a”(或至少显示的字符)。 该文本显示正确,但是当我尝试复制它时,这些字符不正常。
是否有某种方法可以正确提取文本,或者是那些以某种方式损坏的PDF文件(Java / C / Python等或Windows / Linux / etc实用程序)?

有帮助吗?

解决方案

您可以从PDF中正确提取文本吗?

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top