正确提取来自PDF的文本（UTF-8）

https://stackoverflow.com//questions/10649511

pdf
text
utf-8
text-extraction
pdf-extraction

11-12-2019
|

题

我想从一些pdf文件中提取文本（以编程方式，有一些实用程序，甚至是复制/粘贴），但有些人物就会出现真正奇怪。虽然我在提取文本时指定UTF-8编码，但是“，ţ，ă”等的字符看起来像“˛”而不是“s，t，a”（或至少显示的字符）。该文本显示正确，但是当我尝试复制它时，这些字符不正常。
是否有某种方法可以正确提取文本，或者是那些以某种方式损坏的PDF文件（Java / C / Python等或Windows / Linux / etc实用程序）？

解决方案

您可以从PDF中正确提取文本吗？

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow