Правильно извлекать текст из PDF (UTF-8)
-
11-12-2019 - |
Вопрос
Я хочу извлечь текст из некоторых файлов PDF (программно, с какой-то утилитой или даже с копией / вставкой), но некоторые символы выходят действительно странные.Хотя я указываю кодировку UTF-8 при извлечении текста, символов, таких как «ş, ţ, ă, etc etc выглядит как« ˛ », а не« S, T, A »(или, по крайней мере, отображаемый символ).
Текст отображается правильно, но когда я пытаюсь скопировать его, например, эти символы не в порядке.
Есть ли способ извлечь текст правильно или ли эти файлы PDF повреждены каким-либо образом (Java / C / Python etc или Windows / Linux / etc утилита)?
Решение
Можете ли вы извлечь текст правильно в Acrobat из PDF?
Не связан с StackOverflow