Правильно извлекать текст из PDF (UTF-8)

https://stackoverflow.com//questions/10649511

11-12-2019
|

Вопрос

Я хочу извлечь текст из некоторых файлов PDF (программно, с какой-то утилитой или даже с копией / вставкой), но некоторые символы выходят действительно странные.Хотя я указываю кодировку UTF-8 при извлечении текста, символов, таких как «ş, ţ, ă, etc etc выглядит как« ˛ », а не« S, T, A »(или, по крайней мере, отображаемый символ). Текст отображается правильно, но когда я пытаюсь скопировать его, например, эти символы не в порядке.

Есть ли способ извлечь текст правильно или ли эти файлы PDF повреждены каким-либо образом (Java / C / Python etc или Windows / Linux / etc утилита)?

Решение

Можете ли вы извлечь текст правильно в Acrobat из PDF?

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow