Вопрос

Я хочу извлечь текст из некоторых файлов PDF (программно, с какой-то утилитой или даже с копией / вставкой), но некоторые символы выходят действительно странные.Хотя я указываю кодировку UTF-8 при извлечении текста, символов, таких как «ş, ţ, ă, etc etc выглядит как« ˛ », а не« S, T, A »(или, по крайней мере, отображаемый символ). Текст отображается правильно, но когда я пытаюсь скопировать его, например, эти символы не в порядке.

Есть ли способ извлечь текст правильно или ли эти файлы PDF повреждены каким-либо образом (Java / C / Python etc или Windows / Linux / etc утилита)?

Это было полезно?

Решение

Можете ли вы извлечь текст правильно в Acrobat из PDF?

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top