Как сохранить текстовый файл в формате UTF-8 с помощью PDFTOTEXT

StackOverflow https://stackoverflow.com/questions/4039930

  •  27-09-2019
  •  | 
  •  

Вопрос

Я использую инструмент PDFTOTEXT OpenSource для преобразования PDF в текстовые файлы. Как я могу сохранить текстовые файлы в формате UTF-8, чтобы я мог сохранить все акцентные символы в текстовых файлах. Я использую приведенную ниже команду для преобразования, которая извлекает содержимое в текстовый файл, но не может видеть какие-либо акцентируемые символы.

PDFTOTEXT-TENC UTF-8 Book1.pdf book1.txt

Пожалуйста, помогите мне решить эту проблему.

Заранее спасибо,

Это было полезно?

Решение

Вы можете получить список доступных кодировков с помощью команды:

pdftotext -listenc

и выберите правильный, используя аргумент-доллар. Мой здесь, похоже, UTF-8 по умолчанию. Т.е. ваш "UTF-8" является отличным

pdftotext -enc UTF-8 your.pdf

Вы можете проверить свой локаль (lc_all, lang, ...).

РЕДАКТИРОВАТЬ:Я скачал следующий PDF:http://www.i18nguy.com/unicode/unicodeexample.pdf.

и преобразовал его на PC Windows 7 (немецкий) и XPDF 3.02PL5, используя команду:

pdftotext.exe -enc UTF-8 unicodeexample.pdf

Текстовый файл определенно кодируется UTF-8, так как все символы отображаются правильно. Для чего вы используете текстовый файл для? Если вы отображаете его через веб-приложение, кодировка вашего контента может быть просто ошибаться, а текстовый файл был преобразован, как вы этого хотели.

Дважды проверьте, используя либо браузер (принудите кодировку в Firefox для ISO-8859-1 и UTF-8) или с помощью редактора Hex.

Другие советы

Вещи немного грязны, поэтому я добавляю другой ответ.

Я взял PDF друг от друга, и мое лучшее предположение будет «проблемой» с использованным шрифтом:

  • Откройте файл PDF в Acrobar Reader
  • Выберите весь текст на странице
  • Скопируйте его и вставьте его в текстовый редактор Unicode-Aware (нет «скрытых» OCR, поэтому вы копируете фактические данные)

Вы увидите, что CodePoints, которыми вы в конечном итоге не видите в читателе PDF. Какой бы ни был шрифт, он может иметь отображение, отличное от одного, определенного в стандарте Unicode. Таким образом, ваш контент «Wront» и не так много, вы можете с этим поделать.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top