Как сохранить текстовый файл в формате UTF-8 с помощью PDFTOTEXT
Вопрос
Я использую инструмент PDFTOTEXT OpenSource для преобразования PDF в текстовые файлы. Как я могу сохранить текстовые файлы в формате UTF-8, чтобы я мог сохранить все акцентные символы в текстовых файлах. Я использую приведенную ниже команду для преобразования, которая извлекает содержимое в текстовый файл, но не может видеть какие-либо акцентируемые символы.
PDFTOTEXT-TENC UTF-8 Book1.pdf book1.txt
Пожалуйста, помогите мне решить эту проблему.
Заранее спасибо,
Решение
Вы можете получить список доступных кодировков с помощью команды:
pdftotext -listenc
и выберите правильный, используя аргумент-доллар. Мой здесь, похоже, UTF-8 по умолчанию. Т.е. ваш "UTF-8" является отличным
pdftotext -enc UTF-8 your.pdf
Вы можете проверить свой локаль (lc_all, lang, ...).
РЕДАКТИРОВАТЬ:Я скачал следующий PDF:http://www.i18nguy.com/unicode/unicodeexample.pdf.
и преобразовал его на PC Windows 7 (немецкий) и XPDF 3.02PL5, используя команду:
pdftotext.exe -enc UTF-8 unicodeexample.pdf
Текстовый файл определенно кодируется UTF-8, так как все символы отображаются правильно. Для чего вы используете текстовый файл для? Если вы отображаете его через веб-приложение, кодировка вашего контента может быть просто ошибаться, а текстовый файл был преобразован, как вы этого хотели.
Дважды проверьте, используя либо браузер (принудите кодировку в Firefox для ISO-8859-1 и UTF-8) или с помощью редактора Hex.
Другие советы
Вещи немного грязны, поэтому я добавляю другой ответ.
Я взял PDF друг от друга, и мое лучшее предположение будет «проблемой» с использованным шрифтом:
- Откройте файл PDF в Acrobar Reader
- Выберите весь текст на странице
- Скопируйте его и вставьте его в текстовый редактор Unicode-Aware (нет «скрытых» OCR, поэтому вы копируете фактические данные)
Вы увидите, что CodePoints, которыми вы в конечном итоге не видите в читателе PDF. Какой бы ни был шрифт, он может иметь отображение, отличное от одного, определенного в стандарте Unicode. Таким образом, ваш контент «Wront» и не так много, вы можете с этим поделать.