كيفية حفظ الملف النصي بتنسيق UTF-8 باستخدام pdftotext

https://stackoverflow.com/questions/4039930

27-09-2019
|

سؤال

أنا أستخدم أداة OpenSource PDFTOText لتحويل PDF إلى الملفات النصية. كيف يمكنني حفظ الملفات النصية بتنسيق UTF-8 حتى أتمكن من الاحتفاظ بجميع أحرف اللكنة في الملفات النصية. أنا أستخدم الأمر أدناه لتحويل الذي يستخرج المحتوى إلى ملف نصي ولكن غير قادر على رؤية أي أحرف معلقة.

pdftotext -enc utf -8 book1.pdf book1.txt

الرجاء مساعدتي في حل هذه المشكلة.

شكرا مقدما،

المحلول

يمكنك الحصول على قائمة بالترميزات المتاحة باستخدام الأمر:

pdftotext -listenc

واختيار واحد الحق باستخدام حجة -end. منجم هنا يبدو أن UTF-8 بشكل افتراضي. أي أن "UTF-8" فائق

pdftotext -enc UTF-8 your.pdf

قد ترغب في التحقق من موقعك (lc_all ، lang ، ...).

تعديل:لقد قمت بتنزيل ملف PDF التالي:http://www.i18nguy.com/unicode/unicodeexample.pdf

وتحويله على جهاز كمبيوتر يعمل بنظام Windows 7 (ألماني) و XPDF 3.02PL5 باستخدام الأمر:

pdftotext.exe -enc UTF-8 unicodeexample.pdf

من المؤكد أن الملف النصي مشفر UTF-8 ، حيث يتم عرض جميع الأحرف بشكل صحيح. ماذا تستخدم الملف النصي؟ إذا كنت تعرضه من خلال تطبيق ويب ، فقد يكون ترميز المحتوى الخاص بك مجرد خطأ ، بينما تم تحويل الملف النصي كما تريد.

تحقق مزدوجًا باستخدام متصفح (فرض الترميز في Firefox إلى ISO-8859-1 و UTF-8) أو باستخدام محرر HEX.

نصائح أخرى

الأمور أصبحت فوضوية قليلاً ، لذلك أقوم بإضافة إجابة أخرى.

لقد تفصلت PDF وأفضل تخميني سيكون "مشكلة" مع الخط المستخدم:

افتح ملف PDF في Acrobar Reader
حدد كل النص على الصفحة
انسخه واضغط عليه في محرر نصوص يونيكود (لا يوجد OCR "مخفي" ، لذلك تقوم بنسخ البيانات الفعلية)

سترى أن نقاط الترميز التي ينتهي بها الأمر ليست هي التي تراها في قارئ PDF. أيا كان الخط ، فقد يكون له رسم خرائط مختلف عن المعرفة في معيار Unicode. على هذا النحو ، فإن المحتوى الخاص بك هو "رائع" وليس هناك الكثير مما يمكنك فعله حيال ذلك.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow