كيفية حفظ الملف النصي بتنسيق UTF-8 باستخدام pdftotext
سؤال
أنا أستخدم أداة OpenSource PDFTOText لتحويل PDF إلى الملفات النصية. كيف يمكنني حفظ الملفات النصية بتنسيق UTF-8 حتى أتمكن من الاحتفاظ بجميع أحرف اللكنة في الملفات النصية. أنا أستخدم الأمر أدناه لتحويل الذي يستخرج المحتوى إلى ملف نصي ولكن غير قادر على رؤية أي أحرف معلقة.
pdftotext -enc utf -8 book1.pdf book1.txt
الرجاء مساعدتي في حل هذه المشكلة.
شكرا مقدما،
المحلول
يمكنك الحصول على قائمة بالترميزات المتاحة باستخدام الأمر:
pdftotext -listenc
واختيار واحد الحق باستخدام حجة -end. منجم هنا يبدو أن UTF-8 بشكل افتراضي. أي أن "UTF-8" فائق
pdftotext -enc UTF-8 your.pdf
قد ترغب في التحقق من موقعك (lc_all ، lang ، ...).
تعديل:لقد قمت بتنزيل ملف PDF التالي:http://www.i18nguy.com/unicode/unicodeexample.pdf
وتحويله على جهاز كمبيوتر يعمل بنظام Windows 7 (ألماني) و XPDF 3.02PL5 باستخدام الأمر:
pdftotext.exe -enc UTF-8 unicodeexample.pdf
من المؤكد أن الملف النصي مشفر UTF-8 ، حيث يتم عرض جميع الأحرف بشكل صحيح. ماذا تستخدم الملف النصي؟ إذا كنت تعرضه من خلال تطبيق ويب ، فقد يكون ترميز المحتوى الخاص بك مجرد خطأ ، بينما تم تحويل الملف النصي كما تريد.
تحقق مزدوجًا باستخدام متصفح (فرض الترميز في Firefox إلى ISO-8859-1 و UTF-8) أو باستخدام محرر HEX.
نصائح أخرى
الأمور أصبحت فوضوية قليلاً ، لذلك أقوم بإضافة إجابة أخرى.
لقد تفصلت PDF وأفضل تخميني سيكون "مشكلة" مع الخط المستخدم:
- افتح ملف PDF في Acrobar Reader
- حدد كل النص على الصفحة
- انسخه واضغط عليه في محرر نصوص يونيكود (لا يوجد OCR "مخفي" ، لذلك تقوم بنسخ البيانات الفعلية)
سترى أن نقاط الترميز التي ينتهي بها الأمر ليست هي التي تراها في قارئ PDF. أيا كان الخط ، فقد يكون له رسم خرائط مختلف عن المعرفة في معيار Unicode. على هذا النحو ، فإن المحتوى الخاص بك هو "رائع" وليس هناك الكثير مما يمكنك فعله حيال ذلك.