سؤال

لدي وثيقة PDF مع محتوى باللغة العربية ، وعندما أحاول البحث داخل المستند عن كلمة محددة ، لا يعيد Adobe Reader أي نتائج.

يبدو مشكلة التنسيق ... كيف يمكنني إصلاح ذلك؟ شكرًا.

هل كانت مفيدة؟

المحلول

هناك أربع طرق مختلفة على الأقل للحصول على نص في مستند PDF (بالترتيب أو الاحتمال):

  1. ضع النص بمشغلي النصوص القياسية والخطوط القياسية
  2. ضع النص بمشغلي النصوص القياسية بخطوط غير قياسية
  3. ارسم صورة واحدة أو أكثر تمثل النص
  4. ضع النص عن طريق رسم الرسوم الرسومية يدويًا بأوامر رسومات PDF المختلفة

الحالة 1 يمكن البحث فيها عادة. يمكن البحث في الحالة 2 إذا كان الخط والترميز عاقلين - إذا لم يكن ذلك (ومن المحتمل أن يكون هذا هو الحال بالنسبة للخطوط غير اللاتينية) ، فربما لا توجد طريقة موثوقة لرسم خريطة الرسوم المتحركة المشفرة إلى Unicode (وبالمناسبة - PDF هو Unicode إلى حد ما معادية). الحالة 3 غير قابلة للبحث تمامًا دون معرفة المزيد حول كيفية إنشاء PDF. الحالة 4 غير قابلة للبحث تماما.

ومع ذلك ، تتم قراءة جميع الحالات مع محرك OCR الذي يفهم العربية. أنا أفهم أن محرك القزحية هل اللغة العربية.

نصائح أخرى

قد لا يكون نصًا في الواقع ، أو قد يكون في حاوية لا ينتبه إليها القارئ. من الشائع بشكل خاص توسيع كائنات النص في أشكال متجه عندما تتعامل مع الخطوط التي لن يتم تثبيتها على نظامهم. يبدو الأمر نفسه على الشاشة ، لكنه غير قابل للبحث.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top