كيفية تضمين OCR الخارجي في PDF الحالي؟

https://stackoverflow.com/questions/1489500

18-09-2019
|

سؤال

لدي مجموعة من الصور التي قمت بتشغيل تطبيق OCR. تؤدي هذه العملية إلى ملف XML مع إزاحة الأحرف. ثم قمت بتحويل الصور إلى قوات الدفاع الشعبي باستخدام Acrobat 9. الآن، أود إضافة معلومات ملف XML كطبقة نصية غير مرئية في PDF من أجل تحقيق PDF قابل للبحث. هل هناك طريقة سهلة وخالية؟

بعض التفاصيل:

لا أريد استخدام وظائف OCR Acrobat؛
تؤدي عملية OCR إلى ملف XML الذي يحتوي على عناصر مثل:

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

تحديث: قد يكون من الممكن القيام بما أريد بطريقة مختلفة. يفترض أن هناك بالفعل ملف PDF تم إنشاؤه من مجموعة من الصور، والتي تحتوي بالفعل على نص ocred. هل سيكون من الممكن (ربما برمجيا) الوصول إلى صورة كل صفحة فقط، معالجتها (على سبيل المثال، تحويلها إلى أحادية اللون)، وحفظه مرة أخرى إلى ملف PDF؟ إذا كانت الإجابة بنعم، فلن تضيع نص ocred.

يجب أن أضع هذا التحديث في سؤال منفصل؟

المحلول

لسؤال المتابعة الخاص بك حول معالجة ملفات PDF دون فقدان الطبقات المخفية: أعتقد ghostscript. قادر على القيام بذلك. على سبيل المثال، يجب على الأمر التالي تحويل PDF إلى Grayscale:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

نصائح أخرى

إذا كان كل ما تريد القيام به هو تحويل PDF موجود إلى Grayscale، فحاول Imagemagick.:

convert foo.pdf -colorspace Gray -compress zip gray.pdf

لا أعتقد أن هذا سيغير أي سمات أخرى في PDF.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow