استخراج النص بشكل صحيح من PDF (UTF-8)

https://stackoverflow.com//questions/10649511

11-12-2019
|

سؤال

أريد استخراج النص من بعض ملفات PDF (برمجيا، مع بعض الأداة أو حتى مع نسخ / لصق) ولكن بعض الأحرف تخرج غريبة حقا.على الرغم من أنني حدد ترميز UTF-8 عند استخراج النص، إلا أن الأحرف مثل "ş، ţ، ă،" ETC تبدو وكأنها "" وليس "S، T، A" (أو على الأقل حرف عرض). يتم عرض النص بشكل صحيح ولكن عندما أحاول نسخه على سبيل المثال، هذه الأحرف ليست موافق.
هل هناك طريقة لاستخراج النص بشكل صحيح أو هي تلك ملفات PDF تالفة بطريقة ما (Java / C / Python وما إلى ذلك، أو Windows / Linux / ETC الأداة المساعدة)؟

المحلول

هل يمكنك استخراج النص بشكل صحيح في Acrobat من PDF؟

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow