OCR - معظم "مختلفة" أو "التعرف" أحرف ASCII؟

https://stackoverflow.com/questions/1412693

06-07-2019
|

سؤال

وأنا أبحث عن وسيلة لتحديد أكثر "مختلفة" أو "التعرف" أحرف ASCII N ... على سبيل المثال، إذا N = 10، ما من شأنه أن تكون الأحرف N الأكثر مختلفة في ASCII مجموعة من 0x21 إلى 0x7E ؟ ومن الواضح أن الحرف "X" هو مختلف تماما عن "O" (الرسالة)، ولكن "O" (الرسالة) وتشبه الى حد بعيد "0" (صفر). على افتراض OCR فرعية الطابع المقيد، بحيث الصفر، وسوف يتم الكشف عن الحرف O واحد أو الآخر فقط، واحد لم يكن لديك ما يدعو للقلق حول ما إذا كان O الصفر أو بريد إلكتروني، ما يمكن أن يكون الأكثر المختلفة N الأحرف التي محركات OCR النموذجية (على سبيل المثال تسراكت) التعرف بسهولة من سوء جودة الصورة الإدخال؟ الافتراضات. مثل "+" و "ر" يمكن أن يكون على نطاق واسع مخطئا لبعضها البعض. يمكن أن يتم، وبالتالي كل حرف الإدخال، سواء كان ذلك "+" أو "تي" أن تتوافق فقط إلى واحدة أو أخرى.

وشكرا، بن

المحلول

للأسف أنا لا أعتقد أنه سيكون هناك إجابة واحدة فريدة من نوعها لهذا الغرض.

وانها سوف تعتمد على الخط: مقارنة الطرق المختلفة التي 0، و، يتم تمثيل الصورة وأيضا يزدهر الأسلوبية

وانها سوف تعتمد على نوع من الضرر الأحرف تلقي قبل أن يتم مسحها ضوئيا، بعضها قد يكون أكثر مرونة ضد تلطخ، والبعض الآخر ضد التخفيضات، والبعض الآخر ضد الإفراط في الكتابة.

إذا كنت تبحث عن تمثيل هذا أفضل في الباقين على قيد الحياة المطبوعة، وفحصها وOCRed، ثم ربما 1D أو 2D الباركود سيكون خيارا أفضل؟

نصائح أخرى

وطريقة واحدة فقط للإجابة على هذا السؤال: اختباره. إنشاء مجموعة من عينات لكل حرف، وتشغيل OCR على كل عينة. الرسائل التي يحصل OCR حق في أغلب الأحيان أكثر "تميزا". الرسائل التي OCR يحصل خطأ في أغلب الأحيان هي الأكثر "مختلفة".

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow