سؤال

دعنا نقول أن لدي صورة نقطية صغيرة تحتوي على رقم واحد (0..9) في الكتابة اليدوية.

هل من الممكن اكتشاف الرقم باستخدام Perceptron (الطبقتين)؟

هل هناك إمكانيات أخرى للكشف عن أرقام واحدة من الصور النقطية إلى جانب استخدام الشباك العصبية؟

هل كانت مفيدة؟

المحلول

تتطلب إطعام كل بكسل من صورة نقطية مباشرة في شبكة عصبية الكثير من التدريب، ولن يعمل بشكل جيد لمعالجة التحجيم أو دوران الصورة.

لمساعدة الشبكة العصبية على أداء تصنيف جيد، تحتاج إلى أداء بعض الخطوات المسبقة.

  • تطبيع الصورة:
    • اضبط التباين والسطوع بحيث يطابق الرسم البياني للصورة صورة مرجعية.
    • طمس الصورة، لإزالة الضوضاء.
    • تحويله إلى الأسود والأبيض، وذلك باستخدام بعض العتبة.
    • ابحث عن المربع المحيط للشكل، وحجم إلى حجم محدد مسبقا.
  • احسب ميزات مختلفة من الصورة التي يمكن استخدامها للتمييز عن رقم واحد من آخر:
    • ال رقم Euler من الصورة - يخبرك كم عدد "الثقوب" الموجودة في الشكل (مثل فتحتين للأرقام 8).
    • عدد البكسل الأبيض (منطقة الرقم)
    • ال المكونات الرئيسية من مجموعة إحداثيات البكسلات البيضاء - يخبرك كيف "ممدود" الشكل.
    • ... ميزات أخرى يمكنك التفكير في ذلك تميل إلى وجود قيم مماثلة لأرقام مماثلة.

يمكن أيضا استخدام المكونات الرئيسية لتطبيع دوران الشكل، بحيث يكون أطول محور عمودي.

الميزات هي ما تتغذى في الشبكة العصبية للتصنيف، وليس البكسل.

نصائح أخرى

فيما يلي رابط إلى قاعدة بيانات ضخمة من أرقام مكتوبة بخط اليد. تحتوي الصفحة الأولى أيضا على بيانات الأداء النسبي للعديد من الطرق المختلفة بما في ذلك الشبكات العصبية لطبقة 2. هذا يجب أن يعطيك بداية جيدة:قاعدة بيانات وأداء MNIMES

قد ترغب أيضا في التحقق عمل جيف هينتون في آلات بولتزمان المقيدة الذي يقول ينفذ جيدا إلى حد ما، وهناك محاضرة توضيحية جيدة على موقعه (ممتع للغاية).

هنا هو مثال ماتلاب يستخدم شبكة عصبية مدربة للكشف عن أرقام واحدة (حجم الصورة ثابتة إلى 28 * 28).

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top