ما هو أفضل نهج التعرف على الأنماط في البيانات و ما هي أفضل طريقة لمعرفة المزيد عن الموضوع ؟

https://stackoverflow.com/questions/1441319

10-07-2019
|

سؤال

المطور أنا أعمل مع تطوير برنامج يحلل الصور من الرصيف إلى العثور على الشقوق في الرصيف.لكل الكراك البرنامج يجد أنها تنتج إدخال في ملف يقول لي أي بكسل الماكياج خاصة الكراك.هناك نوعان من المشاكل مع البرمجيات على الرغم من:

1) وتنتج عدة ايجابيات كاذبة

2) إذا وجد الكراك, لقد عثر على أجزاء صغيرة من ذلك يدل على تلك الأقسام كما يجري منفصلة الشقوق.

عملي هو كتابة البرامج التي سوف قراءة هذه البيانات ، تحليل و معرفة الفرق بين كاذبة ايجابيات الفعلية الشقوق.أنا أيضا بحاجة لتحديد كيفية تجميع جميع أجزاء صغيرة من صدع واحد.

لقد حاولت العديد من الطرق لتصفية البيانات إلى القضاء كاذبة ايجابيات و تم استخدام الشبكات العصبية إلى درجة محدودة من نجاح إلى مجموعة الشقوق معا.أنا أفهم سوف يكون هناك خطأ, ولكن اعتبارا من الآن, هناك فقط الكثير من الخطأ.هل لدى أحدكم أي فكرة غير منظمة العفو الدولية الخبراء أن أفضل طريقة لإنجاز مهمتي أو معرفة المزيد عن ذلك ؟ ما هي أنواع الكتب التي يجب أن تقرأ ، أو أي نوع من الطبقات يجب أن تأخذ ؟

تحرير سؤالي هو أكثر حول كيفية إشعار أنماط زميلي في العمل البيانات وتحديد تلك الأنماط الفعلية الشقوق.انها أعلى مستوى المنطق الذي يهمني ، وليس ذلك بكثير على مستوى منخفض المنطق.

تحرير في واقع الأمر سيستغرق ما لا يقل عن 20 عينة من الصور لإعطاء دقة تمثيل البيانات أعمل مع.الأمر يختلف كثيرا.ولكن لدي عينة هنا, هنا, ، هنا.هذه الصور تم بالفعل معالجتها من قبل زميلي في العمل العملية.الأحمر والأزرق والأخضر البيانات هو ما يجب أن تصنيف (المدرجات الحمراء الداكنة الكراك, الأزرق تقف على ضوء الكراك, والأخضر يرمز واسعة/مختومة الكراك).

المحلول

بالإضافة إلى تعليقات مفيدة حول معالجة الصور ، كما يبدو أنك تتعامل مع تجميع المشكلة.

خوارزميات التجميع تأتي من آلة التعلم الأدب على وجه التحديد التعلم غير خاضعة للرقابة.كما يوحي الاسم, الفكرة الأساسية هي محاولة تحديد مجموعات الطبيعية من نقاط البيانات في بعض مجموعة كبيرة من البيانات.

على سبيل المثال, الصورة أدناه يبين كيف خوارزمية التجميع قد الفريق مجموعة من النقاط إلى 7 مجموعات (موضحة الدوائر اللون):

_{(المصدر: natekohl.net)}

في خوارزمية التجميع تحاول مرارا وتكرارا دمج الشقوق الصغيرة لتشكيل أكبر الشقوق حتى بعض وقف استيفاء المعايير.النتيجة النهائية ستكون مجموعة أصغر من انضم الشقوق.بالطبع الشقوق هي مختلفة قليلا من ثنائي الأبعاد نقطة -- جزء من الحيلة في الحصول على خوارزمية التجميع للعمل هنا سيتم تحديد مسافة مفيدة متري بين اثنين من الشقوق.

شعبية خوارزميات التجميع تتضمن k-means clustering (demo) ، الهرمية تجميع.هذا الرابط الثاني أيضا جميل خطوة بخطوة شرح كيف k-يعني يعمل.

تحرير:هذه الورقة من قبل بعض المهندسين في فيليبس تبدو ذات الصلة إلى ما كنت تحاول القيام به:

Chenn-جونغ هوانغ ، تشوا-شين وانغ تشي فنغ وو" ، تقنيات معالجة الصور على رقاقة عيب العنقودية تحديد," IEEE تصميم واختبار أجهزة الكمبيوتر, vol.19.لا.2, pp.44-48 ، آذار / مارس-نيسان/أبريل عام 2002.

إنهم يقومون البصرية التفتيش عن العيوب على رقائق السليكون ، واستخدام متوسط تصفية لإزالة الضوضاء قبل استخدام أقرب الجار تجميع خوارزمية للكشف عن العيوب.

وهنا بعض الأوراق ذات الصلة/الكتب التي يستشهدون التي قد تكون مفيدة:

م.Taubenlatt جيBatchelder, "منقوشة رقاقة التفتيش باستخدام المكانية تصفية المجموعة البيئة,” البصريات التطبيقية, vol.31.لا.17 حزيران / يونيه 1992, pp.3354-3362.
واو-L.تشن S. F.ليو،"العصبية-شبكة نهج الاعتراف عيب الأنماط المكانية في تصنيع أشباه الموصلات.” IEEE العابرة.تصنيع أشباه الموصلات, vol.13.لا.3 آب / أغسطس الجاري.2000, pp.366-373.
G.إيرل, R.Johnsonbaugh و. س.وجوست, التعرف على الأنماط وتحليل الصور, Prentice Hall, Upper Saddle River, N. J., 1996.

نصائح أخرى

المشكلة تقع في مجال واسع من تصنيف الصور.هذه الأنواع من المشاكل يمكن أن يكون بالغ الصعوبة, و في نهاية اليوم, حل لهم هو الفن.يجب استغلال كل قطعة من المعرفة لديك حول المشكلة المجال أن تجعل لين العريكة.

واحد المسألة الأساسية هو التطبيع.كنت تريد أن يكون كذلك تصنيف الكائنات أن تكون مماثلة قدر الإمكان في تمثيل البيانات.على سبيل المثال, إذا كان لديك صورة من الشقوق ، تفعل كل الصور لها نفس التوجه ؟ إن لم يكن, ثم تناوب صورة قد تساعد في التصنيف.وبالمثل ، وتوسيع نطاق الترجمة (راجع هذا)

تحتاج أيضا إلى إزالة الكثير من بيانات لا صلة لها بالموضوع ممكن من التدريب الخاص بك مجموعات.بدلا من مباشرة العمل على الصورة ، وربما يمكن استخدام الحافة استخراج (على سبيل المثال حكيم الكشف عن الحافة).سيؤدي هذا إلى إزالة جميع 'الضجيج' من الصورة ، ولم يتبق سوى حواف.التمرين ثم خفضت إلى تحديد حواف الشقوق التي هي طبيعية الرصيف.

إذا كنت ترغب في المسار السريع إلى الحل ثم أقترح عليك أولا جرب حظك مع التلافيف الشبكة العصبية, التي يمكن أن تؤدي جيدة تصنيف الصور مع الحد الأدنى من تجهيزها و noramlization.جميلة معروفة في التعرف على الكتابة اليدوية, و قد يكون مجرد حق ما تفعله.

أنا مشوشة قليلا بالمناسبة كنت قد اخترت لكسر المشكلة.إذا كان زميلك في العمل لا تحديد كاملة الشقوق ، المواصفات ، ثم يجعل المشكلة الخاصة بك.ولكن إذا كنت تدير غرزة جميع الشقوق معا ، وتجنب له ايجابيات كاذبة ، ثم ألم به فقط وظيفته ؟

أن جانبا ، وأعتقد أن هذا هو الكشف عن الحافة المشكلة بدلا من تصنيف المشكلة.إذا حافة كاشف جيد ، ثم القضايا الخاصة بك الذهاب بعيدا.

إذا كنت لا تزال مجموعة على التصنيف ، ثم وأنت تسير في حاجة إلى التدريب مع مجموعة معروفة الإجابات ، حيث كنت بحاجة إلى وسيلة لقياس ما يميز إيجابية كاذبة من الكراك.ومع ذلك ما زلت أعتقد أنه من غير المرجح أن المصنف الخاص بك سوف تكون قادرا على الاتصال الشقوق, لأن هذه هي محددة لكل فرد رصف بلاطة.

يجب أن نتفق مع ire_and_curses بمجرد الغوص في عالم الكشف عن الحافة إلى التصحيح الخاص بك co-المطورين الكراك الكشف عن وإزالة له ايجابيات كاذبة ، يبدو كما لو كنت تفعل وظيفته.إذا كان يمكنك تصحيح ما له برنامج لا كشف و إزالة له ايجابيات كاذبة حول ما أعطاك.يبدو أنك سوف تكون قادرة على القيام بذلك للحصول على صورة كاملة.

إذا كانت المواصفات بالنسبة له للكشف عن الشقوق ، وتصنيفها ، ثم إنه عمله للقيام حافة كشف وإزالة ايجابيات كاذبة.وظيفتك أن تأخذ ما أعطاك وتصنيف ما هو نوع من الكراك هو.إذا كان لديك للقيام الكشف عن الحافة أن تفعل ذلك ، ثم يبدو أنك غير بعيد من وضع المشارك المطور من العمل.

هناك بعض الإجابات هنا.ولكن إذا كنت غير قادر على حل المشكلة ، قد تنظر في الترك الميكانيكية.في بعض الحالات يمكن أن تكون فعالة جدا من حيث التكلفة بالنسبة العنيد المشاكل.أنا أعرف الناس الذين استخدامه لجميع أنواع الأشياء مثل هذا (التحقق من أن الإنسان يمكن القيام به بسهولة ولكن يثبت من الصعب رمز).

https://www.mturk.com/mturk/welcome

أنا لست خبيرا بأي وسيلة, ولكن حاول تبحث في هار شلالات.قد ترغب أيضا في التجربة مع بنسف أدوات.هذين الأمرين معا هل كشف الوجه وغيرها من وجوه الكشف عن المهام.

قد تضطر إلى القيام "التدريب" لتطوير هار سلسلة من الشقوق في الرصيف.

ما هو أفضل نهج التعرف على الأنماط في البيانات و ما هي أفضل طريقة لمعرفة المزيد عن الموضوع ؟

أفضل نهج هو أن الدراسة التعرف على نمط وتعلم الآلة.وأود أن تبدأ مع دودا نمط التصنيف و استخدام الأسقف والتعرف على نمط آلة التعلم كمرجع.سوف يستغرق بعض الوقت جيدة لهذه المادة أن يغرق ، ولكن الحصول على الشعور الأساسي من التعرف على الأنماط الرئيسية النهج تصنيف المشكلة يجب أن تعطيك الاتجاه.يمكنني الجلوس هنا و جعل بعض الافتراضات حول البيانات الخاصة بك, ولكن بصراحة ربما لديك فكرة أفضل عن مجموعة البيانات منذ كنت قد تم التعامل مع هذا الأمر أكثر من أي شخص.بعض من تقنية مفيدة على سبيل المثال يمكن أن يكون دعم مكافحة ناقلات آلة و تعزيز.

تحرير:تطبيق مثيرة للاهتمام من دعم في الوقت الحقيقي كشف الوجه.انظر فيولا/جونز سرعة الكشف عن وجوه باستخدام عززت سلسلة من بسيطة الميزات (pdf).أيضا, النظر في عينة من الصور ، أنا أقول يجب أن تحاول تحسين الكشف عن الحافة قليلا.ربما تجانس الصورة مع التمويه و تشغيل أكثر عدوانية الكشف عن الحافة يمكن أن تزيد الكشف عن الشقوق الصغيرة.

أقترح عليك أن تلتقط أي صورة تجهيز الكتب و قرأت في هذا الموضوع.لا سيما, كنت قد تكون مهتمة في الصرفي العمليات مثل تمدد و تآكل, الذي يكمل المهمة حافة كاشف.الكثير من المواد على شبكة الإنترنت...

هذه صورة معالجة المشكلة.وهناك الكثير من الكتب التي كتبت حول هذا الموضوع, و الكثير من المواد في هذه الكتب سوف تتجاوز خط الكشف عن مشكلة مثل هذه.هنا هو مخطط أسلوب واحد التي من شأنها العمل على المشكلة.

عندما تجد الكراك, تجد بعض بكسل التي تشكل الكراك.الكشف عن الحافة مرشحات أو غيره من حافة الكشف عن الأساليب التي يمكن استخدامها في هذا.
تبدأ مع واحد (أي) بكسل في الكراك ثم "متابعة" أن تجعل متعددة من الكراك -- حفظ النقاط التي تشكل خط.يمكنك إزالة بعض نقاط وسيطة إذا كانت تقع على مقربة من خط مستقيم.تفعل هذا مع كل الكراك بكسل.إذا كان لديك على شكل نجمة الكراك, لا تقلق بشأن ذلك.فقط اتبع بكسل في واحد (أو اثنين) الاتجاهات لجعل خط ، ثم إزالة هذه بكسل من مجموعة من الكراك بكسل.أخرى الساقين من النجوم كما اعترف خطوط منفصلة (الآن).
قد تؤدي بعض رقيق على الكراك بكسل قبل الخطوة 1.وبعبارة أخرى, تحقق من الجيران بكسل, و إن كان هناك الكثير ثم تجاهل ذلك بكسل.(هذا هو تبسيط -- يمكنك العثور على العديد من الخوارزميات هذا.) آخر تجهيزها خطوة قد تكون إزالة جميع خطوط رقيقة جدا أو اثنين خافت.هذا قد يساعد مع ايجابيات كاذبة.
الآن لديك الكثير من القصير ، متعددة الخطوط.نقاط من كل سطر العثور على أقرب خط.إذا كانت الخطوط هي حدود التسامح ، ثم "الاتصال" خطوط -- رابط لهم أو إضافتها إلى نفس الهيكل أو مجموعة.بهذه الطريقة, يمكنك الاتصال الوثيق الشقوق التي من المرجح أن تكون نفس الكراك في الخرسانة.

يبدو بغض النظر عن الخوارزمية بعض التكيف المعلمة سوف يكون من الضروري الأداء الجيد.الكتابة لذلك فمن السهل لجعل التغييرات الطفيفة في أشياء مثل كثافة عتبات الحد الأدنى والحد الأقصى سمك, الخ.

اعتمادا على بيئة الاستخدام ، قد تريد أن تسمح للمستخدم الحكم هل تحديد حالات مشكوك فيها ، و/أو تتيح للمستخدم استعراض جميع الشقوق ثم انقر فوق الجمع ، سبليت أو إزالة الكشف عن الشقوق.

حصلت على بعض إجابة جيدة جدا, esp.@نيت, و جميع روابط الكتب المقترحة هي جديرة بالاهتمام.ومع ذلك, أنا مندهش لا أحد اقترح أحد الكتاب الذي كان بلدي اختيار أعلى -- أورايلي برمجة الذكاء الجماعي.العنوان قد لا يبدو وثيق الصلة سؤالك, ولكن صدقني, محتويات هي:واحدة من الأكثر عملية ، مبرمج المنحى تغطية البيانات التعدين "آلة التعلم" لقد رأيت من أي وقت مضى.تجربه!-)

يبدو قليلا مثل مشكلة هناك في ميكانيكا الصخور ، حيث توجد المفاصل في كتلة الصخور و هذه المفاصل يجب أن تكون مجمعة في 'مجموعات' قبل التوجه طول و خصائص أخرى.في هذه الحالة أسلوب واحد أن يعمل بشكل جيد هو تجميع على الرغم من الكلاسيكية K-يعني لا يبدو أن لديها بعض المشاكل التي يجب معالجتها في الماضي باستخدام الخوارزمية الجينية لتشغيل interative الحل.

في هذه الحالة أظن أنه قد لا تعمل تماما بنفس الطريقة.في هذه الحالة أظن أن تحتاج إلى إنشاء المجموعات الخاصة بك أن تبدأ مع أيطولية وعرضية.... الخو تحدد بالضبط ما behviour من كل مجموعة هو أييمكن واحد طولية الكراك فرع جزء الطريق على طول هو طول و لو لا ما فعل ذلك الأمر التصنيف.

وبمجرد الانتهاء من ذلك ثم لكل الكراك, وأود أن توليد عشوائي الكراك أو نمط الشقوق على أساس تصنيف قمت بإنشائها.ثم يمكنك استخدام ما يشبه النهج المربعات لنرى كيف عن كثب الكراك يتم فحص يناسب ضد عشوائي الكراك / الشقوق كنت قد ولدت.يمكنك تكرار هذا التحليل عدة مرات في نحو من مونتي كارلو تحليل لتحديد أي من بشكل عشوائي الكراك / الشقوق يناسب واحد يتم فحص.

ثم نتعامل مع ايجابيات كاذبة سوف تحتاج إلى إنشاء نمط لكل أنواع مختلفة من ايجابيات كاذبة أيحافة الرصيف هو خط مستقيم.ثم سوف تكون قادرة على تشغيل تحليل تنتقي وهي المجموعة الأكثر احتمالا لكل الكراك قمت بتحليل.

أخيرا, سوف تحتاج إلى قرص تعريف الكراك مختلف أنواع لمحاولة الحصول على نتيجة أفضل.أعتقد أن هذا يمكن أيضا استخدام نهج الآلي أو اليدوي نهج اعتمادا على كيفية تحديد الكراك مختلف الأنواع.

آخر تعديل يساعد في بعض الأحيان عندما أقوم مشاكل من هذا القبيل هو أن يكون مجموعة عشوائية.من خلال التغيير والتبديل حساسية من مجموعة عشوائية أيكيف أكثر أو أقل احتمالا الكراك هو أن يتم تضمينها في المجموعة العشوائية, في بعض الأحيان يمكنك ضبط sensitivty من نموذج إلى الأنماط المعقدة التي لا تناسب حقا في أي مكان.

حظا سعيدا ، يبدو لي أن لديك تحديا حقيقيا.

يجب أن تقرأ عن استخراج البيانات, خاصة نمط التعدين.

التنقيب عن البيانات هو عملية استخراج أنماط من البيانات. المزيد من البيانات التي تم جمعها مع كمية البيانات التي تتضاعف كل ثلاث سنوات ، واستخراج البيانات متزايد الأهمية أداة تحويل هذه البيانات إلى معلومات.وهي تستخدم عادة في مجموعة واسعة من ممارسات التنميط ، مثل التسويق, المراقبة والكشف عن الغش و الاكتشافات العلمية.

كتاب جيد في هذا الموضوع التنقيب عن البيانات:عملية آلة الأدوات وتقنيات التعلم

_{(المصدر: وايكاتو.ac.نيوزيلندي)} ](http://www.amazon.com/Data-Mining-Ian-H-Witten/dp/3446215336 "ISBN 0-12-088407-0")

أساسا ما عليك القيام به هو تطبيق الإحصائية أدوات ومنهجيات إلى مجموعات البيانات الخاصة بك.الأكثر استخداما مقارنة المنهجيات الطالب t-test و تشي مربع اختبار, لمعرفة ما إذا كان اثنين لا علاقة المتغيرات ذات الصلة مع بعض الثقة.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow