كشف الملعب باستخدام الشبكات العصبية [مغلقة]

https://stackoverflow.com/questions/2163267

24-09-2019
|

سؤال

وأنا أحاول أن استخدام آن من أجل الكشف عن الملعب من النوتات الموسيقية.شبكة بسيطة اثنين من طبقة MLP الذي المدخلات هي في الأساس DFT (متوسط و لها الموزعة) ، 12 مخرجات تتوافق مع 12 تلاحظ معين اوكتاف.

الشبكة يتم تدريب مع عدة عينات من تلك الملاحظات 12 لعبت من قبل بعض أداة (ملاحظة واحدة في وقت واحد) ، و بعض العينات من "الصمت".

نتائج جيدة فعلا.الشبكة هي قادرة على الكشف عن تلك الملاحظات الذي تلعبه أدوات مختلفة طقم بدقة ، إنه نسبيا amune إلى الضوضاء, و حتى لا تفقد انها sanety تماما عندما يتم لعب أغنية.

والهدف من ذلك هو أن تكون قادرة على الكشف عن مجسمة الصوت.حتى أنه عندما اثنين أو أكثر من الملاحظات لعبت معا ، وهما المقابلة الخلايا العصبية النار.الشيء المدهش هو أن الشبكة بالفعل من يفعل ذلك إلى حد ما (تدريب أكثر من عادية عينات فقط) ، ومع ذلك أقل باستمرار بدقة أقل من عادية الملاحظات.سؤالي هو كيف يمكنني تحسين القدرة على التعرف polyphnic الصوت ؟

المشكلة هي أنني لا حقا نفهم لماذا كان يعمل في الواقع بالفعل.الملاحظات المختلفة (أو DFTs) هي في الأساس نقاط مختلفة في الفضاء والتي شبكة المدربين.لذلك أرى لماذا لا تعترف مشابهة الأصوات (النقاط القريبة) ، ولكن ليس كيف "يخلص" الناتج عن مزيج من الملاحظات (الذي شكل نقطة بعيدة من كل من الأمثلة التدريبية).بنفس طريقة عمل شبكة الاتصال التي يتم تدريب أكثر من (0,0) (0,1) (1,0) = (0), وليس من المتوقع أن "إبرام" أن (1,1) = (1).

القوة الغاشمة aprroach أن هذا هو تدريب الشبكة مع العديد من الألحان عينات ممكن.ومع ذلك ، منذ الشبكة يبدو بطريقة أو بأخرى غامضة فهم الفكرة من عادية عينات هناك ربما شيء أكثر fundemential هنا.

أي نصائح ؟ (آسف على طول, راجع للشغل :).

المحلول

والسبب في أنه يعمل بالفعل ربما بكل بساطة أنك لم القطار إلى اختيار واحد فقط الإخراج (على الأقل أفترض أنك لم).في الحالة البسيطة عند الإخراج هو مجرد نقطة نتاج المدخلات الأوزان الأوزان سوف تصبح مطابقة المرشحات المقابلة الملعب.لأن كل شيء هو الخطية ، نواتج متعددة في آن واحد على تفعيلها إذا متعددة مطابقة المرشحات في نفس الوقت شهدت مباريات جيدة (كما هو الحال بالنسبة مجسمة الملاحظات).منذ الشبكة ربما يشمل الغير خطية ، فإن الصورة أكثر تعقيدا نوعا ما ، ولكن الفكرة هو على الارجح واحدة.

بشأن سبل تحسين التدريب مع الألحان العينات هي بالتأكيد واحدة الاحتمال.احتمال آخر هو أن التحول إلى خطي تصفية.تصدرها إدارة من الألحان الصوت هو الأساس مجموع DFTs كل فرد الصوت.تريد تركيبة خطية من المدخلات لتصبح المقابلة مزيج خطي من النواتج إذن خطي تصفية المناسب.

بالمناسبة, لماذا استخدام الشبكة العصبية على هذا في المقام الأول ؟ يبدو أن مجرد النظر في DFT و أخذ أقصى تردد من شأنها أن تعطيك نتائج أفضل وأكثر سهولة.

نصائح أخرى

وبمجرد Klapuri هو محترم الصوت الباحث الذي نشر طريقة لأداء الكشف عن الملعب عند مجسمة التسجيلات باستخدام الشبكات العصبية.

قد تريد مقارنة Klapuri طريقة لك.هو تماما هو موضح في رسالة الماجستير ، معالجة الإشارات طرق النسخ التلقائي من الموسيقى.يمكنك أن تجد العديد من الصحف على الانترنت أو شراء كتابه الذي يشرح له خوارزمية نتائج الاختبار.أطروحة الماجستير يرتبط أدناه.

https://www.cs.tut.fi/sgn/arg/klap/phd/klap_phd.pdf

كشف الملعب عند مجسمة التسجيلات هو موضوع صعب جدا و يحتوي على العديد من الخلافات -- أن تكون على استعداد لفعل الكثير من القراءة.الرابط أدناه يحتوي على نهج آخر كشف الملعب عند مجسمة التسجيلات التي وضعت من أجل التطبيق مجانا يسمى PitchScope لاعب.بلدي C++ شفرة المصدر متاحة على GitHub.com و هو المشار إليه في الرابط أدناه.مجانا إصدار الملف القابل للتنفيذ PitchScope لاعب هي أيضا متاحة على شبكة الإنترنت و يعمل على ويندوز.

في الوقت الحقيقي الكشف عن الملعب

أنا جربت مع تطوير CTRNN (الوقت المستمر الشبكة العصبية المتكررة) على كشف الفرق بين 2 موجات جيبية.لقد كان نجاحا معتدلا ، ولكن لم يكن لديه الوقت لمتابعة مع البنك من هذه الخلايا العصبية (أي في نطاقات مماثلة القوقعة).

ممكن واحد النهج توظيف الوراثية البرمجة (GP) ، لتوليد قصيرة قصاصات من التعليمات البرمجية التي يكشف الملعب.بهذه الطريقة سوف تكون قادرة على توليد القاعدة عن كيفية الكشف عن الملعب يعمل ، التي نأمل أن تكون قراءة الإنسان.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow