التي خوارزمية يجب استخدام إشارة (الصوت) فئة واحدة التصنيف ؟

https://stackoverflow.com/questions/441438

22-07-2019
|

سؤال

التحديث كان هذا السؤال سابقا بعنوان "أعطني اسم خوارزمية بسيطة إشارة(الصوت) الكشف عن نمط"

وهدفي هو الكشف عن وجود نمط معين في صاخبة إشارة.أريد أن الكشف عن وجود نوع من الحشرات تسجيل الأصوات مع ميكروفون.لدي المسجلة مسبقا صوت الحشرات في شكل رقمي.
أنا لا أحاول أن أفعل التعرف على الصوت.
أنا بالفعل باستخدام الإلتواء بين إشارة الدخل ونمط لتحديد مستوى التشابه.ولكن أعتقد أن هذا الأسلوب هو أكثر ملاءمة المنفصلة الوقت (أيالاتصالات الرقمية ، حيث إشارات يحدث في فترات زمنية محددة) و التمييز بين إشارة الدخل بين 2 أنماط معينة (علي نمط واحد فقط).
أخشى أن استخدام الشبكات العصبية لأنني لم تستخدمها قط ، أنا لا أعرف ما إذا كنت يمكن تضمين هذا القانون.

فأرجو أن تشير لي بعض المناهج الأخرى ، أو محاولة لإقناع لي أن بلدي النهج الحالي لا يزال فكرة جيدة أو أن الشبكات العصبية قد يكون ممكنا الطريقة ؟

التحديث لدي 2 إجابات جيدة ، ولكن آخر واحد سيكون موضع ترحيب ، حتى يكافأ.

المحلول

خطوة من الإلتواء هو ديناميكية الوقت تزييفها والتي يمكن أن تكون من حيث الفكر الإلتواء المشغل التي تمتد وتتقلص إشارة واحدة على النحو الأمثل في مباراة أخرى.

ولعل أبسط النهج إلى الاتحاد الفرنسي للتنس العينة وتحديد ما إذا كان الخاص بك الحشرات معين من الترددات التي يمكن تصفيتها على.

على الجانب أكثر تعقيدا ، ولكن ليس تماما الشبكة العصبية ، SVM أدوات مثل libsvm و svmlight التي يمكنك رمي البيانات الخاصة بك في.

بغض النظر عن المسار الذي المحاولة ، وأود أن قضاء بعض الوقت في استكشاف طبيعة الصوت الخاص بك الحشرات يجعل باستخدام أدوات مثل الاتحاد الفرنسي للتنس.بعد كل شيء, سيكون من الأسهل تعليم الكمبيوتر لتصنيف الصوت إذا كان يمكنك أن تفعل ذلك بنفسك.

نصائح أخرى

يبدو نموذجية فئة التصنيف المشكلة أيتريد البحث عن شيء واحد في مجموعة كبيرة من الأشياء الأخرى التي لا تهتم.

ما تريد القيام به هو العثور على مجموعة من الميزات أو الواصفات التي يمكنك حساب كل قطعة قصيرة من الخام التسجيل الذي يمكنك ثم مباراة ضد الميزات الخاصة بك نظيفة تسجيل تنتج.لا أعتقد الإلتواء هو neccessarily سيئة ، على الرغم من أنه ليس الحساسة للضوضاء لذلك قد لا يكون الأمثل لحالتك.ما قد عمل فعلا في حالة مطابقة النقش على اهمال تحويل فورييه.كنت تأخذ تحويل فورييه إشارة الخاص بك, مما يتيح لك طاقة مقابل التردد الرسم البياني (بدلا من السلطة مقابل الرسم البياني الوقت) ثم قمت بتقسيم التردد في الفرق تأخذ متوسط الطاقة لكل فرقة كسمة.إذا كانت البيانات الخاصة بك معظمها يحتوي على الضوضاء البيضاء طفا من الخام الحشرات صوت مماثلة طول بشكل وثيق جدا مع النمط الخاص بك إشارة الصوت. هذه خدعة الماضية وقد استخدمت بنجاح (مع بعض النوافذ) للقضاء الصوت captcha المستخدمة من قبل جوجل وآخرون لجعل مواقعهم في متناول المكفوفين.

بالمناسبة, لأن الخام إشارة الصوت الرقمية (وإلا تجهيز مع جهاز كمبيوتر لا يعمل ;-)) الإلتواء المناسب.يجب إجراء الإلتواء بين الإشارة إشارة عينة متساوية الطول من المدخلات الخام بدءا من كل عينة.لذا, إذا كان لديك إشارة مرجعية له طول ن ، و الخام العينة طول M حيث M>=ن ثم يجب إجراء M-N+1=P تلافيف بين الإشارة إشارة P عينات من المدخلات الخام ابتداء من الساعة 1..P.إمكانية أفضل موقع المرجعية الصوت في الخام العينة العينة مع أعلى درجة الإلتواء.لاحظ أن هذا يصبح بجنون تستغرق وقتا طويلا جدا بسرعة.

تحويل فورييه على أساس مطابقة كما شرحت أعلاه باستخدام 50% متداخلة عينات من البيانات الخام من ضعف طول عينة مرجعية على الأقل سيكون أسرع (على الرغم من عدم neccessarily أفضل)

بعض مزيد من المعلومات المطلوبة.

عندما تقول صاخبة إشارة ما هي خلفية الضوضاء ؟ هو أن الأولى تقدير ، ثابتة (بالمعنى الإحصائي ، أيثابت) أو هو غير ثابتة (أيمن المحتمل أن تحتوي على الأصوات الأخرى ، مثل الحيوانات الأخرى المكالمات الخ؟)

إذا الضوضاء الخلفية غير ثابتة ثم قد يكون أفضل رهان إلى استخدام ما يسمى عناصر مستقلة تحليل الذي يسعى إلى فصل معين الصوت الخليط في عنصرها مصادر أنك لن تحتاج حتى التسجيل الأصلي من الحشرة نفسها.الكثير من الحلف البرامج مرتبطة من صفحة ويكيبيديا.

(تحرير:الحلف هو حالة من أعمى المصدر الانفصال (BSS) ، هناك العديد من طرق أخرى BSS و قد تساعدك في البحث عن تلك أيضا.)

إذا ومع ذلك ، فإن الضوضاء في الخلفية ثابتة ثم المشكلة هو أسهل بكثير (على الرغم من لا يزال من الصعب جدا):

في هذه الحالة النهج وأود أن استخدام على النحو التالي.تحليل السعة طيف قليلا من الضوضاء و اتساع الطيف من الحشرات الدعوة.إذا كنت محظوظا الحشرات اتصل مايو ، بشكل عام ، في نطاق الترددات المختلفة إلى الضوضاء.إذا كان الأمر كذلك تصفية إشارة واردة مع مناسبة عالي, منخفض, أو الفرقة تمرير عامل التصفية.

ثم يمكنك محاولة المقارنة بين أقسام تصفية الإشارة التي تحتوي على "المزيد من الطاقة" من متوسط مع (تصفية) الحشرات الدعوة.ربما باستخدام صورة التشابه الخوارزميات المقترحة من قبل أ.ريكس.

تحرير:منذ الخلفية الخاصة بك-الضوضاء غير ثابتة ثم أنا أقترح أن تبحث عن أعمى المصدر الانفصال من غير تمويه المصادر ويمكن أن تقودك إلى بعض الخوارزميات.أخشى أن الجواب هو أن هناك لا بسيطة الخوارزمية التي سوف تفعل ما تريد.

إذا كنت ستبدأ القراءة قليلا عن وظائف نافذة مثل المبالغة نافذة ، وهذا هو نقطة انطلاق جيدة التعرف على الصوت.(هذا بالطبع جنبا إلى جنب مع تحويل فورييه)

يمكنك محاولة مطابقة التصفية.على الرغم من أنني لم تستخدم قط في الواقع واحدة, لقد سمعت أشياء جيدة.

أيضا ، على الرغم من أن ليست بسيطة ، أعتقد أن ماركوف المخفية نموذج (هم أعلم منك قال أي التعرف على الكلام, ولكن تسمعني!) شأنه أن يوفر أفضل النتائج بالنسبة لك.مرة أخرى, أنا لم تستخدم قط في الواقع واحدة ولكن هناك تطبيقات مفتوحة المصدر متاحة في كل مكان.أنت فقط تحتاج إلى تدريب الخاص بك باستخدام الموجودة "نظيفة" الحشرات التسجيل.هنا هو واحد مفتوح المصدر التنفيذ: الجنرال ماركوف المخفية نموذج المكتبة.

من المسلم به أن هذا ليس مجال تخصصي ولكن فكرتي الأولى هي عودي المربعات تصفية - ينفذ الارتباط الذاتي.انها مماثلة الإلتواء الفلتر الذي تستخدمه الآن ولكن قليلا أكثر تقدما.مرشحات كالمان هي امتداد هذا - انها تستخدم لتجديد إشارة من عدة صاخبة القياسات حتى انها قد لا تكون مفيدة في هذه الحالة.لن نرفض مرتجلا الشبكات العصبية - إنها مفيدة جدا في هذا النوع من الشيء (شريطة تدريبهم بشكل صحيح).

التفكير في هذا أكثر في العمق ربما أود أن أنصح به الاتحاد الفرنسي للتنس.وهناك احتمالات إشارة تبحث عنه جدا الفرقة محدودة ، و ربما يكون أكثر حظا باستخدام ممر الموجة مرشح على البيانات ثم الاتحاد الفرنسي للتنس وأخيرا استخدام الخاص بك بسيطة الإلتواء مرشح على تلك البيانات بدلا من الوقت المجال نقاط البيانات.أو القيام به على حد سواء و قد ضعف البيانات.أنا لست الثقيلة في الرياضيات لذلك أنا غير قادر على' أقول لك إذا كنت سوف تحصل على مهمة (ليس خطيا تعتمد على) نتائج استخدام هذه الطريقة ولكن الشيء الوحيد الذي كنت فقدان الوقت.

كنت قد تكون مهتمة في ما الأدوات, ، Matlab تنفيذ مقياس التشابه(s).

أنا شخصيا وجدت هذه الورقة ، العامة الصوت تصنيف التشابه في MPEG-7, مثيرة للاهتمام.ومع ذلك ، قد يكون من وراء paywall (لا أعلم) و قد لا تكون مفيدة في الممارسة العملية.

جي بي ال-اد إطار Marsyas وقد أداة آلة التعلم التصنيف ، ودعا كيا.أعتقد أن هذا ربما لا تفعل ما تريد أو الكثير من الجهد لربط ما يصل إلى.

فكرتي الوحيدة خلاف ذلك هو أن تأخذ تحويلات فورييه ، فعالية تحويل الأصوات إلى صور تدرج الرمادي.ثم استخدام واحدة من العديد من صورة التشابه الخوارزميات.

A من السذاجة Bayes المصنف قد يكون من المفيد هنا وتصنيف عينات سليمة في تلك التي تحتوي على أنواع من الفوائد منها والتي لا تفعل ذلك.أنه يعمل بشكل جيد جدا بالنسبة الظواهر المعقدة ، كنت مرة واحدة أن تقرر إذا كان ملليمتر موجة الرادار مجموعة البيانات الواردة عقبة مثل فرشاة دبابة فخ ، إلخ.أما عن كيفية تفريق المستمر البيانات إلى قطع منفصلة عن بايزي المصنف قد تنزلق على طول مستمر مجموعة البيانات و تقطع قطع متساوية في الطول إلى الحشرات العينة.على سبيل المثال ، إذا كانت العينة تقارنين ضد 2 ثانية طويلة ، قد إطعام مميز 0-2s, 0.5-2.5 s ، 1-3 ، إلخ.سوف تحتاج إلى تدريب مميز, ولكن هذا هو مطلب مشترك من أي آلة التعلم القائم على حل.

هذه الأنواع من النهج حول السبيل الوحيد للذهاب إذا كان لديك أنواع الحشرات لا تملك واحدة متميزة نسبيا الصوت الذي كنت تبحث عن.عبر الارتباط/الإلتواء هي ذات فائدة محدودة إذا كنت تبحث عن شيء أكثر تعقيدا من صوت واحد والتي قد تكون في ارتفاع أو انخفاض حجم.

هناك من السذاجة Bayes المصنف تطبيقات لعدة لغات مثل بي سي.

قد تريد وينر تصفية النهج.

جوجل:FastICA الخوارزمية.استخدام بعض إيكا العمياء-إشارة المصدر الانفصال بالتبادل.صاحب الخوارزمية كتب رائعة الكتاب على الحلف أن حوالي $40-60 دولار تستخدم في الأمازون.

Goertzel - يمكنك استخدام إما على نمط بسيط الكشف و معقدة ترددات الانفصال.يمكنك أن ترى عينة من تنفيذ بلدي في C#

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow