سؤال

في مشروعي، أنا أستخدم المكتبة المسماة Lium_SpkDiarization-4.7.Jar، لكنني لست متأكدا تماما كيف يعمل الأمر.يمكن لأي شخص، من فضلك، شرح ذلك قليلا؟

أيضا، أنا أستخدمها مع Python.

الرابط إلى المكتبة هو: https:/voiceID.googlecode.com/svn-history/r11/trunk/scripts/lium_spkdiarization-4.7.jar

شكرا مقدما.

هل كانت مفيدة؟

المحلول

لم أكن على علم بهذه الأداة. يبدو رائعا حقا. هل راجعت ويكي؟ لديهم بعض الأوراق حول كيفية عمل النظام: http://lium3.univ-lemans.fr / تجديف/doku.php

أساسا، يحسبون معاملات cepstrum Mel تردد MFCC (تقنية قياسية). هذه هي الخطوة الأساسية. إنه يولد مساحة ميزة للعمل معها. يشبه حساب FFT على النافذة المنزلق في الوقت المناسب. يتم تنفيذ التجميع في نهاية المطاف في هذه الميزات الشرائح هذه باستخدام أساليب معايير معلومات Bayesian (BIC). أولا إلى قسم مساحة الميزة القائمة على الوقت، ثم إلى الكتلة، وإيجاد ميزات متسقة لكل مكبر صوت. HMM، viterbi، em، وأحيانا يمكن استخدام GMM كذلك.

لا أعرف الخوارزمية جيدا بما يكفي لشرحها بالتفصيل، ولكن هذا يجب أن يساعد أيضا: http://lium3.univ-lemans.fr/Tiarization/doku.php/overview

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top