تقدير المتجه في شرح معالجة الكلام
-
20-09-2019 - |
سؤال
أواجه مشكلة في تحديد من ورقة البحث هذه بالضبط كيف يمكنني إعادة إنتاج خوارزمية قياس الكمية المتجه القياسية لتحديد لغة إدخال الكلام المجهول الهوية ، استنادًا إلى مجموعة تدريب من البيانات. إليك بعض المعلومات الأساسية:
معلومات مجردةيعد التعرف على اللغة (مثل اليابانية والإنجليزية والألمانية وما إلى ذلك) أن باستخدام الميزات الصوتية مشكلة مهمة ولكنها صعبة لتكنولوجيا الكلام الحالية. ... تحتوي قاعدة بيانات الكلام المستخدمة في هذه الورقة على 20 لغة: 16 جملة تم النطق بها مرتين من 4 ذكور و 4 إناث. مدة كل جملة حوالي 8 ثوان. تعتمد الخوارزمية الأولى على تقنية قياس الكمية المتجه القياسية (VQ). تتميز كل لغة بكتاب VQ الخاص بها ، .
خوارزميات الاعترافتعتمد الخوارزمية الأولى على تقنية قياس الكمية المتجه القياسية (VQ). كل لغة ، k
, يتميز بكتاب الرموز VQ الخاصة به ، . في مرحلة التعرف ، يتم تحديد الكلام الإدخال بواسطة ويتم حساب تشويه القياس الكمي المتراكم ، D_K. اللغة التي يتم التعرف على الحد الأدنى من التشويه. التكلس تشويه VQ ، يتم تطبيق العديد من مقاييس التشويه الطيفي LPC ... في هذه الحالة ، WLR - نسبة أقل مرجحة - المسافة: http://tinyurl.com/yc52gcl.
خوارزمية VQ القياسية:دفتر رمز ، alt text http://tinyurl.com/y8csx6e, ، يتم إنشاء كل لغة باستخدام جمل التدريب. المسافة المتراكمة لمتجه الإدخال في الجملة ، , ، يعرف ب: alt text http://tinyurl.com/ybynjc2
المسافة d
يمكن أن تكون أي مسافة تتوافق مع الميزات الصوتية ويجب أن تكون هي نفسها المستخدمة لتوليد الكود. تتميز كل لغة بكتابة رمز VQ ، .
سؤالي هو ، كيف أفعل هذا بالضبط؟ لدي مجموعة من 50 جملة باللغة الإنجليزية. في MATLAB ، يمكنني بسهولة حساب WLR لأي إشارة معينة. ولكن ، كيف أقوم بصياغة دفتر رمز ، حيث يجب علي استخدام WLR لـ "توليد الكود" للغة الإنجليزية. أشعر أيضًا بالفضول حول كيفية مقارنة كود VQ بحجم 16 (والذي وجد أنه أفضل حجم) ، إلى إشارة إدخال معينة. إذا كان بإمكان أي شخص أن يساعد في تقطير هذه الورقة بالنسبة لي ، فسأقدر ذلك كثيرًا.
شكرًا!
المحلول
السؤال الثاني (مقارنة كود كود إلى إشارة معينة) أكثر سهولة: لكل إدخال كود V_K_J ، يجب عليك حساب المسافة D باستخدام إشارة الإدخال. "J" مع أصغر مسافة "D" سوف تتمثل في إدخال كود كود أفضل. كدالة مسافة يمكنك استخدام WLR
دفتر البناء (Trainig) أكثر تعقيدًا قليلاً. يجب أن تقسم جملك إلى المتجهات مع lenght n (16) ثم استخدام بعض خوارزمية التجميع (مثل K-means) لتتجمع هذه المتجهات. ثم تجد يعني في كل مجموعة. هذا يعني وسيكون إدخال كود. إنه شيء fisrt يتبادر إلى الذهن.
يمكن العثور على خوارزمية أخرى (على ما أعتقد ، سيكون أفضل) هنا. أيضا ، تم وصف اثنين من خوارزميات التدريب البسيطة في ويكيبيديا