سؤال

أريد أن أبدأ بالتعرف على الكلام وتوليف الكلام في النموذج الأولي على أساس التعرف على الكلامأخبرني أحدهم أن أستخدم Microsoft Speech Server (SDK وما إلى ذلك)

عندما يكون لدي هذا ، كيف يمكنني برمجة تطبيق ، وأي لغة برمجة (تنمية Enviroment؟)؟

هل خبرة شخص ما مع Asterisk أو Svox؟

أحتاج أن افعل:

تخليق الكلام التعرف على الكلام

لا يجب أن أكون بمثابة اعتراف جيد جدًا في الكلام - أعتقد أن 30 إلى 50 كلمة يجب أن تكون كافية للبداية. أنا أعمل مع Windows.

شكرا مقدما

هل كانت مفيدة؟

المحلول

إذا اخترت استخدام محرك الكلام Microsoft ، فهناك .NET Framework APIs. كما ذكرت في المنشور الآخر ، هناك مساحتان أسماء (System.speed لاستخدام سطح المكتب و Microsoft.speech لاستخدام الخادم). يمكنك البرمجة بلغة .NET ويمكنك استخدام Visual Studio.

هناك مقال جيد جدًا تم نشره قبل بضع سنوات في http://msdn.microsoft.com/en-us/magazine/cc163663.aspx. ربما تكون أفضل مقالة تمهيدية وجدتها حتى الآن. ومع ذلك ، كان يستند إلى نسخة مسبقة من واجهة برمجة تطبيقات WinFX وتم تغيير فصول النظام. لا تجمع العينات في المقالة بسبب تغييرات API المكسورة ولم أجد أي تحديثات أو خطأ لشرح ذلك. ابحث في الإنترنت عن اسم الطريقة "AppendResultKeyValue" ، ستجد بعض مشاركات المنتدى مثل http://www.ms-news.net/f3012/system-speed-changes-3025734.html حيث واجه الناس هذه المشكلة نفسها.

لا يزال مقالًا تمهيديًا جيدًا ويستحق القراءة. مع القليل من القرصنة ، يمكنك تشغيل تطبيق نموذج.

نصائح أخرى

عندما درست اللغويات الحسابية ، كانت الأداة المفضلة برات, ، أداة النماذج الأولية المشوشة بشكل فظيع تتيح لك القيام بأي شيء يتعلق بالكلام.

لا أعتقد أن لديها أي واجهة برمجة تطبيقات خارجي ، لكن لغة البرمجة النصية الداخلية الخاصة بها تكفي للتطبيقات البدائية ، ولديها الكثير من الوظائف المدمجة. من أجل "البدء" على النظرية والخوارزميات ، ليس الأمر سيئًا للغاية.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top