محركات التعرف على الصوت للتطبيقات المضمنة

https://stackoverflow.com/questions/1862533

16-09-2019
|

سؤال

أحاول البحث في محركات التعرف على الصوت المتاحة و SDK لتطوير تطبيق تمكين صوت Windows CE. لقد ركض عبر Nuance، لكن لا ترى الكثير من أي شيء آخر. أفضل أنني أفضل SDK إذا كان ذلك ممكنا، لكنني أتصور معظمها سيكون C / C ++. أنا أقدر أي اقتراحات. شكرا.

المحلول 5

كما هو مذكور في إحدى تعليقاتي أعلاه، نحاول التعرف على الصوت .NET SDK من أنظمة صوت Vangard. يستخدم محرك التعرف الصوتي VocoN3200 الخاص ب NUANCE الذي يحظى باحترام جيد ويبدو أنه يعمل بشكل جيد في الاختبار المبكر. نحن نستخدم ميكروفون رخيص الآن ولدي بعض المشكلات مع الضوضاء الخارجية. نأمل أن يتم حلها مع سماعات إلغاء الضوضاء. نموذج البرنامج يفتقر قليلا إلى أنه يسحب أساسا في تطبيق غير صوتي موجود. هناك بعض القيود المستحقة لهذه الحقيقة وهناك API محدود يمكن الوصول إليه بواسطة المطور. في أي وقت تحاول تجاوز شيء من هذا القبيل، تقوم بصياغة حل قوي أكثر صعوبة. مع القول، لم نتمكن من العثور على أي منتج متنافس يخدم احتياجاتنا من .NET SDK لتطبيقات الهاتف المحمول. لديهم حاليا مكانة صغيرة لطيفة منحوتة.

كنت أفضل أن أذهب مع NUANCES C ++ SDK (التي كتبت شركة أخرى من أجلها .NET مغلفة .NET)، لكن نموذج الأعمال النفخ الوطني يفترض أننا نطور منتجا لإعادة بيعه ولديه بعض الإتاوات المهمة المعنية. حاجز حقيقي لشركة ترغب في تطوير تطبيقات داخلية.

نصائح أخرى

لقد اشترى Nuance أساسا للجميع. يحكمون سوق الكلام، أخشى ...

هناك عدد قليل من الشركات الأخرى التي تتعامل في التكنولوجيا، لكنني لا أعرف مدى نجاحها في السوق المضمنة. هنالك البيلز و لوكيندو, ، كلاهما له قيمة فائضة غير الإنجليزية قوية (ولغتهم الإنجليزية ليست سيئة للغاية أيضا).

ثم لا يزال هناك IBM. يملكون Viavoice جزءا لا يتجزأ من ذلك.

واحدة من الأشياء الكبيرة التي تنتظرها الصناعة هي رؤية ما يخرج من اكتساب مايكروسوفت أخبرني, ، لكنني أعتقد أن السوق المضمنة قد يبتعد عنها بدلا من دفع المعالجة إلى "السحابة"، وهو المكان الذي كان فيه Tellme لفترة طويلة.

أنا أعمل مع تطبيقات IVR؛ بالإضافة إلى NUANCE نحن نقوم حاليا بتقييم Microsoft و IBM و Lumenvox.

تم تصميم تطبيقات التعرف على الصوت المضمنة على معظم الهواتف المحمولة لتتناسب مع إدخال الصوت إلى عبارة منطوقة مسبقا، مثل تعيين عبارة "Joe" إلى إدخال دفتر العناوين ووجود الطلب الهاتفي الخاص بك إدخال دفتر العناوين عندما تقول "Joe". تحاول محركات التعرف على الكلام أكثر قوة فك شفرة الكلام الفائضي عن طريق كسر عبارة الأصوات, ، ثم مطابقة ضد مستودع الصوتية لمحاولة معرفة ما قاله في الواقع. يتطلب محرك التعرف الكامل على الكلام في المنفوخ بمقدار عادل من حصانا وحدة المعالجة المركزية؛ للقيام بأي شيء معقدة مع التعرف على الصوت على جهاز محمول، ربما تحتاج إلى إرسال بيانات من الجهاز إلى خادم للمعالجة.

حاول النظر في API خطاب Microsoft، http://msdn.microsoft.com/en-us/library/ms897381.aspx.

أعتقد أنه يعمل على أجهزة CE.

هناك أيضا مشروع مفتوح المصدر CMU أبو الهول وبعد لديهم متغير يسمى pocketsphinx التي تم استهداف الأجهزة المحمولة.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow