Механизмы распознавания голоса для встроенных приложений

https://stackoverflow.com/questions/1862533

16-09-2019
|

Вопрос

Я пытаюсь изучить доступные механизмы распознавания голоса и SDK для разработки приложения с голосовой поддержкой Windows CE.Я столкнулся с Nuance, но больше ничего не вижу.Я бы предпочел .Net SDK, если это возможно, но я думаю, что большинство из них будет C/C++.Я ценю любые предложения.Спасибо.

Решение 5

Как указано в одном из моих комментариев выше, мы пробуем .Net SDK для распознавания голоса от Vangard Voice Systems.Он использует механизм распознавания голоса Nuance Vocon3200, который пользуется большим уважением и, похоже, хорошо работает на ранних этапах тестирования.Сейчас мы используем дешевый микрофон, и у нас есть проблемы с внешним шумом.Надеемся, что эта проблема будет решена с помощью гарнитур с шумоподавлением.Программной модели немного не хватает того, что она в основном подключается к существующему неголосовому приложению.В связи с этим существуют некоторые ограничения, а также ограниченный API, доступный разработчику.Каждый раз, когда вы пытаетесь упростить что-то подобное, вы значительно усложняете создание мощного решения.С учетом вышесказанного, мы действительно не смогли найти ни одного конкурирующего продукта, который удовлетворял бы наши потребности в .Net SDK для голосовой поддержки мобильных приложений.В настоящее время у них есть хорошая маленькая ниша.

Я бы предпочел использовать C++ SDK от Nuance (для которого другая компания написала оболочки .Net), но бизнес-модель Nuance предполагает, что мы разрабатываем продукт для перепродажи и требует значительных лицензионных отчислений.Настоящий барьер для компании, которая хочет разрабатывать внутренние приложения.

Другие советы

Nuance практически всех скупила.Боюсь, они правят рынком речи...

Есть еще несколько компаний, которые занимаются этими технологиями, но я не знаю, насколько хорошо они преуспевают на рынке встраиваемых систем.Есть телизма и Локендо, оба из которых имеют сильное присутствие неанглоязычных пользователей (и их английский тоже не так уж плох).

Еще есть IBM.У них есть Встроенный ViaVoice.

Одна из самых важных вещей, которых ждет индустрия, — это увидеть, что получится в результате приобретения Microsoft Скажи мне, но я думаю, что они могли бы держаться подальше от рынка встраиваемых систем вместо того, чтобы переносить обработку в «облако», где TellMe был уже долгое время.

Работаю с IVR-приложениями;Помимо Nuance в настоящее время мы оцениваем Microsoft, IBM и Lumenvox.

Приложения распознавания голоса, встроенные в большинство мобильных телефонов, предназначены для сопоставления голосового ввода с ранее произнесенной фразой, например, присвоение фразы «Джо» записи адресной книги и возможность набора телефоном этой записи адресной книги, когда вы говорите «Джо».Более мощные системы распознавания речи пытаются расшифровать произвольную речь, разбивая фразу на несколько частей. фонемы, а затем сопоставить его с акустическим хранилищем, чтобы попытаться выяснить, что на самом деле было сказано.Полноценный механизм распознавания речи требует изрядной мощности процессора;Чтобы сделать что-то сложное с распознаванием голоса на мобильном устройстве, вам, вероятно, потребуется отправить данные с устройства на сервер для обработки.

Попробуйте изучить Speech API от Microsoft, http://msdn.microsoft.com/en-us/library/ms897381.aspx

Я считаю, что он работает на устройствах CE.

Также существует проект с открытым исходным кодом. КМУ Сфинкс .У них есть вариант под названием PocketSphinx, предназначенный для портативных устройств.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow