motores de reconhecimento de voz para aplicações embarcadas

https://stackoverflow.com/questions/1862533

16-09-2019
|

Pergunta

Eu estou tentando pesquisar os motores de reconhecimento de voz disponíveis e SDK para o desenvolvimento de um CE de voz do Windows aplicativo habilitado. Já corri em toda a Nuance, mas não vejo muito de qualquer outra coisa. Eu preferiria uma .Net SDK, se possível, mas eu imagino que a maioria seria C / C ++. Agradeço todas as sugestões. Obrigado.

Solução 5

Como dito em um dos meus comentários acima, estamos tentando um reconhecimento de voz .Net SDK de Sistemas de Voz Vangard. Ele usa mecanismo de reconhecimento Vocon3200 voz da Nuance, que é bem respeitado e parece funcionar bem em testes iniciais. Estamos usando um microfone barato agora e ter alguns problemas com o ruído exterior. Esperemos que isso será resolvido com fones de ouvido com cancelamento de ruído. O modelo de software é um pouco falta na medida em que, basicamente, ganchos em um aplicativo non-voz existente. Existem algumas limitações devido a este fato e há uma API limitada acessível pelo desenvolvedor. Toda vez que você tentar algo oversimplify como esta, você faz a elaboração de uma poderosa solução muito mais difícil. Com isso dito, nós realmente não poderia encontrar qualquer produto concorrente que serve as nossas necessidades de um .Net SDK para ativação de voz de aplicações móveis. Eles têm actualmente um pouco agradável nicho esculpido.

Eu teria preferido para ir com ++ SDK da Nuance C (para o qual outra empresa tem escrito .Net wrappers), mas o modelo de negócio Nuance assume que estamos desenvolvendo um produto para revenda e tem algumas royalties significativos envolvidos. A barreira real para uma empresa que quer desenvolver aplicações internas.

Outras dicas

Nuance tem, basicamente, comprou toda a gente. Eles dominam o mercado de voz, eu tenho medo ...

Existem algumas outras empresas que lidam na tecnologia, mas eu não sei como eles fazem no mercado incorporado. Há telisma e Loquendo , tanto as que têm fortes presenças de não-inglês (e seus Inglês não é muito ruim).

Em seguida, ainda há IBM. Eles têm ViaVoice incorporado .

Uma das grandes coisas que a indústria está esperando é ver o que sai da aquisição de TellMe , mas eu acho que o mercado incorporado eles podem ficar longe em vez de empurrar o processamento para a "nuvem", que é onde TellMe tem sido por um longo tempo.

Eu trabalho com aplicações de URA; além de Nuance estamos avaliando atualmente Microsoft, IBM e Lumenvox.

Os aplicativos de reconhecimento de voz incluídos na maioria dos telefones celulares são projetados para entrada jogo voz a uma frase anteriormente falada, tais como a atribuição a frase "Joe" para uma entrada do catálogo de endereços e ter o seu telefone que a entrada do catálogo de endereços quando você diz " Joe". Os mais poderosos motores de reconhecimento de voz tentar decifrar a fala de forma livre, quebrando uma frase para baixo em fonemas , e em seguida, fazer a comparação com um repositório acústico para tentar descobrir o que foi realmente dito. Um motor de reconhecimento de voz soprado completo requer uma quantidade razoável de potência da CPU; fazer nada complexo com reconhecimento de voz em um dispositivo móvel, você provavelmente vai precisar para enviar os dados do dispositivo a um servidor para processamento.

Tente procurar em Speech API da Microsoft, http://msdn.microsoft. com / en-us / library / ms897381.aspx

Eu acredito que ele é executado em dispositivos CE.

Há também o projeto de código aberto CMU Sphinx . Eles têm uma variante chamada PocketSphinx que tem sido alvo de dispositivos portáteis.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow