los motores de reconocimiento de voz para aplicaciones embebidas

https://stackoverflow.com/questions/1862533

16-09-2019
|

Pregunta

Estoy tratando de investigar los motores de reconocimiento de voz disponibles y SDK para el desarrollo de una aplicación habilitada para la voz de Windows CE. Me he encontrado a través de Nuance, pero no veo mucho de cualquier otra cosa. Yo preferiría un SDK .Net, si es posible, pero la mayoría imaginar sería C / C ++. Agradezco cualquier sugerencia. Gracias.

Solución 5

Como se afirma en uno de mis comentarios anteriores, estamos tratando un reconocimiento de voz .Net SDK desde Vangard Sistemas de voz. Se utiliza el motor de reconocimiento de voz de Nuance Vocon3200 que es muy respetado y parece funcionar bien en las primeras pruebas. Estamos utilizando un micrófono barato en este momento y tener algunos problemas con el ruido exterior. Es de esperar que se resolverá con auriculares con cancelación de ruido. El modelo de software es un poco escaso, ya que básicamente se engancha en una aplicación no-voz existente. Hay algunas limitaciones debido a este hecho y hay una API de acceso limitado por el desarrollador. Cualquier vez que intente simplificar algo como esto, se hace la elaboración de una potente solución mucho más difícil. Con eso se dice, que realmente no podía encontrar ningún producto de la competencia que sirve a nuestras necesidades de un SDK .Net para la habilitación de voz de las aplicaciones móviles. Actualmente tienen un pequeño nicho labrado.

Me hubiera preferido ir con C ++ SDK de Nuance (para que otra sociedad ha escrito envoltorios .Net), pero el modelo de negocio de Nuance asume que estamos desarrollando un producto para la reventa y tiene algunos derechos importantes involucrados. Una barrera real para una empresa que quiere desarrollar aplicaciones internas.

Otros consejos

Nuance ha comprado básicamente a todo el mundo. Ellos gobiernan el mercado de habla, me temo ...

Hay algunas otras empresas que se ocupan en la tecnología, pero no sé qué tan bien lo hacen en el mercado integrado. Hay telisma y Loquendo , tanto las que tienen fuertes presencias no están en inglés (y su Inglés no es tan malo tampoco).

A continuación, todavía hay IBM. Tienen ViaVoice Embedded .

Una de las grandes cosas que la industria está esperando es ver lo que sale de adquisición de Tellme , pero creo que el mercado integrado que puede permanecer lejos de su lugar de empujar el procesamiento a la "nube", que es donde Tellme ha sido durante mucho tiempo.

Yo trabajo con aplicaciones de IVR; Además de Nuance que actualmente estamos evaluando Microsoft, IBM y Lumenvox.

La voz aplicaciones de reconocimiento incluidos en la mayoría de los teléfonos celulares están diseñados para que coincida con la entrada de voz a una frase previamente hablado, como la asignación de la frase "Joe" a una entrada de la libreta de direcciones y tener su teléfono para que marque que la entrada de la libreta de direcciones cuando se dice " Joe". Los más potentes motores de reconocimiento de voz intentan descifrar el habla de forma libre al romper una frase abajo en fonemas , y a continuación, a juego con un almacén de acústica para tratar de averiguar lo que realmente se dijo. Un motor de reconocimiento de voz completo soplado requiere una buena cantidad de caballos de fuerza de la CPU; para hacer algo complejo con el reconocimiento de voz en un dispositivo móvil, es probable que necesite para enviar datos desde el dispositivo a un servidor para su procesamiento.

Trate de buscar en la API de voz de Microsoft, http://msdn.microsoft. com / es-es / library / ms897381.aspx

Creo que se ejecuta en dispositivos CE.

También existe el proyecto de código abierto CMU Sphinx . Tienen una variante llamada PocketSphinx que se ha apuntado para dispositivos portátiles.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow