Pregunta

Quiero crear una presentación de diapositivas controlada por voz utilizando la API WAMI del MIT (u otra API de reconocimiento de voz) e Impress.js. Quiero incluir comandos simples como "página siguiente" o "volver".

¿Seria posible? ¿Cómo podría hacerlo?

¿Fue útil?

Solución

Hay Otra publicación en Stackoverflow Eso hace una pregunta muy similar, pero querían usar la API de reconocimiento de voz de Google. Hay una muy buena respuesta a esta pregunta allí.

También hay un nuevo API del habla en Chrome que podría usarse. El problema con esta solución es que debe hacer clic en un icono para decirle al motor de reconocimiento de voz (ASR) que comience a escuchar, y sus usuarios están restringidos a una versión específica de Chrome. La forma en que funcionan la mayoría de estas soluciones es que debe hacer clic en el icono para obtener la próxima expresión del usuario. Entonces, una vez que el ASR tiene un comando, reconoce que debe hacer clic nuevamente en el icono para decirle que lo escuche nuevamente. Para una aplicación que tiene un conjunto de comandos muy limitado (es decir, "siguiente" y "retroceder") no hay mucho valor en esto, ya que sería igual de fácil para el usuario hacer clic en un botón que le indica a la aplicación que avance o espalda.

Parece que la API de WAMI le permite comenzar el proceso de reconocimiento mediante programación, que es una mejor alternativa. Esta es una API de JavaScript que solo tendría que incluir en sus páginas web para comenzar a escuchar la entrada del usuario. los Documentación para esta API Proporciona buenos ejemplos sobre cómo desarrollar una aplicación multimodal de reconocimiento de voz. Deberá aprender a desarrollar gramáticas que especifiquen al motor del habla qué expresiones está buscando en su aplicación. Wami usa el Formato de gramática JSPEECH. Una vez que obtenga un reconocimiento de "Siguiente" o "Volver" del ASR, simplemente se movería a la siguiente o anterior diapositiva con JavaScript.

Otros consejos

Usaría la API de reconocimiento de discurso en el navegador.

Para una manera fácil de hacer esto con JavaScript, consulte annyang, que es una biblioteca que hace que lidiar con el reconocimiento de voz sea súper fácil.

Puedes probar Speechapi construido con flash y sphinx4 http://cmusphinx.sourceforge.net y que le permite reconocer de JavaScript en Browswer. Puedes encontrar las demos y las cosas aquí:

http://speechapi.com/

Puede instalar su propio servidor de reconocimiento de voz para trabajar con Flash usando el servidor del proyecto SourceForge SourceForge de Speech API

http://sourceforge.net/projects/speechcloud/

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top