Pregunta

Cómo implementar el reconocimiento de voz en el lado del servidor (por favor no sugiera HTML5's x-webkit-speech, javascript, etc.)? El programa tomará un archivo de audio como entrada y con suficiente precisión proporciona la transcripción de texto del archivo de audio. ¿Cuáles son las opciones que puedo usar?

He intentado implementar Sphin4 con modelo Voxforge Pero la precisión es tan pobre (también puede ser algún problema en mi configuración, todavía estoy tratando de aprenderlo). En una publicación leí que cuando usamos <input name="speech" id="speech" type="text" x-webkit-speech /> la entrada se envía a un servidor externo y ese servidor que el reconocimiento y envía los datos al navegador.

¿Cómo puedo configurar ese servidor? Cualquier servidor de código abierto existente también sería útil si puede reconocer oraciones en inglés con una tasa de error mínima.

No hay solución correcta

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top