Pregunta

¿Todos los algoritmos de voz a texto de la tecnología actual funcionan en tiempo real? No me refiero a una persona sentada en una computadora con un micrófono, sino que está ingresando un archivo de audio pregrabado.

es decir Si tiene una grabación de voz de 30 minutos, ¿tardará siempre 30 minutos en transcribirse?

¿Hay diferentes enfoques por ahí?

¿Fue útil?

Solución

No hay ninguna razón por la cual el reconocimiento de voz deba tomar tanto tiempo como la duración del audio a realizar. Sin embargo, debido al cálculo requerido, no creo que no obtenga un algoritmo mucho más rápido que en tiempo real. Consulte esta sección del artículo de Wikipedia para obtener información más detallada (no parece dar en cualquier momento, aunque da una visión general decente del rendimiento).

Otros consejos

No hay nada que impida que el algoritmo se ejecute más rápido que en tiempo real. El programa de software Naturally Speaking 10 Professional proporciona una transcripción del archivo opción para convertir el dictado tomado mientras está lejos de una computadora, esto funciona tan rápido como la computadora en la que se está ejecutando puede lograr.

Creo que existen implementaciones de procesamiento por lotes en el área de inteligencia de señales, pero dichos programas, naturalmente, no estarán disponibles para la población general.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top