Pregunta

Tengo un montón de audio de sonido en formato WMA y me gustaría máquina transcribirlo - incluso si la transcripción no es fiable al 100%, creo que podría ayudar un poco como un “índice” en cierta del audio. Estoy dispuesto a escribir algo de código para que esto suceda, pero puedo API de voz de Microsoft ayudarme aquí? ¿Existe ya una aplicación que puede hacer esto por mí?

¿Fue útil?

Solución

SAPI sin duda puede hacer lo que quiera. Comience con un reconocedor en proceso, conectar el audio como una secuencia de archivo (que probablemente tendrá que codificar sus archivos WMA a una corriente WAV, como SAPI sólo toma de entrada WAV, pero se puede hacer la transcodificación sobre la marcha), establecer el modo de dictado, y listo.

Ahora el poco decepcionante. Es probable que no conseguirá terriblemente buenos resultados; De hecho, sospecho que a menos que usted es muy afortunado, probablemente obtendrá la basura total.

Hay varios problemas:

  1. Dictado en realidad sólo funciona bien cuando el motor SR ha sido entrenado. Si tiene suerte (como yo), se pueden obtener resultados OK, pero si el altavoz tiene un acento, la formación es una necesidad.
  2. La formación sólo funciona bien para una sola voz. Si usted tiene varios altavoces en un único archivo de audio, que no va a funcionar bien.
  3. El modelo de audio para el dictado (y reconocimiento de voz en general) asume que está usando un micrófono para hablar de cerca (es decir, un micrófono justo al lado de su cara, para minimizar la captación de ruido). Si sus archivos WMA tienen ruido extra, exactitud bajará drásticamente.

De hecho, me gustaría sugerir el uso de Dragon Naturally Speaking profesional; que han pasado el tiempo y el dinero para hacer el trabajo de transcripción. No he utilizado yo mismo, así que no sé qué tan bien podría funcionar en su situación.

Otros consejos

Se necesitaría un programa de acuerdo con ello, como un software de dictado. La API de voz es al revés. No creo que hay algo de código abierto para este tampoco, ya que es una pieza muy, muy complicado de software.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top