¿Cómo convierto voz a texto?

https://stackoverflow.com/questions/491578

20-08-2019
|

Pregunta

¿Cómo podría tomar MP3 y convertir la voz en texto?

Tengo algunas notas grabadas de una conferencia y de reuniones (hay una sola voz en la grabación, que es mi voz). Pensé que sería más fácil e intelectualmente interesante convertir a texto usando herramientas de voz a texto en lugar de simplemente transcribirlo a mano. Sé que existen tecnologías, especialmente para aplicaciones VoIP que utilizan Asterisk y Podcasts, pero ¿cuáles son y cómo puedo usarlas?

Solución

Código abierto: CMU Sphinx

Shareware: http://www.e-speaking.com/ (Windows)

Comercial: Dragon NaturallySpeaking (Windows)

Otros consejos

.NET puede hacerlo con su espacio de nombres System.Speech.

Primero tendría que convertir a .wav o capturar el audio en vivo desde el micrófono.

Los detalles sobre la implementación se pueden encontrar aquí: Transcripción de audio con .NET

Dragon NaturallySpeaking parece admitir la entrada de MP3.

Si desea una versión de código abierto (creo que hay algunos proyectos de integración de Asterisk basado en este).

Tarde a la fiesta, así que responde más para futuras referencias.

Los avances en el campo + la mentalidad y la agenda de Mozilla llevaron a estos dos proyectos hacia ese fin:

Este último tiene un conjunto de datos de 12 GB para descargar. El primero permite entrenar un modelo con sus propios archivos de audio a mi entender

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow