Como faço para converter fala em texto?

https://stackoverflow.com/questions/491578

20-08-2019
|

Pergunta

Como eu poderia pegar MP3 e converter o discurso em texto?

Eu tenho algumas notas gravadas de uma conferência e de reuniões (há uma única voz na gravação, que é a minha voz). Eu pensei que seria mais fácil e intelectualmente interessante converter em texto usando ferramentas de fala em texto em vez de simplesmente transcrever manualmente. Eu sei que existem tecnologias por aí, especialmente para aplicativos VoIP usando asterisco e podcasts, mas o que eles são e como posso usá -los?

Solução

Código aberto: CMU Sphinx

ShareWare: http://www.e-sany.com/ (Janelas)

Comercial: Dragon naturalmente espancam (Janelas)

Outras dicas

.NET pode fazer isso com seu espaço de nome System.Speech.

Você teria que converter para .wav primeiro ou capturar o áudio ao vivo do microfone.

Detalhes sobre a implementação podem ser encontrados aqui:Transcrição de áudio com .NET

Dragon naturalmente espancam parece suportar a entrada de mp3.

Se você quiser um Versão de código aberto (Acho que existem alguns projetos de integração de asterisco com base neste).

Tarde para a festa, respondendo mais para referência futura.

Os avanços no campo + a mentalidade e a agenda de Mozilla levaram a esses dois projetos para esse fim:

Este último tem um conjunto de dados de 12 GB para download. O primeiro permite treinar um modelo com seus próprios arquivos de áudio para minha compreensão

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow