Será que todos os algoritmos de voz-para-texto operar em tempo real?

https://stackoverflow.com/questions/476299

speech-to-text

20-08-2019
|

Pergunta

Será que todos os algoritmos de voz-para-texto da tecnologia atual operar em tempo real? Não quero dizer com uma pessoa sentada em um computador com um microfone, mas sim entrando com um arquivo de áudio pré-gravado.

i. Se você tem uma gravação de voz de 30 minutos, vai sempre levar 30 minutos para ser transcrita?

Existem diferentes abordagens lá fora?

Solução

Não há razão para que o reconhecimento de voz deve demorar tanto quanto o comprimento de áudio a ser realizado. No entanto, devido ao cálculo necessário Eu não acho que você não vai ter uma enorme mais rápido do algoritmo de tempo real. Consulte nesta seção do artigo da Wikipedia para obter informações mais detalhadas (que não parece dar qualquer vezes, embora ele não dar uma visão decente de desempenho).

Outras dicas

Não há nada que impeça o algoritmo de correr mais rápido do que em tempo real. O programa de software Naturally Speaking 10 Professional fornecer uma "transcrição do arquivo" opção para converter o ditado tomado ao longe de um computador, este funciona tão rápido quanto o computador no qual ele está sendo executado pode conseguir.

Eu acredito que existem implementações de processamento em lote na área de inteligência de sinais, mas tais programas seria, naturalmente, estar disponível para a população em geral.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow