Como você compararia uma palavra falada com um arquivo de áudio?

https://stackoverflow.com/questions/4255359

27-09-2019
|

Pergunta

Como você compararia uma palavra falada com um arquivo de áudio e determinando se eles correspondem? Por exemplo, se eu disser "Apple" no meu aplicativo para iPhone, gostaria que ele grave o áudio e compare -o com um arquivo de áudio pré -gravado de alguém dizendo "Apple". Deve ser capaz de determinar que as duas palavras faladas correspondem.

Que tipo de algoritmo ou biblioteca eu poderia usar para executar esse tipo de correspondência de arquivos de áudio baseada em voz?

Solução

Esfinge Reconhecimento de voz e Pocketsphinx foi portado para o iPhone por Brian King

Verifica https://github.com/kingofbrian/vocalkit

Ele forneceu excelentes detalhes e facilitou a implementação para si mesmo. Eu corri o exemplo dele e modifiquei minha própria versão.

Outras dicas

Você deve procurar impressão digital acústica, consulte o link da Wikipedia abaixo. Shazam está basicamente fazendo isso pela música.

http://en.wikipedia.org/wiki/acoustic_fingerprint

Eu sei que essa pergunta é antiga, mas descobri esta biblioteca hoje:

http://www.ispikit.com/

Você pode usar uma biblioteca de redes neurais e ensiná -la a reconhecer diferentes padrões de fala. Isso exigirá alguns sabem como por trás da teoria geral das redes neurais e como elas podem ser usadas para criar sistemas que se comportem de uma maneira específica. Se você não sabe nada sobre o assunto, pode começar apenas no básico e depois usar uma biblioteca em vez de implementar algo sozinho. Espero que ajude.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow