Como você compararia uma palavra falada com um arquivo de áudio?
-
27-09-2019 - |
Pergunta
Como você compararia uma palavra falada com um arquivo de áudio e determinando se eles correspondem? Por exemplo, se eu disser "Apple" no meu aplicativo para iPhone, gostaria que ele grave o áudio e compare -o com um arquivo de áudio pré -gravado de alguém dizendo "Apple". Deve ser capaz de determinar que as duas palavras faladas correspondem.
Que tipo de algoritmo ou biblioteca eu poderia usar para executar esse tipo de correspondência de arquivos de áudio baseada em voz?
Solução
Esfinge Reconhecimento de voz e Pocketsphinx foi portado para o iPhone por Brian King
Verifica https://github.com/kingofbrian/vocalkit
Ele forneceu excelentes detalhes e facilitou a implementação para si mesmo. Eu corri o exemplo dele e modifiquei minha própria versão.
Outras dicas
Você deve procurar impressão digital acústica, consulte o link da Wikipedia abaixo. Shazam está basicamente fazendo isso pela música.
Eu sei que essa pergunta é antiga, mas descobri esta biblioteca hoje:
Você pode usar uma biblioteca de redes neurais e ensiná -la a reconhecer diferentes padrões de fala. Isso exigirá alguns sabem como por trás da teoria geral das redes neurais e como elas podem ser usadas para criar sistemas que se comportem de uma maneira específica. Se você não sabe nada sobre o assunto, pode começar apenas no básico e depois usar uma biblioteca em vez de implementar algo sozinho. Espero que ajude.