Pergunta

Eu passei toda a semana passada para pesquisar em MFCC e problemas relacionados.Agora posso obter recursos do MFCC de um arquivo .wav em um vetor 2-dimensional, Coff [56] [12], digamos.12 é o número de coeficientes que quero extrair e 56 é o número de quadros. De acordo com vários documentos, leio, podemos usar acima de 12 coeficientes para reconhecer a fala (em particular, quero reconhecer a palavra "um", "dois" ... para "dez").Mas agora recebo 56 de 12 cofácios, de modo que entre 56 quadros eu deveria usar?

Se eu tiver algo errado, por favor me ajude !!!

Foi útil?

Solução

Você está pulando alguns passos cruciais.Deixe-me explicar brevemente como isso deve funcionar.Os dados da fala são inicialmente um sinal discreto.Você cortá-lo em pedaços chamados de "quadros" tão pequenos que cada peça esperamos não mais do que um único telefone.Muitas vezes os quadros são sobrepostos para não perder qualquer informação vital.Em seguida, você extraia recursos - MFCCS e usando o modelo escondido Makov busca pela palavra mais provável que compreende um número de quadros.Neste momento você também precisa de uma pronúncia de dicionário de palavras e o modelo acústico.No próximo nível você usa um modelo de idioma que descreve frases as palavras podem ser construídas e obter a hipótese final.Esta é uma descrição extremamente abstrata, então precisa rever cada etapa de decodificação em uma extensão mais próxima.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top