Pergunta

Eu gostaria de usar o tempo dinâmico de deformação para comparar dois vetores de recursos para duas gravações de áudio (é claro que estou fazendo todo o pré -processamento necessário primeiro). Meu programa deve gerar a semelhança entre as duas gravações de áudio em porcentagem. Por exemplo, 100% significa que as duas gravações são completamente idênticas e as mais diferentes são as gravações, o número mais baixo que eu recebo. Como faço para fazer isso? O DTW me dá apenas a duração do caminho ou o custo da transição e não sei como converter um desses números em um valor percentual.

Foi útil?

Solução

Não estou ciente de nenhuma métrica de distância entre os sinais medidos em porcentagem. Se houver um significado de 100%, deve haver um significado de 0%. Então, primeiro você precisa se perguntar: o que 0% significa?

Para o DTW, tenho certeza de que não há conversão estabelecida de distância mínima em "porcentagem de correspondência". Se precisar, precisará definir uma quantidade heurística que seja uma função da distância mínima do DTW.

EDIT: Na verdade, você pode definir uma distância mais longa se tiver duas gravações de comprimento finito. Essa seria a distância de um caminho que seguia (se observar a matriz de custo) até então, depois para baixo ou até a direita. O melhor caminho, ou seja, a combinação perfeita, desce a diagonal principal.

Uma idéia simples: se estiver usando (0,1) (1,0) (1,1) como candidatos a etapa, talvez você possa usar o número de medidas tomadas por (0,1) e (1,0) como uma medida de maldade. Essa medida certamente tem um máximo e um mínimo; portanto, pode ser mapeado para um alcance desejável, como 0-100%.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top