gauchissement temps dynamique pour comparer deux enregistrements audio

https://stackoverflow.com/questions/2168027

24-09-2019
|

Question

Je voudrais utiliser Dynamic temps gauchissement pour comparer deux vecteurs de caractéristiques pour deux enregistrements audio (de que je fais bien sûr tous les pré-traitement nécessaire d'abord). Mon programme doit générer la similitude entre les deux enregistrements audio en pour cent. Par exemple 100% signifie que les deux enregistrements sont complètement identiques, et plus différents sont les enregistrements, le nombre inférieur que je reçois. Comment puis-je obtenir autour de lui? Le DTW me donne seulement la longueur du chemin ou le coût de la transition et je ne sais pas comment convertir un de ces numéros à une valeur pour cent.

La solution

Je ne suis pas au courant d'aucune mesure de distance entre les signaux qui est mesurée par pour cent. S'il y a un sens de 100%, alors il doit y avoir un sens de 0%. Donc, vous devez d'abord vous demander: qu'est-ce que 0% signifie

Pour DTW, je suis sûr qu'il n'y a pas de conversion établi de distance minimale « pour cent match. » Si vous devez, vous devez définir une quantité heuristique qui est fonction de la distance minimale DTW.

EDIT: En fait, vous pouvez définir une sorte de distance la plus longue si vous avez deux enregistrements de longueur finie. Ce serait la distance d'un chemin qui est allé (si vous regardez à la matrice des coûts) tout le chemin à droite, puis vers le bas, ou tout en bas à droite. Le meilleur chemin, à savoir un match parfait, descend la diagonale principale.

Une idée simple: si vous utilisez (0,1) (1,0) (1,1) en tant que candidats étape, vous pourriez peut-être utiliser le nombre de mesures prises par (0,1) et (1,0) comme une mesure de badness. Cette mesure a certainement un maximum et un minimum, donc il pourrait être mis en correspondance avec une fourchette souhaitable comme 0-100%.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow