Quantification de vecteur dans le Traitement de la Parole Explication

https://stackoverflow.com/questions/2271264

20-09-2019
|

Question

Je vais avoir de la difficulté à déterminer à partir de ce document de recherche exactement comment je peux reproduire le Standard de Quantification de Vecteur algorithme pour déterminer la langue d'un responsable non identifié de la saisie vocale, basée sur un ensemble de formation de données.Voici quelques informations de base:

Résumé de l'info La reconnaissance de la langue (p. ex.Japonais, anglais, allemand, etc) à l'aide de caractéristiques acoustiques est un problème difficile pour les discours de la technologie....Le discours de la base de données utilisée dans ce papier contient 20 langues:16 les peines prononcées à deux reprises par 4 mâles et 4 femelles.La durée de chaque la phrase est d'environ 8 secondes.Le premier algorithme est basé sur la norme Quantification de vecteur (VQ) technique.Chaque langue est caractérisée par ses propres VQ codebook, $alt text$ .

Les Algorithmes De Reconnaissance Le premier algorithme est basé sur le standard de Quantification de Vecteur (VQ) technique.Chaque langue, k, est caractérisée par son propre VQ codebook, $alt text$ .Dans la reconnaissance d'entrée de la parole est quantifié par $alt text$ et le cumul de la distorsion de quantification, d_k, est calculée.La langue qui, comme le minimum de distorsion est reconnu.Calcualating VQ distorsion, plusieurs LPC spectrale de la distorsion de l'application de mesures...dans ce cas, la RPE -- pondérée moins ratio -- la distance: http://tinyurl.com/yc52gcl.

Standard VQ Algorithme: Un livre de codes le texte d'alt http://tinyurl.com/y8csx6e, pour chaque langue est généré à l'aide de la formation des phrases.Le cumul de la distance du vecteur d'entrée dans la phrase, $alt text$ , est défini comme: le texte d'alt http://tinyurl.com/ybynjc2

La distance d peut être quelle que soit la distance qui correspond aux caractéristiques acoustiques et il doit être le même que celui utilisé pour le codebook génération.Chaque langue est caractérisée par son VQ codebook, $alt text$ .

Ma question est, comment dois-je faire exactement cela?J'ai un set de 50 phrases en anglais.Dans MATLAB, je peux facilement calculé la RPE pour n'importe quel signal donné.Mais, comment dois-je formuler un codebook, depuis que je doit utiliser la RPE pour "codebook génération" pour l'anglais.Je suis aussi curieux de savoir comment comparer une VQ codebook de taille 16 (qui a été trouvé à être le meilleur de la taille), pour un signal d'entrée donné.Si quelqu'un pouvait aider à distiller ce papier vers le bas pour moi, je l'apprécie grandement.

Merci!

La solution

La deuxième question (comparer codebook au signal donné) est plus facile:pour chaque livre de codes d'entrée V_k_j vous devez calculer la distance d avec signal d'entrée.Le " j "avec la plus petite distance" d " sera correspondent le mieux adapté codebook entrée.Comme une fonction de distance vous pouvez utiliser la RPE

Bâtiment codebook (formative) est un peu plus compliqué.Vous devez vous diviser les phrases de vecteurs de longueur N (16) et ensuite utiliser certaines algorithme de clustering (comme k-means) de cluster de ces vecteurs.Ensuite, trouver moyen dans chaque cluster.Ce que cela signifie et sera codebook entrée.C'est une première chose qui vient à l'esprit.

Un autre algorithme (je crois, ça sera mieux) peut être trouvé ici.Aussi, deux d'entraînement simple, les algorithmes sont décrits dans Wikipédia

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow