Vektorquantisierung in Speech Processing Erklärung

https://stackoverflow.com/questions/2271264

20-09-2019
|

Frage

Ich habe Probleme bei der Bestimmung von .

Erkennungsalgorithmen Der erste Algorithmus basiert auf dem Standard Vector Quantization (VQ) Technik basiert. Jede Sprache, k, wird durch sein eigenes VQ-Codebuch gekennzeichnet, $alt text$ . In der Erkennungsstufe wird eingegebene Sprache quantisiert durch $„alt$ und die akkumulierte Quantisierungsverzerrung, D_K, berechnet werden. Die Sprache, die als die minimale Verzerrung erkannt wird. Calcualating VQ Verzerrung werden mehrere LPC spektrale Verzerrung getroffenen Maßnahmen ... in diesem Fall die WLR - gewichtete kleinste Verhältnis - Entfernung: http://tinyurl.com/yc52gcl .

Standard VQ-Algorithmus: Ein Codebuch, alt text http://tinyurl.com/y8csx6e , für jede Sprache wird Trainingssätze generiert. Der akkumulierte Abstand zum Eingangsvektor in Satz $alt text$ , ist wie folgt definiert: alt text http://tinyurl.com/ybynjc2

Der Abstand d kann jeder Abstand sein, die mit den akustischen Merkmalen entspricht und es muss die gleiche wie die für die Codebuch-Erzeugungs verwendet werden. Jede Sprache wird durch sein VQ-Codebuch gekennzeichnet, $alt text$ .

Meine Frage ist, wie genau kann ich das tun? Ich habe eine Reihe von 50 Sätzen in Englisch. In MATLAB kann ich leicht die WLR für jedes gegebene Signal berechnet. Aber wie formuliere ich ein Codebuch, da ich die WLR für „Codebuch-Generation“ für Englisch verwenden. Ich bin auch gespannt, wie ein VQ-Codebuch der Größe zu vergleichen 16, zu einem bestimmten Eingangssignal (das die beste Größe zu sein gefunden wurde). Wenn jemand destillieren das Papier nach unten für mich helfen könnte, würde ich es sehr schätzen.

Danke!

Lösung

Die zweite Frage (vgl Codebuch gegebenes Signal) ist einfach: für jeden Codebucheintrag V_k_j Sie Abstand d mit dem Eingangssignal berechnen muss. Die ‚j‘ mit kleinstem Abstand ‚d‘ wird am besten geeignet Codebucheintrag corespond. Als Abstandsfunktion können Sie WLR verwenden

Gebäudecodebuch (trainig) ist etwas komplizierter. Sie müssen Sie Sätze zu Vektoren mit Länge N dividieren (16) und dann einige Cluster-Algorithmus verwenden (wie k-means), um diese Vektoren zu gruppieren. Dann Mittelwert findet in jedem Cluster. Dieser Mittelwert und Codebucheintrag sein. Es ist ein fisrt was in den Sinn kommt.

Ein weiterer Algorithmus (ich glaube, es wird besser sein) gefunden werden hier . Auch zwei einfache Trainingsalgorithmen sind in der Wikipedia

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow