Quantizzazione vettoriale in Speech Processing Spiegazione

https://stackoverflow.com/questions/2271264

20-09-2019
|

Domanda

Ho problemi accertante questo documento di ricerca esattamente come posso riprodurre l'algoritmo di Vector standard quantizzazione per determinare la lingua di un input vocale non identificato, sulla base di un training set di dati. Ecco alcune informazioni di base:

Astratto informazioni riconoscimento del linguaggio (ad esempio giapponese, inglese, tedesco, ecc) utilizzando le funzionalità acustiche è un problema ma difficile importante per il discorso corrente tecnologia. ... La base di dati vocali utilizzati in questo documento contiene 20 lingue: 16 frasi pronunciate due volte da 4 maschi e 4 femmine. La durata di ciascun frase è di circa 8 secondi. Il primo algoritmo è basato sullo standard Quantizzazione vettoriale (VQ) tecnica. Ogni lingua è caratterizzata dal proprio VQ codebook, $alt text$ .

Riconoscimento Algoritmi Il primo algoritmo si basa sulla tecnica standard quantizzazione vettoriale (VQ). Ogni lingua, k, è caratterizzata da una propria VQ codebook, $alt text$ . Nella fase di riconoscimento vocale di ingresso è quantizzata da $alt text$ e la distorsione di quantizzazione accumulato, d_k, viene calcolato. La lingua che, come la distorsione minima è riconosciuto. Calcualating distorsione VQ, diverse misure di distorsione spettrale LPC sono applicati ... in questo caso, il WLR - ponderato almeno rapporto - distanza: http://tinyurl.com/yc52gcl .

VQ algoritmo standard: Un codebook, alt text http://tinyurl.com/y8csx6e , per ciascuna lingua viene generata utilizzando frasi di formazione. La distanza accumulata per vettore di ingresso in frase, $alt text$ , è definito come: alt text http://tinyurl.com/ybynjc2

Il d distanza può essere qualsiasi distanza che corrisponde alle caratteristiche acustiche e deve essere uguale a quello utilizzato per la generazione del vocabolario. Ogni lingua è caratterizzata da un cifrario VQ, $alt text$ .

La mia domanda è, esattamente come faccio a fare questo? Ho una serie di 50 frasi in inglese. In MATLAB, posso facilmente calcolato il WLR per qualsiasi dato segnale. Ma, come faccio a formulare un codebook, dal momento che devo usare il WLR per "la generazione del vocabolario" per l'inglese. Sono anche curioso di sapere come confrontare un codebook VQ di dimensione 16 (che è risultato essere il migliore formato), ad un dato segnale di ingresso. Se qualcuno potrebbe aiutare distillare questa carta verso il basso per me, sarei grato notevolmente.

Grazie!

Soluzione

La seconda domanda (confrontare codebook al dato segnale) è più facile: per ogni voce cifrario V_k_j è necessario calcolare la distanza d con segnale di ingresso. Il 'j' con distanza minima 'd' si corespond all'ingresso codebook meglio attrezzata. Come funzione di distanza è possibile utilizzare WLR

codebook edifici (trainig) è po 'più complicato. È necessario dividere voi frasi da vettori con lunghezza N (16) e quindi usare qualche algoritmo di clustering (come k-means) di raggruppare questi vettori. Poi trovare significa in ogni cluster. Questa media e sarà la voce del vocabolario. E 'una cosa fisrt che viene in mente.

Un altro algoritmo (credo, sarà meglio) può essere trovato qui . Inoltre, due algoritmi di addestramento semplici sono descritti in Wikipedia

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow