Cuantificación del vector en Speech Processing Explicación

https://stackoverflow.com/questions/2271264

20-09-2019
|

Pregunta

Tengo problemas para determinar a partir de este trabajo de investigación exactamente cómo puedo reproducir el algoritmo estándar de cuantificación vectorial para determinar el idioma de una entrada de voz no identificada, basada en un conjunto de datos de entrenamiento. Aquí hay algo de información básica:

Extracto información el reconocimiento del lenguaje (por ejemplo, japonés, Inglés, Alemán, etc.) utilizando las características acústicas es un problema difícil, sin embargo, importante para el habla actual tecnología. ... La base de datos de voz utilizado en este trabajo contiene 20 idiomas: 16 frases pronunciadas por el doble de 4 machos y 4 hembras. La duración de cada frase es de unos 8 segundos. El primer algoritmo se basa en la norma Cuantificación Vectorial técnica (VQ). Cada lengua se caracteriza por su propio libro de códigos de VQ, $texto alternativo$ .

Reconocimiento Algoritmos El primer algoritmo se basa en la técnica estándar Cuantificación Vectorial (VQ). Cada lengua, k, se caracteriza por su propio libro de códigos, $alt text$ VQ. En la etapa de reconocimiento de voz de entrada se cuantifica por $text alt$ y la distorsión de cuantificación acumulada, D_K, se calcula. El lenguaje que como mínimo la distorsión se reconoce. Calcualating distorsión VQ, se aplican varias medidas de distorsión espectral LPC ... en este caso, el AMLT - pondera menos relación - distancia: http://tinyurl.com/yc52gcl .

Estándar VQ Algoritmo: Un libro de códigos, texto alternativo http://tinyurl.com/y8csx6e , para cada idioma se genera utilizando frases de formación. La distancia acumulada para el vector de entrada en la frase, $alt texto$ , se define como: texto alt http://tinyurl.com/ybynjc2

El d distancia puede ser cualquier distancia que corresponde a las características acústicas y debe ser el mismo que el utilizado para la generación de libro de códigos. Cada lengua se caracteriza por su libro de códigos de VQ, $text alt$ .

Mi pregunta es, ¿cómo es exactamente lo hago? Tengo un conjunto de 50 frases en Inglés. En MATLAB, puedo calcular fácilmente el AMLT para cualquier señal dada. Pero, ¿cómo formular un libro de códigos, ya que debo utilizar el AMLT de "generación de libro de códigos" para Inglés. También estoy curioso en cuanto a cómo comparar un libro de códigos de VQ de tamaño 16 (que resultó ser el mejor tamaño), a una señal de entrada dada. Si alguien puede ayudar a destilar este papel hacia abajo para mí, se lo agradecería mucho.

Gracias!

Solución

La segunda pregunta (compárese libro de códigos de señal dada) es más fácil: para cada entrada de libro de códigos V_k_j debe calcular la distancia d con la señal de entrada. El 'j' con la distancia más pequeña 'd' se corespond a la entrada de libro de códigos mejor equipado. Como una función de distancia se puede utilizar AMLT

libro de códigos de construcción (trainig) es algo más complicado. Usted debe dividir frases de vectores con longitud N (16) y luego utilizar algún algoritmo de agrupamiento (como k-medias) para agrupar estos vectores. A continuación, busque significa en cada clúster. Esta media y la entrada será de libro de códigos. Es una cosa fisrt que viene a la mente.

Otro algoritmo (creo, será mejor) se puede encontrar aquí . Además, dos algoritmos de entrenamiento simples se describen en Wikipedia

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow