Pregunta

Quiero usar ya sea sphinx4 o el kit de herramientas HTK me construir una aplicación de reconocimiento de voz que tiene como objetivo estimar las edades de voz. Entiendo, en mayor medida, los modelos ststistical implicados en el reconocimiento de voz. Estoy interesado en coeficientes cepstrales de frecuencia Mel y modelos de mezcla gausian porque estos dos son más adecuados para mi dominio del problema. ¿Tengo que utilizar las redes neuronales y alimentación en los datos de entrenamiento a partir de los vectores derivados de los clasificadores esfinge? No estoy muy seguro de por dónde empezar con la esfinge o el kit de herramientas HTK. Soy nuevo en el reconocimiento de la esfinge y el habla y mi aplicación sólo es un prototipo.

Puede alguien por favor ofrecer algún tipo de orientación a este respecto. Un cordial saludo.

¿Fue útil?

Solución

Por lo general, el primer lugar para empezar algo como esto es la búsqueda de trabajo relacionado previa de la comunidad académica. En Minematsu et al. 2002 , que utiliza modelos de mezcla de Gauss (MMG) sobre los coeficientes cepstrales de frecuencia Mel-distinguir entre los altavoces viejos y jóvenes.

Es de suponer que, si tiene acceso a datos de entrenamiento con los viejos y jóvenes oradores, usted debería ser capaz de hacer lo mismo. Incluso si desea probar otro clasificador de back-end tales como redes neuronales, probablemente sería bueno comenzar con los microorganismos modificados genéticamente, ya que saben que deben trabajar para su tarea y que van a darle algo para comparar con cualquier otros clasificadores desea tratar de utilizar.

Si sólo está haciendo esto por diversión o como un proyecto de investigación, yo recomendaría usar HTK, ya que me gusta la forma en que es modular. Sin embargo, si esto es ser abajo por algo Comercial, probablemente debería ir con Sphinx, ya que puede ser redistribuido bajo una licencia BSD como.

Otros consejos

decidí no ir con Sphinx 4 porque su basado en modelos ocultos de Markov que se utiliza principalmente para auch análisis secuencial como reconocimiento de voz y entradas incluso multimodal para una interfaz basada en la secuencia de entrada. Insted Fui con un software llamado Praat, su para el procesamiento del habla y de síntesis. También hay un "plug-in" si se quiere, llamado "Akustyk" que se utiliza para analizar las vocales y así sucesivamente. Puede ser que la dirección será de utilidad para usted, no estoy seguro.

A continuación, puede utilizar MathLab y utilizar la caja de herramientas de reconocimiento de patrones para implementar sus redes neuronales, GMM, o lo que sea el enfoque que deseen realizar.

Espero que haya sido útil.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top