¿Cómo construyo un modelo de lenguaje de gran vocabulario para CMU Sphinx?

https://stackoverflow.com/questions/4783359

24-10-2019
|

Pregunta

Me gustaría crear un modelo de idioma para CMU Sphinx, pero mi corpus tiene más de 1000 palabras, por lo que no puedo usar la herramienta en línea. ¿Cómo uso (los scripts en cmuclmtk?) Para construir mi modelo de idioma?

Solución

Lea el tutorial

http://cmusphinx.sourceforge.net/wiki/tutoriallm

Otros consejos

No es una tarea trivial. Generar un modelo de idioma es una tarea intensiva en el tiempo y los recursos.

Si desea tener un "buen" modelo de idioma, necesitará un corpus de texto grande o muy grande para entrenar un modelo de idioma (piense en el orden de magnitud de varios años de textos de Wall Street Journal).

"bueno" significa: si el modelo de idioma podrá generalizar de los datos de capacitación a datos de entrada nuevos y previamente invisibles

Debe observar la documentación de Sphinx y los kits de herramientas del modelo de lenguaje HTK.

http://cmusphinx.sourceforge.net/wiki/tutoriallm

También revise estos dos hilos:

Construyendo modelo de idioma compatible con Openears

Análisis de texto de Ruby

Puede tomar un modelo de idioma más general, basado en un corpus más grande e interpolar su modelo de idioma más pequeño con él ... por ejemplo, un modelo de lenguaje de retroceso ... pero esa no es una tarea trivial.

ver: El modelo de retroceso de Katz

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow