¿Cuáles son las técnicas para el reconocimiento de palabras en un flujo de sonido?

https://stackoverflow.com/questions/144555

02-07-2019
|

Pregunta

Tengo bastante curiosidad por esto.

En términos generales, ¿cómo hace uno para hacer lo siguiente:

Detección de separaciones de palabras.
Detección de sílabas.
Compensar las conexiones de palabras de voz normales.

Solución

Esto es objeto de una extensa investigación hasta estos días. Por lo general, uno comienza a construir un modelo basado en el análisis lingüístico del lenguaje en el que reconocerá y detectará todos los casos de separaciones de palabras y sílabas. Luego, el reconocimiento se realiza principalmente utilizando modelos ocultos de Markov sobre la señal.

Aquí hay algunas referencias que podrían darle mejores ideas:

http://lands.let.kun.nl/literature/eric .2004.2.pdf

http://www.asel.udel.edu /icslp/cdrom/vol4/778/a778.pdf

http://en.wikipedia.org/wiki/Speech_segmentation

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow