Conversión de voz a texto en Linux

https://stackoverflow.com/questions/454664

19-08-2019
|

Pregunta

Estoy planeando iniciar una aplicación que convierta el discurso en texto en Linux. ¿Hay alguna interfaz existente para poder extenderla? o ¿Existe alguna aplicación existente en Linux? ¿Alguna entrada sobre esto?

EDITAR: la aplicación que planeo escribir debería poder convertir cada palabra que hablamos en texto, no solo Sí / No.

Solución

Bueno, esta es una gran empresa y sin decir qué tecnología desea usar, aquí hay algunos enlaces:

Reconocimiento de voz en Wikipedia
Java Speech API
Especificación de gramática de reconocimiento de voz del W3C
Sphinx : un motor de reconocimiento de código abierto escrito en Java

Buena suerte. Con más detalle, podremos proporcionar mejores respuestas. Por ejemplo, hay una gran diferencia entre "sí / no" reconocimiento de estilo de centro de llamadas versus incluso comprensión parcial del lenguaje natural.

Otros consejos

Las sugerencias de Dave son un gran comienzo. Sphinx es muy ingenioso.

Solo quiero agregar que debes ser lo más probabilístico posible. Como lingüista único e incluso aficionado a la fonología anterior, puedo decir con confianza que no se deje atrapar por los modelos lingüísticos. No olvidemos que a menudo mal atribuido "cada vez que despido a un lingüista, mi precisión aumenta". Realmente se trata del modelo y sus capacidades para explicar el ruido y la variación en lugar de cualquier cosa que un experto en artes liberales del MIT tenga que decir.

Un buen libro para recoger sería Jurafsky y Martin '' Speech and Language Processing ''. Tiene algunas aplicaciones muy útiles de modelos computacionales para la tarea. El trabajo de Harvey Sussman sobre correlatos lineales en las pendientes F2 para una variedad de vocales (comenzando con lechuzas y avanzando hacia los humanos) parece que sería bueno implementarlo en un modelo uno de estos días.

Julius también es una buena opción para Linux

Sphinx es tu mejor apuesta en Linux. He probado Sphinx II y Sphinx III. Hay algunos lenguajes de código abierto y modelos acústicos disponibles que se pueden usar con cada uno de ellos. No es un rendimiento a nivel de producción, pero es lo suficientemente bueno para la creación de prototipos o demostraciones. Para la producción, deberá desarrollar su propio lenguaje y modelos acústicos.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow