Pregunta

Estoy planeando iniciar una aplicación que convierta el discurso en texto en Linux. ¿Hay alguna interfaz existente para poder extenderla? o ¿Existe alguna aplicación existente en Linux? ¿Alguna entrada sobre esto?

EDITAR: la aplicación que planeo escribir debería poder convertir cada palabra que hablamos en texto, no solo Sí / No.

¿Fue útil?

Solución

Bueno, esta es una gran empresa y sin decir qué tecnología desea usar, aquí hay algunos enlaces:

Buena suerte. Con más detalle, podremos proporcionar mejores respuestas. Por ejemplo, hay una gran diferencia entre "sí / no" reconocimiento de estilo de centro de llamadas versus incluso comprensión parcial del lenguaje natural.

Otros consejos

Las sugerencias de Dave son un gran comienzo. Sphinx es muy ingenioso.

Solo quiero agregar que debes ser lo más probabilístico posible. Como lingüista único e incluso aficionado a la fonología anterior, puedo decir con confianza que no se deje atrapar por los modelos lingüísticos. No olvidemos que a menudo mal atribuido "cada vez que despido a un lingüista, mi precisión aumenta". Realmente se trata del modelo y sus capacidades para explicar el ruido y la variación en lugar de cualquier cosa que un experto en artes liberales del MIT tenga que decir.

Un buen libro para recoger sería Jurafsky y Martin '' Speech and Language Processing ''. Tiene algunas aplicaciones muy útiles de modelos computacionales para la tarea. El trabajo de Harvey Sussman sobre correlatos lineales en las pendientes F2 para una variedad de vocales (comenzando con lechuzas y avanzando hacia los humanos) parece que sería bueno implementarlo en un modelo uno de estos días.

Julius también es una buena opción para Linux

Sphinx es tu mejor apuesta en Linux. He probado Sphinx II y Sphinx III. Hay algunos lenguajes de código abierto y modelos acústicos disponibles que se pueden usar con cada uno de ellos. No es un rendimiento a nivel de producción, pero es lo suficientemente bueno para la creación de prototipos o demostraciones. Para la producción, deberá desarrollar su propio lenguaje y modelos acústicos.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top