Pregunta

Estoy tratando de desarrollar una aplicación en línea donde el usuario escribe un texto y el software de la canta de nuevo al usuario.

Actualmente puede generar el archivo de audio con las palabras pronunciadas por el ordenador mediante eSpeak, pero no tengo ni idea de cómo hacer que suene como una canción, cómo agregar ritmo a la misma.

Soy capaz de cambiar el tono y el tempo utilizando bandas de goma, pero eso es por lo que yo he recibido.

¿Alguien tiene una idea de cómo hacer que esto suceda?

¿Fue útil?

Solución 2

he terminado usando el modo de cantar de Festival. Suena bastante bien, excepto por el hecho de que sólo funciona con voces en inglés.

Otros consejos

Si desea utilizar bandas de goma a la duración del cambio y de paso, a continuación, creo que la parte más difícil va a ser mapeo de fonemas / sílabas en el texto a los correspondientes rangos de audio en la producción del discurso systhesis, por lo que no tengo simple sugerencia . (Lo ideal sería que se obtendría en el interior del sintetizador de voz para que se le proporcionará la correspondencia entre fonemas a la ubicación de audio.)

Una alternativa más simple podría ser la de tratar sintetizador de voz Markup Language - SSML . Tiene un "pitch" y "duración" elementos que pueden especificar absolutamente terreno de juego en Hz y la duración en segundos. También puede especificar el volumen, para el control de la dinámica.

En vista de esto, se podría tratar de convertir el texto en un documento SSML, y marcar palabras / sílabas / phonemees con atributos de tono / duración y volumen.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top