Algum projeto FLOSS utiliza a entrada humana para a síntese da fala?[fechado]

https://stackoverflow.com/questions/8891981

29-10-2019
|

Pergunta

Há algum projeto de código aberto e conteúdo aberto que usa dados de voz gravados para gerar voz sintetizada? (Com o objetivo de sintetizar / simular a fala de um determinado indivíduo. Como observação lateral, há um nome para esse processo, objetivo ou dados extraídos? "Assinatura de voz"?)

Imagino que o fluxo de trabalho seria algo como:

gravar a fala a partir de um texto padronizado ("O ursinho sentou no tapete.")
escolher fonemas ("a" de gato), levando em consideração o sotaque
obtenha os dados que fazem o "eh" de Alice soar diferente do "eh" de Betty
renderizar texto em fala usando fonemas apropriados para sotaque mais assinatura de voz

Responder a esta pergunta é uma etapa crítica na petição de Jack Angel ( Teddy , Wonkers ) para doar sua suave assinatura de voz ao domínio público pelo bem da humanidade.

Solução

Aqui está um projeto de código aberto chamado festvox patrocinado pela Carnegie Mellon University que tem como objetivovoz sintetizada construída em um alto-falante específico.Seu conceito é descrito aqui e parece um processo muito demorado para sintonizá-lo corretamente.Há uma boa lista de projetos de código aberto Text-To-Speech em BableFish.org .Há uma boa discussão no Blog Text To Speech sobreconstruir um mecanismo de TTS em torno de um alto-falante específico.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow