所以这是从90年代后期... http://www.cs.princeton.edu/~prc/singingsynth.html

为什么没有取出? (我们可以像图像一样综合逼真的图像,但是唱歌的合成……似乎仍处于非常原始的阶段)。

到底是什么使唱歌的综合变得困难?

http://www.interspeech2007.org/technical/synthesis_of_singing_challenge.php < - 仍然是原始的。

有帮助吗?

解决方案

我的感觉是,我们进入了怪异的山谷,比图像更容易发出声音。尽管我们的大脑相对较好地接受形成不良的图像,但除非听起来很自然,否则它不会接受形成不良的声音。听起来并不完美的一切听起来都令人毛骨悚然,这是对实际应用的非常强大的障碍。这对于公告和电话服务来说是一件好事,但是我们距离完全合成的歌声还有很长的路要走。

另一方面,每天都在现场和工作室进行每天进行实际声音的修改。没有 自动点 所有的“黑帮”和“ Lady Gagas”都将更适合他们的实际才能。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top