Вопрос
Так что это с конца 90-х ... http://www.cs.princeton.edu/~prc/singingsynth.html.
Почему это не снялось? (Мы можем синтезировать фотореалистичные как изображения, но синтез пения ... все еще кажется на очень примитивных этапах).
Что именно это делает синтез пения сложно?
http://www.interspeech2007.org/technial/synthesis_of_singing_challenge.php. <- все еще кажется примитивным.
Решение
Мое чувство состоит в том, что мы попадаем в странную долину для звуков легче, чем для изображений. В то время как наш мозг принимает плохое образующее изображение относительно хорошо, он не принимает плохо сформированный звук, если он не звучит естественно. Все, что не звучит совершенно не разверженные звуки жутко, и это делает очень сильный барьер для реальных приложений. Это хорошо для объявлений и телефонных услуг, но мы длительный путь от абсолютно синтетического пения.
С другой стороны, модификация фактических голосов ежедневно выполняется, как в прямом эфире, так и в студии. Без Аутотана Вся «гангста» и «Леди Гагас» там сделают работу более подходящей для их реального таланта.