向语音生成添加口音

https://stackoverflow.com//questions/9712887

14-12-2019
|

题

这个问题的第一部分现在是它自己的，这里：分析文本

问题：如何添加到生成的语音？

我提出的内容：

我并不意味着只有口音标记，或拐点，或者任何单数。我的意思是像一个完整的英国口音，或苏格兰口音或俄罗斯等等。

我会认为这也可以在语言之外完成。 EX ：俄罗斯的东西可以用英国口音生成，或者普通话中的东西可以有一个俄罗斯口音。

我认为基本过程是这样的：

分析文本

与数据库（或类似的东西）进行比较，以确定需要重点的内容，它应该有多强烈等等。

在指定语言中生成语音
使用正常文本到语音处理器轻松。

根据分析的文本确定指定的重音。

这是有问题的部分。

我认为一系列幅度和过滤器会最适合下一步。

网格和口音。

这将是容易的部分。

可以通过将语音乘以重音来完成的，就像许多其他DSP方法一样。

这真的是一般的DSP问题，但我想提出一个程序化算法来做到这一点而不是一般想法。

解决方案

什么是重音？

重音不是声音过滤器;这是一种语言中文本的声学实现的模式。您无法录制录制美国英语，通过“幅度和过滤器”运行，并弹出英国英语。 DSP对于实现的是实现的，在实现 prosody ，而不是口音。

基本上（最简单的模型），一个口音由一个音色序列的语音实现规则组成。对重音的感知进一步影响了 by prosodod ，由哪个音素a扬声器在阅读文本时选择。

语音生成

语音生成过程有两个基本步骤：

文本到音素：将写入文本转换为音素序列（加上超规块，以及韵律界限等韵律信息）。这有点重音依赖（例如，“的输出”的“实验室”不同于美国和英国扬声器之间）。

音素到语音：给定音素的序列，根据方言的语音实现的语音的规则生成音频。（通常你将迪维斯结合，然后在声学上调整韵律）。这是依赖性高度重音的，并且这是赋予重点的主要质量。一个特定的音素，即使在两个口音之间共享，也可能具有惊人的声学实现。

使用给定的重音生成语音

对于美国和英国英语，标准普通话，法语等，将有几种选择，包括您将能够修改的开源（如下）。例如，查看 freetts 和 espeak 。对于不太常见的口音，遗憾的是，现有的发动机可能不存在。

用外国口音发言文字

英语 - 一个外翻是社会上不是很昂贵的，所以完整的系统可能不存在。

一个策略是将一个现成的文本到音素引擎与外语与语音引擎组合起来的原始版本。例如，在美国学习英语的母语扬声器将合理地使用美国的发音实验室，并将其音素映射到他的原生俄语音素上，以俄语发出宣称它们。（我相信有一个网站，这是英语和日语的网站，但我没有链接。）

问题是结果太极端了。真正的英语学习者将尝试识别并生成以他的母语不存在的音素，并且还会改变他对他的本土音素的实现，以近似原主发音。结果与当然母语的母语有多匹配，但使用纯外国极端声音荒谬（并且大多是不可理解的）。

因此生成合理的美国英语 - 与A-rsival-rescent（例如），您必须编写一个文本到位音引擎。您可以使用现有的美国英语和俄语文本到音素引擎作为起点。如果您不愿意找到并录制这样的扬声器，您可能仍然可以使用DSP获得体面的近似来将样本与这两个引擎相结合。对于Espeak，它使用Rembant Synthesis而不是录制的样本，因此可以更容易地将信息与多种语言组合。

另一件需要考虑的是外国扬声器经常通过母语语言的致动词的影响，通常通过简化辅音簇，插入术术元音或二维术语或破碎元音序列来修改其母语的音素的序列。

有关此主题的一些文献。

其他提示

这个问题并不是“编程”本身：这是语言学。该编程比较容易。对于分析，这将是非常困难的，而且实际上你可能会更好地让用户指定重音;或者您要参加自动化故事读者吗？

但是，基本口音是与现代文本的可行模式。您是否知道国际语音字母表？ http://en.wikipedia.org/wiki/international_phonetic_alphabet 它基本上列出了人类声音可能会产生的所有声音。然后，重音只是从字母表到自身的映射（函数）。例如，为了让美国口音发起英国人的英国人（虽然不足以让它发出英国人的英国人），你可以在一个单词中间的所有“r”声音来说。因此，例如牙槽箱将被称为浊度的摩擦力。（很多角落案件为此而锻炼）。

漫长而短：这并不容易，这可能是为什么没有人完成它。我肯定了一些语言学教授，他们会说它不可能。但这就是语言学教授所做的。但是你基本上需要阅读有关的厚重教科书，发音，发音，以解决这个问题。祝你好运！

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow