我如何愚弄我们的尖端文本到语音？

https://stackoverflow.com/questions/3757226

04-10-2019
|

题

回到过去，文字到语音的尖端是不完美的。当您输入一个单词时，它几乎可以阅读它的拼写方式...单调。通常，结果将非常有趣。如今，文本到语音太聪明了，无法以可以带来笑声的方式。

作为一个个人项目，我想弥补一个应用程序，该应用程序可以带回这种古老的文字到语音风格，即使只是玩具。在.net中，我俩都可以使用 System.Speech.dll 和 SpeechLib com对象。（Microsoft语音对象库）似乎都使用了OS内置的文本到语音，这再次使用了太聪明。是否有任何方法可以配置它们以禁用使其智能的任何方法？

我尝试了一些不同的“ Sayas”选项，我尝试将文化设置为不变（例外！），现在我正在看SSML。看起来我必须找到旧技术本身，但我什至不知道从哪里开始。

作为我希望看到的混乱的一个例子，这是您的一些月底alpha： http://www.youtube.com/watch?v=hv6rbeolqro （确保您戴着耳机！）

这些新的文本到phoneme转换器，正常化器和无电手机以及...

解决方案 2

好吧，我只是设法偶然发现了旧的“ Microsoft语音文本”库： vtext.dll

这似乎是我想要的！与现代TTS库相比，该界面非常简单。结果似乎与我链接的视频中的声音并不完全相同，但这可能是不同的实现。无论哪种方式，现在该回想起了。

var tts = new HTTSLib.TextToSpeech();
tts.Speak("ebrbrbrbrbrbrbrbr");

由于某种原因，当我说“这里”时，它会崩溃vshost.exe。但是，由于这只是一个愚蠢的个人项目，所以我可以忽略它。

其他提示

您可能想要所谓的“ NRL算法” votrax 1970年代和1980年代的语音合成器。我记得我的一个朋友有一个我们（通过串行端口）与我的Osborne I连接的。例如，“计算机”出现了“ com pooter”。

也许是 Microvox 我的朋友有。这似乎敲响了铃铛。当时，所有文本到语音框都使用了几乎相同的技术。链接的文章是信息的喷泉。向下大约是关于语音转换文本的长期部分。它描述了规则和基本算法。我怀疑，通过一些研究和实验，您可以复制Microvox的语音合成。

NRL算法由 Unix Speak命令, ，其源头显然已经丢失了历史的巨大桶。然而， MD McIlroy 写了一篇论文。统治综合英语演讲（这是一个包含扫描页面的焦油文件）。

如果我有时间，这将是一个有趣的项目。祝你好运。让我知道您是否可以随处可见。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow