我现在在搜索Java文字到语音(合成)框架。在我的调查我已经找到了几个JSAPI1.0-(部分地)兼容的框架列出上 JSAPI实现页面, 以及一对爪哇语音合成框架似乎并不遵循JSAPI规范(玛丽, 说-它-现在).我还注意到,目前没有参考执行存在JSAPI.

简单测试,我已经做了FreeTTS(第一一列出在JSAPI impls页)显示,它是从阅读简单和明显的话(例:ABC,黑板).其他的测试,目前正在进行中。

和这里所说的问题(6,实际上):

  1. 这Java基于合成框架你有用吗?
  2. 这个通过你的意见,都能够阅读最大的一个?
  3. 什么有关他们的声音质量?
  4. 什么关于他们的性能吗?
  5. 非Java框架与Java绑定在那里的场景吗?
  6. 他们将你的建议?

谢谢你提前对你的意见和建议。

有帮助吗?

解决方案

我实际上在 FreeTTS

上运气不错

其他提示

我之前使用过玛丽,我对声音的质量印象非常深刻。不幸的是,我没有使用任何其他的。

实际上,没有一个很大的选择:

  • 节,最老的。C++编写,但已定Java。
  • eSpeak,快速,简单,用于通过谷歌翻译
  • mbrola

纯Java:

  • FreeTTS,这代码被移植从节,然后是开放的来源和发展已停止。
  • MaryTTS-看起来更强大和生产做好准备。

还有其他所有的节目,如:

  • 清唱
  • 细微差别的发声器

如果你软件是Windows只有你可以使用微软的讲话。

我使用了 AT& T Natural Voices ,它提供了JSAPI和MS SAPI钩子。它提供了优质的声音,良好的“通用”声音。语音词典,许多语音控制和多种语言。它有点贵,但效果很好。

我用它来向移动传感器应用程序中的驱动程序读取重要的传感器遥测。我们没有关于语音质量的抱怨。通过科学术语,它具有大约75%的开箱即用精度,而对于正常对话,它具有更高的(可能是90%以上)。我们通过使用标记来获得高达99%以上的准确率(大多数错误都是用不同的音素组合的科学术语)。

处理器有点困难(我们在Pentium-III等效机器上运行,它推动了50%-75%峰值CPU)。这使用本机语音引擎(Windows,Linux和Mac兼容)和Java接口。

有各种各样的声音和语言......

我使用了FreeTTS,但是在我的MacbookPro上运行MBrola语音时遇到了一个重大问题。我确实得到MBrola的声音在Windows(痛苦地)和Linux上运行。我没有运气在FreeTTS上加载任何其他声音包,这是一种耻辱,因为提供的声音是可怕的IMO。除此之外,Cloudgarden也取得了一些成功,但只能在Windows AFAIK上运行。我有兴趣听到其他语音引擎的成功/失败,因为这类工作特别具有挑战性。我也在玩Sphinx4。我昨晚刚刚关闭了JVXML(似乎是基于Sphinx4),但由于一些奇怪的原因无法让它运行。

我为玛丽做出了贡献。我认为如果某人比我更聪明,将HMM的声音从核心中分离出来(这些声音不需要大型数据集和声音确定),它有潜力。我也试图做一个事件系统来让freetts在说出一个单词时发送事件。我已经取得了成功,但现在它在Linux中被打破了。 (可能是因为计时器错误)。

非常感谢大家,诀窍在于FreeTTS来源。简单地说:如果以 java -jar freetts.jar some-more-args-here 的形式运行,它的拼写方式比以bin / Server.jar和bin / Client.jar的方式执行时要少。

我对 MarryTTS 感到很不舒服。它有多语言和清晰的语音可供理解。

T将语音转换为文本,更好的选择是 sphinx4-5prealpha 。 我给了一个拇指,因为它具有可调节,灵活性和可修改的识别器和语法。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top