有没有人有任何开源或相对便宜的java语音识别API的经验?我一直在寻找能够将口语变成文本的东西。

从sun上的java语音识别页面来看,它似乎是一个相当死的东西。我的要求是至少能在linux上运行。

有人可以推荐一些东西吗?纯java将是一个额外的好处,否则可以考虑基于linux的解决方案。由于这是一个家庭项目......越便宜越好。

  • 编辑

CMU Sphinx AS Amit指出了CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php我的问题是单词错误率很高。训练本身就是一个项目,我希望在这个周末积攒一些力量来尝试一下。

IBM ViaVoice
2004 年的新闻公告关于 Via Voice 开源. 。看来这个消息发布为时过早,而且这件事从未发生过。威盛语音 为 Linux 发布 在某个时刻,但他们似乎停了下来。IBM 网站上似乎只剩下以下内容: 嵌入 ViaVoice.

IBM Websphere 语音
我想这就是 ViaVoice(桌面版)似乎已停产的原因。IBM 创建了这个商业解决方案,其成本将超过手臂和腿。至少在我使用 websphere 及其 IDE 的经验之后,仅使用它就会占用您剩下的那些。

细微差别
看来他们仍然可能为 Linux 创建产品。但我认为他们迷失了方向,跟随 IBM 进入了服务器市场。我对此不太确定,他们的网站在查找有用信息方面并不那么友好。

思想开放/言论自由
这些人不断改变他们的项目名称。可能有一些渴求金钱的公司一直在威胁他们,但我不知道。该项目看起来有点死了。

这个周末我可能会尝试训练 Sphinx,看看它是否愿意成为朋友。否则更糟糕的情况,我将考虑使用微软的语音解决方案。过去它对我来说效果很好,但它不是一个很好的 Linux 解决方案。我可能可以通过 wine 使用它,但是然后我将有两个单独的服务器......凌乱凌乱。

哦,还有什么地方是参观语音/演讲的好地方 语音科技杂志. 。他们有一个“年度参考”,其中列出了以某种方式与语音/语音相关的公司。

有帮助吗?

其他提示

如果您的预算有限,sphinx 是迄今为止最好的选择。然而它也使得 巨大的 不同的模型你使用什么,你如何调整它们 您如何调整音频源。绝对一切都必须匹配,否则它就行不通。考虑到您所描述的问题,我愿意赌一大笔钱,因为您的模型混淆了,并且您的麦克风未正确校准。另外,如果你有口音,它可能不起作用 - 这不是解码器的问题,而是声学模型的问题 - 如果训练数据中没有包含与你相似的语音/口音的人,你会得到很差的结果。

也就是说,您看过他们的开源模型页面吗?

http://www.speech.cs.cmu.edu/sphinx/models/

根据您想要做什么,您应该能够使用 16kHz WSJ 模型和 gigaword LMs NVP 在自由言论方面获得大约 90% 的准确度。但我提醒您,ASR 是一项艰巨的任务,尚未达到商品状态。

您可以从以下位置下载 vPass(语音密码) http://www.basic-signalprocessing.com.

对于(vText)语音到文本,我可以将 vText.jar 文件发送到您的电子邮件。请通知 enquiry@basic-signalprocessing.com

这些组件是为 Java 和 .Net 语言设计的。识别时间为5秒。VPass 已经经过充分测试,vText 还没有经过充分测试,仍然是新的,这就是为什么还没有打包的原因。

问候,安德里亚斯

几天来我一直在寻找同样的东西。到目前为止我已经找到了Sphinx4和FreeTTS。两者都是 java 实现,而且与 FreeTTS 不同,Sphinx 似乎更新得相当频繁。我遇到的唯一问题是 Sphinx 在办公环境中无法理解我,我需要一个针对仓库环境的解决方案。

我的小组用 Java 完成了一个小程序,用于识别口语数字 狮身人面像.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top