Java语音识别

https://stackoverflow.com/questions/609528

03-07-2019
|

题

有没有人有任何开源或相对便宜的java语音识别API的经验？我一直在寻找能够将口语变成文本的东西。

从sun上的java语音识别页面来看，它似乎是一个相当死的东西。我的要求是至少能在linux上运行。

有人可以推荐一些东西吗？纯java将是一个额外的好处，否则可以考虑基于linux的解决方案。由于这是一个家庭项目......越便宜越好。

编辑

CMU Sphinx AS Amit指出了CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php我的问题是单词错误率很高。训练本身就是一个项目，我希望在这个周末积攒一些力量来尝试一下。

IBM ViaVoice
2004 年的新闻公告关于 Via Voice 开源. 。看来这个消息发布为时过早，而且这件事从未发生过。威盛语音为 Linux 发布在某个时刻，但他们似乎停了下来。IBM 网站上似乎只剩下以下内容：嵌入 ViaVoice.

IBM Websphere 语音
我想这就是 ViaVoice（桌面版）似乎已停产的原因。IBM 创建了这个商业解决方案，其成本将超过手臂和腿。至少在我使用 websphere 及其 IDE 的经验之后，仅使用它就会占用您剩下的那些。

细微差别
看来他们仍然可能为 Linux 创建产品。但我认为他们迷失了方向，跟随 IBM 进入了服务器市场。我对此不太确定，他们的网站在查找有用信息方面并不那么友好。

思想开放/言论自由
这些人不断改变他们的项目名称。可能有一些渴求金钱的公司一直在威胁他们，但我不知道。该项目看起来有点死了。

这个周末我可能会尝试训练 Sphinx，看看它是否愿意成为朋友。否则更糟糕的情况，我将考虑使用微软的语音解决方案。过去它对我来说效果很好，但它不是一个很好的 Linux 解决方案。我可能可以通过 wine 使用它，但是然后我将有两个单独的服务器......凌乱凌乱。

哦，还有什么地方是参观语音/演讲的好地方语音科技杂志. 。他们有一个“年度参考”，其中列出了以某种方式与语音/语音相关的公司。

解决方案

主要是Java： http://cmusphinx.sourceforge.net/html/cmusphinx.php

其他提示

如果您的预算有限，sphinx 是迄今为止最好的选择。然而它也使得 巨大的 不同的模型你使用什么，你如何调整它们和您如何调整音频源。绝对一切都必须匹配，否则它就行不通。考虑到您所描述的问题，我愿意赌一大笔钱，因为您的模型混淆了，并且您的麦克风未正确校准。另外，如果你有口音，它可能不起作用 - 这不是解码器的问题，而是声学模型的问题 - 如果训练数据中没有包含与你相似的语音/口音的人，你会得到很差的结果。

也就是说，您看过他们的开源模型页面吗？

http://www.speech.cs.cmu.edu/sphinx/models/

根据您想要做什么，您应该能够使用 16kHz WSJ 模型和 gigaword LMs NVP 在自由言论方面获得大约 90% 的准确度。但我提醒您，ASR 是一项艰巨的任务，尚未达到商品状态。

您可以从以下位置下载 vPass（语音密码） http://www.basic-signalprocessing.com.

对于（vText）语音到文本，我可以将 vText.jar 文件发送到您的电子邮件。请通知 enquiry@basic-signalprocessing.com

这些组件是为 Java 和 .Net 语言设计的。识别时间为5秒。VPass 已经经过充分测试，vText 还没有经过充分测试，仍然是新的，这就是为什么还没有打包的原因。

问候，安德里亚斯

几天来我一直在寻找同样的东西。到目前为止我已经找到了Sphinx4和FreeTTS。两者都是 java 实现，而且与 FreeTTS 不同，Sphinx 似乎更新得相当频繁。我遇到的唯一问题是 Sphinx 在办公环境中无法理解我，我需要一个针对仓库环境的解决方案。

我的小组用 Java 完成了一个小程序，用于识别口语数字狮身人面像.

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow