我对语音到文本的算法非常感兴趣,但我不知道从哪里开始研究它们。一系列的搜索让我发现 , ,但这是从 1996 年开始的,我相当确定自那时以来已经有所改进。

对此类内容有任何经验的人是否有任何阅读/源代码检查的建议?或者只是关于如果我想进入编写语音识别程序的世界我应该尝试了解什么的一般建议(如果您对该领域了解不多,有时很难知道要搜索什么)。

编辑:我想做一些跨平台的事情,但目前我的目标是Linux。

编辑2:感谢 csmba 经过深思熟虑的回复。目前,我主要感兴趣的是能够创建允许自动化或通过语音执行不同命令的应用程序。因此,有限数量的可识别命令能够串在一起。例如,音乐播放器接受“播放 Squarepusher 的专辑 Hello Everything”等命令,或者应用程序启动器允许用户创建语音快捷方式来启动特定应用程序。

我意识到这是一个相当大的问题,而且我现在还远远没有达到实现整个​​识别引擎所需的知识水平,尽管这样做所涉及的技术让我着迷,而且这是我想要从事的工作我自己去做。很可能,我最终可能会拿起一两本关于该主题的书,并在空闲时间研究/玩“简单”的实现。

有帮助吗?

解决方案

这是一个巨大的问题,我不知道如何开始......因此,让我尝试为您提供正确的“条款”,以便您可以完善您的任务:

首先,了解语音识别是一个多样化且复杂的学科,它有许多不同的应用。人们倾向于将此域映射到他们头脑中的第一件事(通常是计算机在 IVR 系统中理解您所说的内容)。首先让我们将这个概念分为主要类别:

人机交互: 涉及理解人类所说内容的应用程序,但人类知道他正在与机器交谈,并且 语法 是非常有限的。例子是

  • 计算机自动化
  • 专门:例如,飞行员自动化一些控制(噪音是一个大问题)
  • IVR(交互式语音应答)系统,例如 Google-411,或者当您致电银行并且另一端的计算机说“说‘服务’以获得客户服务”时

人与人之间 (即兴发言):这是一个更大、更复杂的问题。这里我们还可以将其分解为不同的应用:

  • 呼叫中心:座席与客户之间的对话、电话质量、压缩
  • 智力:2 人或多人之间的广播/电话/实时对话

现在,语音转文本并不是您应该说的您关心的内容。你关心的是解决问题。不同的技术用于解决不同的问题。查看概述 这里 其中一些。总而言之,其他方法有语音转录、LVCSR 和直接基于。

另外,您有兴趣成为该技术背后的博士吗?你需要一个硕士同等学历,涉及 信号处理 可能是最前沿的博士学位。在这种情况下,您将在一家开发实际应用程序的公司工作 语音引擎. 。像 Nuance 和 IBM 这样的大公司是大公司,但也有 Phillips 和其他初创公司。

另一方面,如果您想成为实现应用程序的人,您将不会致力于引擎,而是致力于构建使用该引擎的应用程序。我认为一个很好的类比来自游戏行业:您正在开发图形引擎(如 Cry 引擎),还是正在开发数百款游戏中的一款,所有这些游戏都使用相同的图形引擎?

不要误会我的意思,除了 IBM/Nuance 之外,在搜索质量方面还有很多工作要做。引擎通常非常开放,需要进行大量算法调整,这可能会极大地影响性能。每个业务应用程序都有不同的约束和成本/收益函数,因此您可以进行多年的实验,构建更好的基于语音识别的应用程序。

还有一件事:一般来说,如果你想成为职位较低的职位,你还希望拥有良好的统计背景。

目前,我主要感兴趣的是能够创建允许自动化的应用程序

太好了,我们在这里汇合了……那你对“语音转文本”就没兴趣了。这些流行语将带您进入完全转录的世界,一个您不需要去的地方。您应该关注一些人机技术,例如语音 XML 以及 IVR 系统中使用的技术(Nuance 是其中最大的参与者)

其他提示

我绝对会推荐拿起 一本书 如果您是该领域的新手,则可以是两个。我没有这方面的经验,所以无法给出建议。如果您仍在大学(或仍然有密切联系),您应该了解您的教授是否可以提出推荐。

您链接的调查可能也是一个很好的资源。我确信自 1996 年以来已经取得了进步,但基本原理不太可能发生根本性改变。如果调查写得很好,那么非常值得您花时间阅读。

对于 OS X,请查看以下内容: OS X 语音技术

对于 Windows,请查看以下内容: 微软语音API

我曾与 IBM 的 ViaVoice 产品. 。它有一个很好的 ASR(自动语音识别)引擎和一个很好的文本到语音引擎。

网站不是很好,但这是嵌入式版本的链接 http://www-01.ibm.com/software/voice/support/

但它与平台无关,一切都通过 MVC 架构进行,使用 vxml(用于语音目的的 xml 变体)。

您的目标平台是什么?有 微软语音 API 如果它适用于 Windows,您可以使用它。

还有 语音识别服务 对于安卓。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top