我无法确定从 这个研究论文 究竟如何,我可以重现的标准矢量的量化算法确定的语言的一名身份不明的语音的输入,基于对培训的数据集。这里的一些基本信息:

抽象的信息 语言的承认(例如日语,英语,德语,等等)使用的声学特征是一个重要但困难的问题对于目前的演讲 技术。...语音数据的基础上用于在本文件包含20种语言:16 句子发出了两次由4名男性和4名妇女。每个持续时间 刑期是大约8秒钟。第一个算法是根据标准 矢量量化(V)的技术。每一种语言特征 通过其自己的V码本, alt text.

识别的算法 第一个算法是基于标准的矢量量化(V)的技术。每一种语言, k, 是它自身特征的V码本, alt text.在识别阶段输入语音化由 alt text 和累积的量化的失真,d_k,是计算。的语言作为最小的失真的认可。Calcualating V失真,几LPC畸变的频谱措施。在这种情况下,WLR--加权最比--距离: http://tinyurl.com/yc52gcl.

标准V算法: 一码本, alt文本http://tinyurl.com/y8csx6e, 为每种语言产生的使用培训的句子。累积的距离的输入向在句子, alt text, 定义为: alt文本http://tinyurl.com/ybynjc2

距离 d 可以是任何距离对应的音响特征和必须同样作为一个用于码本的产生。每种语言的特点是其V码本, alt text.

我的问题是,究竟怎么做我这么做?我有一套50英语句子。MATLAB中,我可以很容易地计算出来的WLR对于任何给定的信号。但是,我该如何制定一个码本,因为我必须使用WLR为"码本代"为英文。我也好奇如何进行比较V码本的尺寸16(这被发现是最好的大小),有给出的输入信号。如果有人可以帮助提炼本文件对我,我会很感激它很大。

谢谢!

有帮助吗?

解决方案

第二个问题(比较码本,给信号)更加容易:每个码簿条目V_k_j你必须计算距离d输入的信号。'J'与小距离的'd'将corespond到最佳的配码簿条目。作为一个距离功能可以使用WLR

建设码本(训练)是位更加复杂。你必须把你的句子矢量与长度N(16),然后使用某些集群算法(如k-装置),这些集群的矢量。然后发现意味着在每一个集群。这意味着将码簿条目。这是一个最前一页的事情,想到的。

另一个算法(我相信,它将更好地),可以发现 在这里,.此外,两个简单的培训算法描述 维基百科

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top