矢量的量化中的语音处理的解释

https://stackoverflow.com/questions/2271264

20-09-2019
|

题

我无法确定从这个研究论文究竟如何，我可以重现的标准矢量的量化算法确定的语言的一名身份不明的语音的输入，基于对培训的数据集。这里的一些基本信息：

抽象的信息 语言的承认(例如日语，英语，德语，等等)使用的声学特征是一个重要但困难的问题对于目前的演讲技术。...语音数据的基础上用于在本文件包含20种语言：16 句子发出了两次由4名男性和4名妇女。每个持续时间刑期是大约8秒钟。第一个算法是根据标准矢量量化(V)的技术。每一种语言特征通过其自己的V码本， $alt text$ .

识别的算法 第一个算法是基于标准的矢量量化(V)的技术。每一种语言， k, 是它自身特征的V码本， $alt text$ .在识别阶段输入语音化由 $alt text$ 和累积的量化的失真，d_k，是计算。的语言作为最小的失真的认可。Calcualating V失真，几LPC畸变的频谱措施。在这种情况下，WLR--加权最比--距离： http://tinyurl.com/yc52gcl.

标准V算法： 一码本， alt文本http://tinyurl.com/y8csx6e, 为每种语言产生的使用培训的句子。累积的距离的输入向在句子， $alt text$ , 定义为： alt文本http://tinyurl.com/ybynjc2

距离 d 可以是任何距离对应的音响特征和必须同样作为一个用于码本的产生。每种语言的特点是其V码本， $alt text$ .

我的问题是，究竟怎么做我这么做？我有一套50英语句子。MATLAB中，我可以很容易地计算出来的WLR对于任何给定的信号。但是，我该如何制定一个码本，因为我必须使用WLR为"码本代"为英文。我也好奇如何进行比较V码本的尺寸16(这被发现是最好的大小)，有给出的输入信号。如果有人可以帮助提炼本文件对我，我会很感激它很大。

谢谢！

解决方案

第二个问题(比较码本，给信号)更加容易：每个码簿条目V_k_j你必须计算距离d输入的信号。'J'与小距离的'd'将corespond到最佳的配码簿条目。作为一个距离功能可以使用WLR

建设码本(训练)是位更加复杂。你必须把你的句子矢量与长度N(16)，然后使用某些集群算法(如k-装置)，这些集群的矢量。然后发现意味着在每一个集群。这意味着将码簿条目。这是一个最前一页的事情，想到的。

另一个算法(我相信，它将更好地)，可以发现在这里，.此外，两个简单的培训算法描述维基百科

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow