矢量的量化中的语音处理的解释
-
20-09-2019 - |
题
我无法确定从 这个研究论文 究竟如何,我可以重现的标准矢量的量化算法确定的语言的一名身份不明的语音的输入,基于对培训的数据集。这里的一些基本信息:
抽象的信息 语言的承认(例如日语,英语,德语,等等)使用的声学特征是一个重要但困难的问题对于目前的演讲 技术。...语音数据的基础上用于在本文件包含20种语言:16 句子发出了两次由4名男性和4名妇女。每个持续时间 刑期是大约8秒钟。第一个算法是根据标准 矢量量化(V)的技术。每一种语言特征 通过其自己的V码本, .
识别的算法
第一个算法是基于标准的矢量量化(V)的技术。每一种语言, k
, 是它自身特征的V码本, .在识别阶段输入语音化由 和累积的量化的失真,d_k,是计算。的语言作为最小的失真的认可。Calcualating V失真,几LPC畸变的频谱措施。在这种情况下,WLR--加权最比--距离: http://tinyurl.com/yc52gcl.
标准V算法: 一码本, alt文本http://tinyurl.com/y8csx6e, 为每种语言产生的使用培训的句子。累积的距离的输入向在句子, , 定义为: alt文本http://tinyurl.com/ybynjc2
距离 d
可以是任何距离对应的音响特征和必须同样作为一个用于码本的产生。每种语言的特点是其V码本, .
我的问题是,究竟怎么做我这么做?我有一套50英语句子。MATLAB中,我可以很容易地计算出来的WLR对于任何给定的信号。但是,我该如何制定一个码本,因为我必须使用WLR为"码本代"为英文。我也好奇如何进行比较V码本的尺寸16(这被发现是最好的大小),有给出的输入信号。如果有人可以帮助提炼本文件对我,我会很感激它很大。
谢谢!