基于VQ的特定人孤立词语音识别设计与实验

4星 · 超过85%的资源需积分: 10 88 浏览量更新于2024-09-17 6 收藏 136KB DOC 举报

基于VQ的特定人孤立词语音识别是一种先进的语音识别技术，它侧重于识别个体特有的孤立发音单词。这项设计的主要流程涉及预加重、特征提取、模板训练和系统测试。首先，预加重处理是对输入语音信号进行增强，以提高高频成分，这有助于区分不同说话者的特征。接着，采用Mel频率倒谱系数(MFCC)作为特征参数，这是一种广泛使用的音频特征提取方法，因为它能有效捕捉声音的频谱特性，对语音识别至关重要。在模板训练阶段，采用了矢量量化技术。矢量量化是一种数据压缩技术，通过将连续的信号空间划分为离散的矢量码book，使得相似的语音样本可以被归类到同一个码书区域，从而实现语音的编码和存储。通过对特定人的模版语音使用适量的量化方法，可以形成该个人的语音模型，这个模型对于识别该人说话具有很高的精度。识别过程通过系统框图展示，主要包括端点检测、特征提取、量化和识别模型应用。端点检测是关键步骤，使用双阈值策略来准确划分静音、过渡、语音和结束阶段，以便提取出孤立词的边界。然后，对每帧语音进行加窗处理，提取出用于识别的特征矢量，并将其进行量化，转化为便于处理的形式。实验结果显示，该系统在识别训练过的人的语音时表现出极高的识别率，达到100%，这得益于其针对特定人的个性化模板和精细的特征处理。然而，对于未训练过的人，识别率可能会下降，因为系统依赖于预先学习的模板，对于新的语音样本可能存在误识或拒识的情况。基于VQ的特定人孤立词语音识别技术在保证识别精度的同时，也面临着扩展到非特定人和多词连续识别的挑战。未来的研究可能需要考虑如何改进模型的泛化能力，以适应更广泛的语音环境。

矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失

真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现

最大可能的平均信噪比。

失真测度主要有均方误差(即欧氏距离)、加权的均方误差、ltakura-Saito谱失真测度、

似然比失真测度等。初始码书的生成可以是随机选取、分裂生成法、乘积码书法。在选定

了失真测度和初始码书后，就用LBG算法，对初始码书进行迭代优化，一直到系统性能满

足要求或不再有明显的改进为止。核心思想可以这样理解:如果一个码书是为某一特定的信

源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其它信

息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。VQ是将若干个幅

度连续取值的时域采样信号分成一组，即构成矢量，然后用若干离散的数字值(称为标号)

来表示各种矢量。一个VQ编码器(或译码器)，往往拥有一个或多个由具有代表意义的矢量

组成的集合，称为“码本”，其中每个矢量称为“码矢量”，或称为“码字”VQ的原理用在语音识

别中，训练用的语音特征通过聚类的方法形成码书。识别时，VQ编码器将待识别语音的特

征矢量与码书中的每个矢量进行是真测度运算，最小的是真测度所对应的码字的标号代替

输入矢量，这就完成了VQ编码的任务。 VQ编码器端只需将标号对应的码字输出即可。这

个输出矢量并非编码器的输入矢量，而是与输入矢量不同的码字，因此，VQ会带来一定的

量化误差。

4.2 码本设计

目前训练码书时最基本也是最常用的算法是LBG算法，反复迭代、逐步优化。我们采用以

欧氏距离计算两个矢量之间的畸变：

1)存储形成VQ码本所需全部输入矢量x的集合S.

2)设置迭代算法的最大迭代次数L.

3)设置相对失真改进量

4)设置M个初始码字Y1,Y2,…,YM

5)设置总失真

6)设置迭代初值m=1;

7)根据最近邻准则，将s分成M个子集S1,S2,......,SM,即当X属于S1时，

下式成立:

d(X,Y1)<=d(X，Yi)， i <=M

其中d (x, Y)表示X和Y的欧氏距离。这种划分方法称为最邻近划分。

8)计算总失真

初始码字的选择也是码本设计中一个重要问题。LBG算法是一个使总畸变单调下降的

算法。一个VQ系统的总畸变是它的M个码字决定的状态空间点的函数。大部分情况下，这

个函数往往都是凸函数，因此LBG算法仅仅只能收敛到某个局部最优点上，而收敛不到全

局最优点上。具体收敛到哪一个局部最优点，就由M个初始码字决定。初始码字的选择有

很多种方法。最简单的是随机选取，但是这种方法的效果并不好，因为这些被选中码字在

集合中的分布可能很不均匀，偶然性很大。一般采取的方法是分裂法。其基本步骤为:第一

步先求得s中全体x的质心x1;，然后在s中找一个与此质心畸变最大的矢量x2，以此两个矢

量x1，x2;以x1,x2为基准作最近邻划分，形成两个子集。然后对着两个子集分别按同样

的方法处理就可以得到四个子集。以此类推，经过B次分裂后，便可以得到2的B次方个子

集，这M个子集的质心便是初始码字。

码本生成程序:从输入信号中经过预加重、分帧、加窗等处理计算出短时能量，然后经

过离散傅立叶变换DFT)得到线性频谱，通过Mel频率滤波器组得到Mel频谱，并通过对数

剩余13页未读，继续阅读

huihui1405

粉丝: 1

基于VQ的特定人孤立词语音识别设计与实验

基于DTW和LVQ网络混合模型的语音识别方法

VQ_DHMM(语音识别配套的VQ及DHMM模型训练)

hmm算法matlab实现和实例

【语音识别】基于VQ特定人孤立词语音识别matlab 源码.md

【信号识别】基于VQ特定人孤立词语音识别matlab代码.zip

如何用matlab实现基于VQ特定人孤立词语音识别

语音识别基于matlab VQ特定人孤立词语音识别【含Matlab源码 536期】.zip

【语音识别】基于matlab VQ特定人孤立词语音识别【含Matlab仿真 2606期】.zip

【语音识别】基于matlab VQ特定人孤立词语音识别【含Matlab源码 2606期】.mp4

Matlab仿真实现VQ特定人孤立词语音识别技术

最新资源