无监督聚类增强的VTS语音识别在噪声环境下的性能提升

需积分: 11 0 下载量 147 浏览量 更新于2024-08-11 收藏 164KB PDF 举报
"基于VTS的稳健语音识别 (2005年),赵贤宇, 欧智坚, 王作英 - 清华大学学报(自然科学版)" 这篇论文探讨了如何改进矢量Taylor级数(VTS)算法在噪声环境下的语音识别性能。VTS算法是一种用于声学模型补偿的技术,它通过泰勒级数展开来逼近模型的非线性行为。在噪声环境中,VTS的模型补偿精度可能会降低,导致识别性能下降。 论文提出了一种创新的方法,即结合无监督聚类算法与VTS。无监督聚类算法利用Kullback-Leibler距离,这是一种衡量两个概率分布差异的度量,将含噪语音信号分割成多个子段。每个子段的噪声特性可能有所不同,因此对每个子段分别进行一阶泰勒级数展开更为合适。这样,可以更精确地估计每个子段内的噪声参数和声学模型,从而提高模型的适应性和识别效果。 实验是在一个中文数字串识别系统上进行的,系统在Babble噪声和Gauss白噪声环境下运行。应用新方法后,相对于传统的VTS算法,误识率分别下降了27.7%和17.8%,显示出显著的性能提升。这表明结合无监督聚类的分段VTS算法能更有效地处理语音和噪声在倒谱域上的非线性混合,转化为一阶线性模型,从而提高了在噪声环境中的语音识别稳健性。 关键词涉及到的信息处理、语音识别、模型自适应和稳健性是本研究的核心内容。论文的分类号TP391表明其属于信息处理技术领域,而文献标识码A则提示这是一篇原创性的科研论文。文章发表在《清华大学学报(自然科学版)》2005年第45卷第7期,展示了该领域的最新研究成果。 这篇论文提供了一种有效增强语音识别系统在噪声环境下的性能的方法,对于噪声抑制和语音识别技术的发展具有重要的理论和实践意义。