基于匹配追踪的分段区分性语音识别特征变换提升

需积分: 7 0 下载量 40 浏览量 更新于2024-09-14 收藏 440KB PDF 举报
本文主要探讨了一种不相关匹配追踪的分段区分性特征变换方法,针对传统基于分帧特征变换在稳定性上的局限,提出了创新性的解决方案。该方法将特征变换视为高维信号的稀疏表示问题,通过状态绑定技术,构建了两种不同类型的线性变换矩阵:一种是Region Dependent Linear Transform (RDLT),根据语音信号的域划分进行训练;另一种是基于最小音素错误准则的Mean-Offset Feature Minimum Phone Error (m-fMPE)变换矩阵,旨在提升特征的区分性。 这两种变换矩阵被组合成一个过完备的字典,用于捕捉语音信号的多样性和区分性信息。在处理语音信号时,采用了强制对齐的策略将其划分为多个段,然后以似然度最大化为目标函数,利用匹配追踪算法进行迭代优化。这种方法能够自动适应各个信号段,确定最适合的变换矩阵和系数。 为了保证特征变换的稳定性,作者引入了相关度测量机制,通过剔除相关特征基矢量,减少冗余信息,从而提高识别精度。实验结果显示,与传统的RDLT方法相比,采用最大似然和区分性准则训练的声学模型,其识别性能分别提高了1.63%和2.23%,显示出显著的优势。 这项技术不仅适用于传统的语音识别任务,还能扩展到语音增强和模型区分性训练等领域,具有较高的实用价值。本文的研究为改进特征变换方法、提升语音识别系统的稳定性和性能提供了一种创新且有效的策略。