基于发声截止频率的对数谱线性回归提升鲁棒语音识别性能

0 下载量 80 浏览量 更新于2024-08-28 收藏 231KB PDF 举报
本文探讨了一种基于发声截止频率的对数谱线性回归在鲁棒语音识别中的应用,由作者 Yong Lü 和 Lin Zhou 提出。两位研究者分别来自中国南京的河海大学计算机与信息工程学院和东南大学信息科学与工程学院。他们关注的问题是提高语音识别系统的鲁棒性,尤其是在处理高噪声或变声条件下。 传统的语音识别模型往往容易受到环境噪声和说话人变化的影响。为此,作者提出了一种最大似然对数谱线性回归方法,该方法首先通过反离散余弦变换(IDCT)将预训练的声学模型转换到对数频谱域,有效地忽略了高频部分的训练均值和方差,因为这些高频成分通常包含较多的噪声信息。这种方法的关键在于它能够减少噪声对识别性能的影响。 在测试阶段,通过对数谱线性回归获取测试的均值和方差,并利用期望最大化(EM)算法估计参数。这种方法利用少量的适应数据,即在给定的噪声条件下进行微调,从而优化了模型以适应不同的语音特征。相比于传统的线性回归,该算法能够在保持较高识别准确性的前提下,展现出更好的鲁棒性。 实验结果显示,基于发声截止频率的对数谱线性回归算法在实际应用中取得了显著的性能提升,特别是在处理复杂环境下的语音识别任务时,证明了其在提高语音识别系统稳健性和准确性方面的有效性。因此,这项研究对于改进现有的语音识别技术,尤其是在噪声抑制和适应性学习方面具有重要的理论价值和实践意义。关键词包括:发声截止频率、对数谱、最大似然、线性回归、鲁棒语音识别、期望最大化算法。