人耳听觉模型下的语音质量评价:Mel-GD方法

需积分: 12 0 下载量 177 浏览量 更新于2024-08-11 收藏 327KB PDF 举报
"基于听觉感知特性的语音质量客观评价方法 (2013年)" 本文主要探讨了如何通过模拟人类听觉系统来提高语音质量客观评价的准确性。研究聚焦于MFCC(梅尔频率倒谱系数)特征参数的运用,以及如何结合心理声学原理来改进这一方法。MFCC是一种广泛用于语音识别和处理的技术,它能够捕捉语音信号的主要特征,以适应人耳对不同频率敏感性的特性。 作者提到了Johannesma的人耳听觉模型,这是一个基于生理学的模型,用于解释人耳如何解析和感知声音。在MFCC特征提取过程中,该模型与非线性压缩变换相结合,以更精确地模拟人耳对声音的感知。非线性变换能够反映人耳对高低频声音响应的非线性特点,使计算出的特征参数更接近实际听觉体验。 为了进一步提升模型的逼真度,文章引入了Gammatone滤波器组。Gammatone滤波器是模仿人耳基底膜响应的数学工具,能够更好地模拟人耳内部的声音处理机制。通过使用Gammatone滤波器,研究人员可以更准确地分析和比较不同质量的语音信号。 基于以上改进,研究提出了新的客观评价方法——Mel-GD(Mel-cepstral Gammatone滤波器组距离测量法)。这种方法在保持与传统Mel-CD算法相似的时间复杂度的同时,提升了主观与客观评价结果的相关性,并降低了估计偏差。 性能测试结果显示,Mel-GD算法相对于Mel-CD算法,其主观与客观相关度提升了4.9%,这意味着它在预测人耳对语音质量感知方面更加准确。同时,平均估计偏差的改善达到了45.5%,表明这种方法在评估语音质量时的精度显著提高。 这项工作为语音质量的客观评价提供了新思路,通过结合人耳听觉模型和Gammatone滤波器组,开发出了一种更符合人耳感知的评价方法,这对于语音处理、通信工程和语音识别等领域具有重要的理论和实践价值。关键词涉及语音质量、MFCC、Gammatone滤波器组以及非线性变换,这些都是构建更准确语音评价模型的关键技术。