MMCC特征:融合Mellin变换与Mel频率分析的非特定人语音识别

3星 · 超过75%的资源 需积分: 10 16 下载量 81 浏览量 更新于2024-11-24 收藏 378KB PDF 举报
"本文主要探讨了一种新型的非特定人语音识别特征——MMCC特征,该特征结合了Mellin变换和Mel频率分析的优势。Mellin变换具有尺度不变性,能够有效地降低不同说话人间声道差异对特征参数的影响。同时,通过引入Mel频率,模拟人耳对声音频率的感知特性,提高了特征的鲁棒性,使其更适合于非特定人的语音识别系统。实验结果显示,使用MMCC特征的识别系统在性能上超越了采用LPCC(线性预测 cepstral系数)、MFCC(Mel频率倒谱系数)和MMTLS(基于Mellin变换的线性预测)特征的系统。这一研究成果发表在2005年的《模式识别与人工智能》杂志第18卷第3期上,对于非特定人语音识别技术的发展具有重要意义。" 在语音识别领域,特征提取是关键步骤,因为它决定了识别系统的性能。Mellin变换是一种特殊的积分变换,其尺度不变性使得它在处理尺度变化的问题时表现出色。在语音信号中,说话人的声道长度变化会导致频率成分的改变,而Mellin变换可以减小这种变化对特征提取的影响,从而提高识别的准确性。 Mel频率分析则是借鉴了人类听觉系统对不同频率敏感性的特点。在Mel尺度上,频率间隔更贴近人耳对高频和低频声音感知的差异。因此,Mel频率倒谱系数(MFCC)被广泛用于语音识别,因为它能有效地捕获语音信号中对人耳听觉重要的信息。然而,MMCC特征在MFCC的基础上结合了Mellin变换,进一步增强了特征的稳定性和识别效果。 实验比较显示,MMCC特征在非特定人语音识别任务上的表现优于传统的LPCC特征,后者依赖于线性预测来提取特征;也优于MFCC特征,尽管MFCC在很多情况下已经表现良好;甚至优于MMTLS特征,这表明Mellin变换的引入对于提升识别率有着显著作用。 总结来说,这篇研究通过结合Mellin变换和Mel频率分析,提出了一种新的语音识别特征,提高了非特定人语音识别系统的性能,对于实际应用中的语音识别技术有着积极的推动作用。这一创新方法有望在未来的语音识别系统设计中得到广泛应用,并可能启发更多关于特征提取和声学模型优化的研究。