基于随机共振的改进MFCC说话人识别方法

需积分: 0 2 下载量 114 浏览量 更新于2024-08-05 收藏 379KB PDF 举报
"说话人识别中改进的MFCC参数提取方法1" 在语音识别和说话人识别技术领域,特征参数的提取是至关重要的步骤。Mel频标倒谱系数(Mel Frequency Cepstral Coefficients,简称MFCC)是常用的一种特征提取方法,它模拟了人耳对声音的感知特性,能够有效地分析语音信号并滤除无关紧要的信息,保留对识别至关重要的特征。MFCC参数提取通常包括预加重、分帧、加窗、梅尔滤波、对数变换和离散余弦变换等步骤,这些步骤旨在提取出语音信号的频率包络,并将其转化为易于处理的系数。 然而,由于语音信号的时变性和混沌特性,传统的MFCC方法可能无法完全捕捉到所有关键信息。为了提高识别效果,有研究者提出了基于随机共振的MFCC参数提取方法。随机共振是一种理论,它利用非线性系统对微弱信号的增强效应,特别适用于处理混沌或噪声环境下的信号。将随机共振理论应用于MFCC提取,可以更好地揭示语音信号的内在结构,增强特征的区分度。 具体来说,该方法首先结合人耳听觉机理,考虑到人耳对不同频率的敏感程度,设计梅尔滤波器组来模拟这一特性。然后,利用随机共振原理对经过梅尔滤波的信号进行处理,这一步可以增强语音信号中的有用信息,同时抑制噪声。接下来,进行对数变换以线性化频谱,并应用离散余弦变换(DCT)将对数谱转换为MFCC系数,这些系数能够表征语音的主要特征。 通过对标准MFCC方法和改进后的MFCC方法进行实验比较,研究表明,改进的方法在说话人识别任务中表现出更好的性能和鲁棒性。这表明,结合随机共振理论的MFCC提取方法可以作为说话人识别技术的一个新方向,有望进一步提升系统的识别准确率。 关键词: 说话人识别、特征提取、MFCC参数、随机共振、语音信号处理 这篇论文的研究成果受到国家科技计划基金和贵州省国际科技合作计划基金的支持,为语音信号处理,特别是说话人识别领域的研究提供了新的思路和方法。