详解Mel倒谱系数：应用、提取与听觉特性

4星 · 超过85%的资源需积分: 50 78 浏览量更新于2024-09-14 1 收藏 115KB DOC 举报

MFCC (Mel Frequency Cepstral Coefficients) 是一种广泛应用于语音识别、音频分析和信号处理领域的特征提取方法。它基于人耳对不同频率声音的感知特性，特别是对200 Hz至5 kHz范围内的语音信号最为敏感。MFCC的设计灵感来自于听觉系统的非线性响应，即人耳对频率的感知不是均匀的，而是遵循Mel频率标度，该标度描绘了人耳对频率的非线性感知。 MFCC的提取过程分为以下几个步骤： 1. **预处理**：首先，对输入的语音信号进行分帧，每帧通常选择一个合适的窗口，然后对每一帧进行离散傅立叶变换（DFT），获取其频谱分布信息。DFT结果表示为： [公式] 2. **能量谱计算**：对频谱幅度的平方求和，得到信号的能量谱，这是对信号强度的量化。 3. **Mel滤波器组**：通过一组Mel尺度上的三角形滤波器进行滤波。滤波器的数量M接近于临界带的数量，中心频率按照Mel频率分布，比如取[公式]。滤波器之间的间隔随着m值减小变窄，随着[pic]增大而变宽，这模拟了人耳对频率敏感度的变化。 4. **滤波器输出能量**：对每个滤波器的输出信号计算对数能量，即： [公式] 5. **离散余弦变换（DCT）**：对滤波器输出的对数能量向量应用DCT，这一步骤将能量分布转换为MFCC系数。通常选择12-16阶的系数，本文选用12阶。 **动态差分参数**：除了基本的MFCC系数，有时还会加入动态差分参数，这涉及对邻近帧之间的MFCC系数进行差异运算，以捕捉信号的动态变化，增强特征的时域信息，提高语音识别的鲁棒性。 MFCC参数的优势在于它们是信号特征的非线性表示，具有良好的听觉相关性，且在噪声环境下表现出较高的识别性能。这些系数常用于语音识别系统中，如语音命令识别、说话人识别等，作为输入特征提供给机器学习算法进行处理。理解并有效利用MFCC参数，对于设计和优化音频处理和信号分析算法至关重要。

MFCC 的提取过程

根据人的听觉机理的研究发现，人耳对不同频率的声波有不同的听觉灵敏

度。从 200Hz 到 5KHz 之间的语音信号对语音的清晰度影响最大。低音掩蔽高

音容易，反之则困难。在低频处的声音掩蔽的临界带宽较高频端小。据此，人

们从低频到高频这一段频带内按临界带宽的大小由密到稀安排一组带通滤波器，

对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，

对此特征经过进一步处理后就可作为语音的输入特征。由于这种特征不依赖于

信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成

果，因此，这种参数与基于声道模型的 LPCC 相比具有较好的鲁棒性，更符合

人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

MFCC 是在 Mel 标度频率域提取出来的倒谱参数，Mel 标度描述了人耳频

率的非线性特性，它与频率的关系可用下式近似表示:

式中为频率，单位为 Hz。图 3.3 显示了 Mel 频率与线性频率的关系：

图 3.3 Mel 频率与线性频率的关系

求 Mel 倒谱数的方法是将时域信号做时/频变换后，对其对数能量谱用依

照 Mel 刻度分布的三角滤波器组做卷积，再对滤波器组的输出向量做离散余弦

变换(DCT)，这样得到的前 N 维向量称为 MFCC。

Mel 倒谱系数的提取过程如图 3.4 所示：

下载后可阅读完整内容，剩余4页未读，立即下载

451262140

粉丝: 0
资源: 1

详解Mel倒谱系数：应用、提取与听觉特性

mfcc提取声音特征

MFCC的详细介绍PPT

语音信号处理之（四）梅尔频率倒谱系数（MFCC）

MFCC.zip_MFCC_mfcc参数_mfcc参数提取_mfcc程序

mfcc.rar_MFCC_mfcc参数_mfcc参数提取_信号mfcc_基于MFCC

mfcc参数规整

MFCC参数提取

matlab提取MFCC参数

混合MFCC特征参数应用于语音情感识别1

mfcc参数的C程序实现

最新资源