语音识别利器：详解MFCC梅尔倒频谱系数

4星 · 超过85%的资源需积分: 10 197 浏览量更新于2024-09-17 收藏 36KB DOC 举报

在语音识别和说话者识别领域，一种关键的特征提取技术是梅尔倒频谱系数（Mel-scale Frequency Cepstral Coefficients，简称MFCC）。MFCC 考虑了人耳对不同频率的感知差异，这使得它在处理语音数据时具有很高的适用性。以下是MFCC参数提取过程的详细说明： 1. **预强调（Pre-emphasis）**：首先，通过一个高通滤波器H(z) = 1 - a * (z - 1)，其中a通常取0.9至1.0之间的值，对原始语音信号s(n)进行预处理。其目的是减少高频成分的衰减，突出高频共振峰，以便更好地捕捉语音细节。 2. **音框化（Frame Blocking）**：接着，将连续的音频样本分成固定长度的片段，即“音框”，常用长度为256或512个采样点，每帧大约持续20-30毫秒。为了平滑帧与帧之间的过渡，相邻帧之间会有重叠，重叠区域通常是帧大小的一半或1/3。 3. **汉明窗（Hamming Window）**：每个音框应用汉明窗函数W(n) = (1-a) - a * cos(2πn / (N-1))，其中n是帧索引，N是帧大小。汉明窗可以增强信号的连续性，防止频谱泄漏。常用的汉明窗参数a一般设为0.46。 4. **快速傅里叶变换（Fast Fourier Transform, FFT）**：预处理后的音框通过FFT将其从时间域转换到频域，这样可以直观地分析信号的能量分布。在频域中，不同频率成分的强度变化反映了语音的不同特征，如音调、语调和频率成分的分布。 5. **梅尔滤波器组（Mel Filterbank）**：在频域上，将频谱划分为一系列的梅尔滤波器，这些滤波器的中心频率间隔遵循人耳对频率感知的非线性特性，模拟人耳的敏感度。通过对每个滤波器输出的能量进行积分，得到一组滤波器系数。 6. **离散余弦变换（Discrete Cosine Transform, DCT）**：对经过梅尔滤波后的能量系数进行DCT，进一步压缩信息并减少相关性，得到MFCC的特征向量。DCT保留了大部分信息但降低了计算复杂度。 7. **第一几个系数选择**：通常，只有前几个MFCC系数（如12-13个）用于语音识别，因为后续系数的变化往往较慢且包含更少的信息。 MFCC是一种有效的声音特征提取方法，通过预处理、频域分析和压缩处理，提取出能反映语音特征的简短序列，对于语音识别和说话者识别任务至关重要。通过这些步骤，算法能够捕获语音的语义信息，提高识别准确性和鲁棒性。

转发：有关 MFCC 梅尔倒谱参数的资料。

内容：1. Mfcc 梅尔倒谱参数参数知识

2. mfcc 的 matlab 代码

  1.在语音辨识（Speech Recognition）和语者辨识（Speaker Recognition）方面，最常用到

的语音特征就是「梅尔倒频谱系数」（ Mel-scale Frequency Cepstral Coefficients ，简称

MFCC），此参数考虑到人耳对不同频率的感受程度，因此特别适合用在语音辨识。下面

简单的介绍一下求解 MFCC 的过程。

1.预强调（Pre-emphasis）：将语音讯号 s(n) 通过一个高通滤波器。

           H(z)=1-a*（z-1）

系数其中 a 介于 0.9 和 1.0 之间。若以时域的表达式来表示，预强调后的讯号 s2(n) 为

           s2(n) = s(n) - a*s(n-1)

这个目的就是为了消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所压

抑的高频部分。（另一种说法则是要突显在高频的共振峰。）

2. 音框化（ Frame blocking ）：先将 N 个取样点集合成一个观测单位，称为音框

（Frame），通常 N 的值是 256 或 512，涵盖的时间约为 20~30 ms 左右。为了避免相邻两

音框的变化过大，所以我们会让两相邻因框之间有一段重迭区域，此重迭区域包含了 M 个

取样点，通常 M 的值约是 N 的一半或 1/3。通常语音辨识所用的音讯的取样频率为 8 KHz

或 16 KHz ，以 8 KHz 来说，若音框长度为 256 个取样点，则对应的时间长度是

256/8000*1000 = 32 ms。

3.汉明窗（Hamming window）：将每一个音框（ frame）乘上汉明窗，以增加音框左端和

右端的连续性（请见下一个步骤的说明）。假设音框化的讯号为 S(n), n = 0,…N-1。N 为

frame 的大小，那么乘上汉明窗后为 S'(n) = S(n)*W(n)，此 W(n) 形式如下：

    W(n, a) = (1 - a) - a *cos(2pn/(N-1))，0≦n≦N-1 ？？

不同的 a 值会产生不同的汉明窗。一般我们都取 a = 0.46。

4.快速傅利叶转换（Fast Fourier Transform, or FFT）：由于讯号在时域（ Time domain）上

的变化通常很难看出讯号的特性，所以通常将它转换成频域（Frequency domain）上的能量

分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每个音

框还必需再经过 FFT 以得到在频谱上的能量分布。

乘上汉明窗的主要目的，是要加强音框左端和右端的连续性，这是因为在进行 FFT 时，都

是假设一个音框内的讯号是代表一个周期性讯号，如果这个周期性不存在，FFT 会为了要

符合左右端不连续的变化，而产生一些不存在原讯号的能量分布，造成分析上的误差。当

然，如果我们在取音框时，能够使音框中的讯号就已经包含基本周期的整数倍，这时候的

音框左右端就会是连续的，那就可以不需要乘上汉明窗了。但是在实作上，由于基本周期

的计算会需要额外的时间，而且也容易算错，因此我们都用汉明窗来达到类似的效果。

5.三角带通滤波器（Triangular Bandpass Filters）：将能量频谱能量乘以一组 20 个三角带

通滤波器，求得每一个滤波器输出的对数能量（Log Energy），共 20 个。必须注意的是：

这 20 个三角带通滤波器在「梅尔频率」（ Mel Frequency）上是平均分布的，而梅尔频率

和一般频率 f 的关系式如下：

          mel(f)=2595*log10(1+f/700)

下载后可阅读完整内容，剩余3页未读，立即下载

冰藍

粉丝: 0
资源: 1

语音识别利器：详解MFCC梅尔倒频谱系数

MATLAB实现MFCC梅尔倒普系数提取方法

深入解析MFCC梅尔倒谱系数原理与应用

MFCC梅尔倒谱系数简易实现与语音文件处理

MFCC 梅尔倒频谱系数 详解

mfcc.rar_MFCC_梅尔倒谱系数

MFCC（梅尔频率倒谱系数）计算代码

MFCC（梅尔频率倒谱系数）全部计算代码

mfcc：根据浏览器中的麦克风输入计算MFCC（梅尔频率倒谱系数）。 （TypeScript）

MFCC梅尔倒谱参数及matlab代码

电话按键播音系统 MFCC特征 得到频谱图

最新资源

MFCC 梅尔倒频谱系数详解

mfcc：根据浏览器中的麦克风输入计算MFCC（梅尔频率倒谱系数）。（TypeScript）

电话按键播音系统 MFCC特征得到频谱图