python实现MFCC计算

MFCC(Mel Frequency Cepstral Coefficients)是一种常用于语音识别和音频处理的特征提取方法，可以将音频信号转化为一组能够描述其特征的系数。以下是Python实现MFCC计算的示例代码： ```python import librosa import numpy as np # Load audio file y, sr = librosa.load('audio.wav', sr=16000) # Pre-emphasis pre_emphasis = 0.97 emphasized_signal = np.append(y[0], y[1:] - pre_emphasis * y[:-1]) # Framing frame_size = 0.025 # 25ms frame_stride = 0.01 # 10ms frame_length, frame_step = frame_size * sr, frame_stride * sr signal_length = len(emphasized_signal) frame_length = int(round(frame_length)) frame_step = int(round(frame_step)) num_frames = int(np.ceil(float(np.abs(signal_length - frame_length)) / frame_step)) pad_signal_length = num_frames * frame_step + frame_length z = np.zeros((pad_signal_length - signal_length)) pad_signal = np.append(emphasized_signal, z) indices = np.tile(np.arange(0, frame_length), (num_frames, 1)) + np.tile( np.arange(0, num_frames * frame_step, frame_step), (frame_length, 1)).T frames = pad_signal[indices.astype(np.int32, copy=False)] # Windowing frames *= np.hamming(frame_length) # Fourier Transform and Power Spectrum NFFT = 512 mag_frames = np.absolute(np.fft.rfft(frames, NFFT)) # Magnitude of the FFT pow_frames = ((1.0 / NFFT) * ((mag_frames) ** 2)) # Power Spectrum # Filter Banks nfilt = 40 low_freq_mel = 0 high_freq_mel = (2595 * np.log10(1 + (sr / 2) / 700)) # Convert Hz to Mel mel_points = np.linspace(low_freq_mel, high_freq_mel, nfilt + 2) # Equally spaced in Mel scale hz_points = (700 * (10 ** (mel_points / 2595) - 1)) # Convert Mel to Hz bin = np.floor((NFFT + 1) * hz_points / sr) fbank = np.zeros((nfilt, int(np.floor(NFFT / 2 + 1)))) for m in range(1, nfilt + 1): f_m_minus = int(bin[m - 1]) # left f_m = int(bin[m]) # center f_m_plus = int(bin[m + 1]) # right for k in range(f_m_minus, f_m): fbank[m - 1, k] = (k - bin[m - 1]) / (bin[m] - bin[m - 1]) for k in range(f_m, f_m_plus): fbank[m - 1, k] = (bin[m + 1] - k) / (bin[m + 1] - bin[m]) # Apply filter banks filter_banks = np.dot(pow_frames, fbank.T) filter_banks = np.where(filter_banks == 0, np.finfo(float).eps, filter_banks) # Numerical Stability filter_banks = 20 * np.log10(filter_banks) # dB # MFCCs num_ceps = 12 mfcc = dct(filter_banks, type=2, axis=1, norm='ortho')[:, 1 : (num_ceps + 1)] # Mean normalization mfcc -= (np.mean(mfcc, axis=0) + 1e-8) print(mfcc) ``` 这里使用了Librosa库来加载音频文件和进行预加重，以及进行帧划分、加窗、傅里叶变换、滤波器组应用和离散余弦变换等步骤。最后，对MFCC系数进行均值归一化。

python实现MFCC计算

相关推荐

Python实现音频转换为MFCC谱图示例代码 使用librosa

梅尔频率倒谱系数（mfcc）及Python实现

Python实现简单的语音识别系统

python实现mfcc

python LSTM MFCC

mfcc python

python实现基于CNN+MFCC的语音情感识别

MFCC的PCA降维实现代码

librosa实现mfcc特征逆变换得到原始语音信号

基于mfcc的实现音乐分类的python代码，包括提供数据集

mfcc_feat = python_speech_features.mfcc作用

MFCC的滑动平均滤波实现代码

基于mfcc和gmm的音乐流派分类python

用python实现dtw算法孤立字语音识别

用python写一边录音一边显示MFCC图的多线程程序

使用python实现SVM的语音识别系统，附有程序代码

Fisher-score计算MFCC特征每一阶的Fisher比代码

提取特征参数mfcc; 使用动态时间规整(dtw)算法计算语音模板之间的距离 编程实现基

完成FBank、MFCC两种声学特征提取的代码实现

最新推荐

梅尔频率倒谱系数（mfcc）及Python实现

毕业设计：基于SSM的mysql-羽毛球交流平台系统（源码 + 数据库 + 说明文档）

RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz

管理建模和仿真的文件

：YOLOv1目标检测算法：实时目标检测的先驱，开启计算机视觉新篇章

info-center source defatult

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

"互动学习：行动中的多样性与论文攻读经历"

：YOLO目标检测算法的挑战与机遇：数据质量、计算资源与算法优化，探索未来发展方向

tinyplay /storage/BFEF-19EE/wav.wav -D 0 cannot open device 0 for card 0 Unable to open PCM device 0.

Python实现音频转换为MFCC谱图示例代码使用librosa

提取特征参数mfcc; 使用动态时间规整(dtw)算法计算语音模板之间的距离编程实现基