音频特征提取与Gabor滤波器在深度学习中的应用

需积分: 0 108 浏览量更新于2024-08-04 收藏 670KB DOCX 举报

本周的报告由黄敬雯撰写，主要内容聚焦于MATLAB中的音频特征提取，特别是在语谱图中的显示。黄敬雯深入研究了一篇关于基于深度神经网络的音频事件检测的论文，特别关注了Gabor特征提取方法及其在音频处理中的应用。 Gabor滤波器是音频特征提取的重要工具，它由一组两维的滤波器构成，每个滤波器由时频域的包络函数和载波函数定义。这些滤波器最初是为了模拟生物听觉和视觉系统中的处理模型，其核心原理是复合正弦载波的输出，通过调整载波频率（k0）、时间帧中心（n0）、谱调制频率（）和时间调制频率（），以及相关的参数如信道数、帧数等，形成一组具有优良时-频特性的滤波器。在实际应用中，Gabor滤波器的参数设置有限，以确保性能和计算效率。例如，使用69个信道和40帧的时间窗口，使得每个滤波器都在频域和时域上具有合适的局部化特性。此外，滤波器之间的调制频率（dx）被设计成保持固定重叠，以便于频率和时间维度的共享，但这也限制了不同滤波器之间的相关性。 Gabor特征提取涉及将对数Mel谱系数经过两维Gabor滤波器处理，得到的高维特征表示通常需要降维来提高效率和减少冗余。文献比较了主成分分析（PCA）和二次抽样两种降维方法，结果显示后者在识别性能上更优，因此最终选择了311维的Gabor特征作为最具代表性的特征。 Gabor函数形成的滤波器因其同时优化的空间和频率域局部化能力，能够有效地捕捉音频中的空间频率、位置和方向选择性信息，这对于音频事件检测和特征提取至关重要。理解并掌握Gabor滤波器的工作原理和应用技巧，对于提升音频处理算法的精度和效率具有重要意义。

本周主要做了 MATLAB 对音频特征提取在语谱图中的显示，阅读了基于深度神经网络的音频

事件检测这篇论文，得知了 gabor 特征提取方法，并找到相应代码进行实现。

Gabor 滤波器组由一组两维的 Gabor 滤波器组成，Gabor 滤波器最初在文献中被提出，后

来被用于听觉和视觉系统中生物学处理的模型。每个滤波器由时频域的包络函数和时频的载

波函数定义。Gabor 滤波器函数定义如下：

其中，k 为频率索引，n 为帧索引，k0 表示载波频率，n0 表示时间帧的中心，

𝜔

𝑘

为谱调制

频率，

𝜔

𝑛

为时间调制频率，

𝑉

𝑘

和

𝑉

𝑛

为载波在频域和时域维数的半周期数，

∅

为一个加性的

全局相位。

一个 Gabor 滤波器可以被定义为复合正弦载波的输出，调制频率与

𝜔

𝑘

和

𝜔

𝑛

保持一致，载波

函数和包络函数定义如下：

由于当

𝜔

𝑘

=0 或

𝜔

𝑛

=0 时滤波器函数有无穷多个，因此所有滤波器的大小都被限制使用 69

个信道和 40 帧的时间窗，这些限制与每个时频滤波器维数的最大值大致一致。除此之外，

调制频率和载波范围线性相关，所有滤波器都是 constant-Q 滤波器，而且

𝑉

𝑘

和

𝑉

𝑛

也都保持

一致。

时-频调制频率的定义如公式(2-7)和(2-8)所示：

其中，dx 为相邻滤波器的相对距离，dx 越小滤波器之间的重叠越大。这样定义可以保证相

邻滤波器之间的调制转换保持固定的重叠，也可以使每个滤波器共享不同的时-频调制频率�

𝜔

𝑘

和

𝜔

𝑛

，但也因此限制和其它滤波器的相关性。调制频率

𝜔

𝑘

和

𝜔

𝑛

可以取正负值，决定了滤

波器被调谐的时-频方向。

Gabor 特征提取

Gabor 特征是一种时-频特征，它的提取过程如图

下载后可阅读完整内容，剩余6页未读，立即下载

xhmoon

粉丝: 19
资源: 328

音频特征提取与Gabor滤波器在深度学习中的应用

20170821黄敬雯周报1

周报20170725黄敬雯1

20170829黄敬雯周报1

2017.8.15黄敬雯1

20170912 黄敬雯 假期总结1

黄敬雯周报201708021

黄敬雯周报２０１７０８０８1

026-SVM用于分类时的参数优化，粒子群优化算法，用于优化核函数的c,g两个参数(SVM PSO) Matlab代码.rar

铅酸电池失效仿真comsol

小程序项目-基于微信小程序的童心党史小程序（包括源码，数据库，教程）.zip

最新资源

20170912 黄敬雯假期总结1