音频信号可以表示为原始音频帧或人工设计的特征向量(例如对数梅尔频谱/常
量-Q 变换/复数谱)序列、矩阵(如频谱图)或张量(如堆叠的频谱图)。这些
信号可以通过各种深度学习模型进行分析。与图像处理等其他领域类似,对于
音频,通常会堆叠多个前馈、卷积和循环(如 LSTM)层以增加建模能力。深
度神经网络是一个有许多堆叠层的神经网络[26]。
1)卷积神经网络(Convolutional Neural Networks,CNNs):CNNs 基于将输
入与可学习的卷积核进行卷积运算。对于频谱输入特征,通常采用一维时间卷
积或二维时频卷积,而对于原始波形输入,则应用一维时间域卷积。卷积层通
常计算多个特征图(通道),每个特征图由对应的卷积核生成。在卷积层之上
添加池化层可以对学习到的特征图进行下采样。一个 CNN 通常由一系列卷积
层和池化层交替堆叠组成,然后是一个或多个全连接层。对于序列标注任务,
可以省略全连接层,得到一个全卷积网络(FCN)。
卷积神经网络(CNN)的感受野(用于计算预测的样本或频谱数量)由其网络
结构固定。可以通过使用更大的卷积核或堆叠更多层来增加感受野。特别是对
于具有高采样率的原始波形输入,要达到足够的感受野大小可能导致 CNN 的
参数数量变多和计算复杂度增高。作为替代方案,可以使用扩张卷积(也称为
空洞卷积或带孔卷积)[25], [27], [29],通过在滤波器系数之间插入零,将卷积
滤波器应用于比其滤波器长度更大的区域。一系列扩张卷积能够在只有少数几
层的情况下获得非常大的感受野,同时保持输入分辨率以及计算效率。
截至目前,关于如何确定给定任务的最佳 CNN 架构(卷积核的大小、池化和
特征图的大小、通道数和连续层的数量)的操作性和经验证的理论尚不可得
(参见[30])。因此,选择 CNN 的架构在很大程度上是基于实验,并根据验证
误差进行选择。这导致了一些经验法则的指导方针,比如对于较少的数据,应
该减少参数的数量[31];随着后续卷积层中特征图尺寸的减小,应增加通道
数;考虑时间上下文的必要大小;以及与任务相关的设计(例如分析或合成/转
换)。
2)循环神经网络(RNNs):即使使用扩张卷积,CNNs 能够建模的有效上下文
大小仍然有限。RNN 采用不同的方法来建模序列[32]:它们从当前时间步的输
入和上一时间步的隐藏状态计算输出。这本质上模拟了输入中的时间依赖关