深金字塔残差网络提高图像分类任务的泛化能力

183 浏览量更新于2023-10-15 收藏 932KB PDF 举报

深度卷积神经网络

功能强大

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1深金字塔残差网络DongyoonHanJingee，KAISTdyhan@kaist.ac.krJihanKimJihee，KAISTjhkim89@kaist.ac.krJunmoKim EE，KAISTjunmo.kim邮件kaist.ac.kr摘要近年来，深度卷积神经网络（DCNN）在图像分类任务中表现出了卓越的性能。通常，深度神经网络架构是由大量卷积层组成的堆栈，并且它们通过池化沿着空间维度执行下采样以减少内存使用。同时，特征图维度（即，信道的数量）在下采样位置急剧增加，这对于确保有效性能是必要的，因为它增加了高级属性的多样性。这也适用于剩余网络，并且与它们的性能密切相关。在这项研究中，而不是急剧增加的单位的特征图维度，执行下采样，我们逐渐增加的特征图维度在所有单位涉及尽可能多的位置。这种设计，这是深入讨论我们的新见解，已被证明是一种有效的手段，提高泛化能力。此外，我们提出了一种新的残差单元，能够进一步提高我们的新网络架构的分类精度。在基准CIFAR-10、CIFAR-100和ImageNet数据集上的实验表明，与原始残差网络相比，我们的网络结构具有更好的泛化能力代码可在https://github.com/jhkim89/PyramidNet1. 介绍深度卷积神经网络（DCNN）的出现极大地促进了计算机视觉中解决复杂任务的进步[13，23，2，3，19]，并显着提高了性能。由于LeNet [16]的出现，它引入了深度神经网络架构用于计算机视觉任务，先进的架构AlexNet [13]被选为2012年ImageNet竞赛的获胜者[22]，比传统方法有很大的优势。随后，ZF-net[35]，*这两位作者的贡献相等。VGG [25] 、 GoogleNet [31] 、残差网络 [7 ， 8] 和Inception残差网络[30]相继被提出来展示网络架构的进步。特别是，残差网络（ResNets）[7，8]利用了建议的残差单元内部的快捷连接[29更深的网络架构以其卓越的性能而闻名，这些网络架构通常具有深度堆叠的非线性卷积滤波器[25，31]。关于特征图维度，堆叠几个卷积滤波器的常规方法是通过增加滤波器或池的步幅来增加维度，同时减小特征图的大小。这是被广泛采用的控制特征图尺寸的方法，因为随着特征图维度的增加提取多样化的高级属性对于分类任务是非常有效的。AlexNet [13]和VGG[25]等架构利用这种增加特征映射维度的方法来构建其网络架构。最成功的深度神经网络是ResNets [7，8]，由He等人介绍。 [7]，也遵循这种滤波器堆叠的方法。根据Veit等人的研究。[33]，ResNets被认为是相对浅网络的集合这些研究人员表明，从ResNets中删除单个残留单元，即，使得仅保留捷径连接不会显著影响整体性能，从而证明删除残余单元等同于删除系综网络中的一些浅网络。与此相反，在普通网络架构（如VGG网络[25]）中删除单个层会导致额外的严重错误，从而损坏网络。然而，在ResNets的情况下，人们发现，删除残留单元中的构建块与下采样，其中特征图维度加倍，仍然增加了分类误差的显着保证金。有趣的是，当使用随机深度[10]训练残差网络时，发现使用下采样删除块不会降低分类性能，如[33]中的图8所示有人可能会认为，59275928Dk=（1）图1.（a）基本剩余单元[7]，（b）瓶颈剩余单元[7]，（c）宽剩余单元[34]，（d）金字塔剩余单元和（e）金字塔瓶颈剩余单元的示意图这种现象与由随机深度实现的分类性能的总体改进有关。受Veit et al.[33]和具有随机深度的结果[10]，我们设计了另一种方法来处理与删除下采样单元相关联的现象。在所提出的方法中，在所有层处增加特征图维度以分布集中在受下采样影响的残差单元的位置处的负担有人发现，使用所提出的新的网络架构，删除的单元与下采样不会降低性能显着。在我们的论文中，我们将这种网络架构称为深层“金字塔”网络和具有剩余型网络架构的“金字塔”剩余网络。这反映了网络架构的形状可以与金字塔的形状相比较的事实。也就是说，通道的数量作为层出现的深度的函数逐渐增加，这类似于金字塔结构，其形状从顶部向下逐渐变宽这种结构是在图1中的其他网络架构的比较中说明的。关键捐款摘要如下：• 介绍了一种深度金字塔残差网络（PyramidNet）其关键思想是通过逐渐增加特征图维度而不是通过利用下采样在每个剩余单元处急剧地增加它。此外，我们的网络架构的作品作为一个混合物的平原和残留的网络，通过使用零填充的身份映射快捷连接时，增加特征映射维度。• 提出了一种新的残差单元，可以进一步提高基于ResNet的算法的性能。结构（与最先进的网络架构相比）。本文的其余部分组织如下。第2节介绍了我们的金字塔网，并介绍了一个小说剩余单元，可以进一步改善ResNet。第3节通过几个讨论详细分析了我们的PyramidNet。第4节给出了实验结果，并与几种最先进的深度网络架构进行了比较。第五部分总结了我们的论文，并对未来的工作提出了建议。2. 网络架构在本节中，我们将介绍PyramidNets的网络架构金字塔网络与其他网络架构的主要区别在于，通道的维度逐渐增加，而不是保持维度直到出现下采样的残差单元图1（d）显示了示意图，以便于理解我们的网络架构。2.1. 要素映射维度配置大多数深度CNN架构[7，8，13，25，31，35]都是一种方法，当特征图的大小减小时，特征图的尺寸会大幅增加，并且特征图的尺寸不会增加，直到它们遇到具有下采样的层在CIFAR数据集的原始ResNet [12]的情况下，属于第n组的第k个残差单元的特征图维度Dk的数量可以描述如下：.16，如果n（k）=1，16·2n（k）−2，如果n（k）≥2，其中，n（k）∈ {1，2，3，4}表示第k个残差单元所属的组的索引。属于同一组的残差单元具有相等的特征图大小，并且第n个组包含Nn个残差单元。在第一组中，只有一个卷积层将RGB图像转换为多个特征图。对于第n个组，在Nn个残差单元已经过去之后，特征大小被下采样一半，并且维度的数量被加倍。我们提出了一种增加特征5929组输出大小构建块转换器132×32[3 ×3， 16]Conv 232×323× 3，<$16+α（k−1）/N<$×N23× 3，Conv 316×163× 3，<$16+α（k−1）/N<$×N33× 3，Conv 48×83× 3，<$16+α（k−1）/N<$×N43× 3，16+α（k−1）/N平均池1×1[8× 8， 16 +α](a)(b)（c）第（1）款图2. （a）加法PyramidNet、（b）乘法PyramidNet和（c）（a）和（b）的比较的视觉图示。地图尺寸如下：.表 1. 用于 CIFAR-10 和 CIFAR-100 数据集基准测试的PyramidNet结构。α表示加宽因子，Nn表示一个组中的块数。下采样是在conv3 1和conv4 1与步幅2。如图6所示，层可以以各种方式堆叠，以Dk=如果k=1，<$Dk−1+α/N<$，如果2≤k≤N+1，（二）构建一个单一的构建块。我们发现图6（d）中所示的构建块是最有前途的，其中，Nde表示剩余单元的总数，因此，我们将这种结构作为构建块，罚款为N=4n=2 Nn. 尺寸增加了一个PyramidNets。关于这一问题的讨论将在下一节。步长因子α/N，以及最终每组的单位变为16+（n−1）α/3，每组中的剩余单位数相同。我们的网络体系结构的详细信息如表1所示。上述等式基于用于增加维度的基于加法的加宽步长因子α然而，当然，基于乘法的加宽（即，乘以一个因子以几何地增加通道尺寸的过程）提供了用于产生类似波纹管的结构的另一种可能性然后，eq.（2）可以转换如下：.如果k=1，在快捷连接方面，许多研究者要么使用基于恒等映射的快捷连接，要么使用基于卷积投影的快捷连接。然而，随着PyramidNet的特征映射维度在每个单元上增加，我们只能考虑两个选项：零填充标识映射快捷方式和投影快捷方式1×1卷积。然而，正如He等人的工作中所提到的。[8]，当有太多的剩余单元时，1×1卷积捷径产生了差的结果，即，这捷径不适合于非常深网络架构。因此，我们为所有残差单元选择零填充身份映射捷径。进一步讨论Dk=1<$D k−1·α N <$，如果2 ≤ k≤ N +1。（三）下一节提供了零填充快捷方式。加性和乘性PyramidNets之间的主要区别在于，加性网络的特征映射维度逐渐线性增加，而乘性网络的维度呈几何增长。也就是说，尺寸在输入侧层中缓慢增加，而在输出侧层中急剧增加这个过程类似于原始的深度网络架构，如VGG [25]和ResNet [7]。图2显示了加法和乘法PyramidNets的可视化图示。在本文中，我们通过比较一个加性金字塔网（等式2）来比较这两种维数增加方法的性能。（2））和乘法PyramidNet（eq.（3）在第4条中。2.2. 构建块构建块（即，具有ReLU和BN层的卷积滤波器堆栈）是基于ResNet的架构的核心。显然，为了最大限度地提高网络架构的能力，设计一个好的构建块是必不可少的。所示3. 讨论在本节中，我们将深入研究我们的PyramidNet的体系结构，以及提出的新颖的残差单元。我们在这里包括的实验支持的研究，并确认从我们的网络架构获得的见解可以进一步提高现有的基于ResNet的架构的性能。3.1. PyramidNet的效果根据Veit et al. [33]，ResNets可以被视为相对较浅网络的集合，这是由以下观察结果支持的：删除ResNets剩余单元中的单个构建块会导致较小的分类损失，而从VGG [ 25 ]等普通网络中删除层会严重降低分类率。然而，在原始和预激活ResNets [7，8]中，另一个值得注意的方面是，通过下采样删除单元（并将特征维度加倍）仍然会大幅降低性能[33]。同时，5930Kk−1k−1图3. 预激活ResNet [8]和我们的PyramidNet之间的性能比较，使用CIFAR数据集。虚线和实线分别表示训练损失和测试误差根据Veit等人的实验 [33]，当应用随机深度[10]时，没有观察到这种现象，并且性能也得到了改善。我们的PyramidNet的目标是通过尝试逐渐增加特征图维度而不是在一个残差单元处将其加倍来不同地解决这种现象，并均匀分配增加特征图的负担我们观察到，我们的PyramidNet确实解决了这种现象，同时提高了整体性能。我们通过将PyramidNet与预激活ResNet进行比较，进一步分析了PyramidNet的效果，实验结果如下首先，我们将PyramidNet的训练和测试误差曲线与图3中的预激活ResNet [8]进行比较。使用具有110层的标准对于我们的PyramidNet，我们使用了110层的深度，加宽因子为α=48;它与预激活ResNet具有相同的参数数（1.7M），以便进行公平的比较。结果表明，我们的PyramidNet具有卓越的测试准确性，从而证实了与现有的深度网络相比，它具有更强的泛化能力。其次，我们通过评估删除单个单元后的性能来验证我们的金字塔网络的集成效果，类似于Veit等人的实验。[33]。结果如图4所示. 正如Veit et[33]，与普通网络相比，删除单个单元只会导致轻微的性能损失，图4. 测试误差曲线，通过删除单个单元，研究不同网络架构中剩余单元对性能的贡献程度。虚线和实线分别表示当没有单元被删除时和当单个单元被删除时发生的测试错误。粗垂直线表示通过下采样的残余单元的位置。分别为。这一结果表明，我们的PyramidNet的集成效果比原始ResNet更强，从而提高了泛化能力。3.2. 零填充连接ResNets和预激活ResNets [7，8]研究了几种类型的快捷方式，例如身份映射快捷方式或投影快捷方式。[8]中的实验结果表明，身份映射快捷方式是比其他快捷方式更合适的选择。因为身份映射快捷方式没有参数，所以与其他类型的快捷方式相比，它具有较低的过拟合可能性;这确保了改进的泛化能力。此外，它可以根据单位映射纯粹地通过梯度，因此它在训练阶段提供了更大的稳定性。在我们的PyramidNet的情况下，身份映射不能单独用于快捷方式，因为特征映射维度在各个残差单元之间不同因此，仅零填充快捷方式或投影快捷方式可用于所有残余单元。然而，如[8]中所讨论的，投影捷径可能会阻碍信息传播并导致优化问题，特别是对于非常深的网络。另一方面，我们发现零填充捷径不会导致过拟合问题，因为不存在额外的参数，并且令人惊讶的是，与其他捷径相比，它显示出显著的泛化能力。我们现在检查零填充的身份映射快捷方式对属于[25]第二十五话然而，在预激活ResNet的情况下，移除经受下采样的块往往会以相对较小的比例具有整形向量xl的第n个群真实地图：.在第一次FEA-大的利润，而这并没有发生在我们的皮拉-xl=F（k，l）（xlLk−1、如果1≤l≤Dk−1（四）midNets。此外，基线结果与以下情况下获得的结果F（k，l）（xl），如果Dk−1

下载后可阅读完整内容，剩余1页未读，立即下载