稀疏聚集内部连接的深度卷积神经网络

89 浏览量更新于2023-10-13 收藏 745KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

稀疏聚集卷积网络朱力耕1邓瑞芝1迈克尔·梅尔2邓志伟1格雷格·莫里1谭平11西蒙弗雷泽大学2芝加哥大学{lykenz，ruizhid，zhiweid，mori，pingtan}@ sfu.edu，mmaire@uchicago.edu抽象。我们探索了深度卷积神经网络的一个关键架构方面：用于聚集早期层的输出以供更深层消费的内部跳过连接的模式。这种聚合对于促进以端到端方式训练非常深的网络至关重要。这是残差网络被广泛采用的主要原因，残差网络通过累积求和来聚合输出虽然后续的工作调查替代的聚合操作（例如连接），我们专注于一个正交问题：哪些输出在网络中的特定点聚合。我们提出了一种新的内部连接结构，它只聚合了一个稀疏的一组以前的输出在任何给定的深度。我们的实验表明，这种简单的设计的变化提供了更少的参数和更低的计算要求的优越性能。此外，我们表明，稀疏聚合允许网络更强大地扩展到1000+层，从而为训练长期运行的视觉过程开辟了未来的途径。1介绍由于卷积神经网络已经成为许多视觉系统的核心组件这是一系列流行的CNN架构的例子，最值得注意的是：AlexNet [25]，VGG [32]，Inception [35，34]，ResNet [16，17]和DenseNet [20]。虽然最初的目标是图像分类，但这些设计中的每一个也都在更广泛的视觉任务中发挥骨干作用，包括对象检测[7，14]和语义分割[28，3，41]。骨干网络架构的进步始终转化为这些下游任务的相应性能提升。我们研究了最近剩余（ResNet [16]）和密集（DenseNet [20]）网络架构的核心设计元素，内部聚合链路。虽然这些架构的成功至关重要，我们表明，在当前的网络中的特定的聚合结构是在一个次优的设计点。DenseNet被认为是最先进的，实际上由于在内部聚合链路上分配了太多的参数和太多的计算而我们提出了一个原则性的内部聚合结构的替代设计我们的设计是默认聚合结构的稀疏化。在ResNet和DenseNet中，特定层的输入是通过聚合所有先前层的输出来形成的我们切换2L. Zhu等人从该完全聚合拓扑到其中仅先前输出的子集被链接到后续层的拓扑通过在网络的整体深度中将传入链接的数量更改为对数而不是线性，我们从根本上减少了DenseNet模拟中参数的增长。实验表明，我们的设计是一致有利的：– 在标准任务中，例如图像分类，我们的稀疏化DenseNet变体SparseNet比ResNet和DenseNet更有效。这适用于在给定精度水平所需的参数和操作（FLOP）方面测量效率。更小的SparseNet模型与最高精度DenseNet的性能相– 与DenseNet相比，SparseNet设计以稳健的方式扩展到1000层及以上的极深网络的实例化这种配置放大了DenseNet和SparseNet之间的效率差距– 我们的聚合模式同样适用于ResNet。将ResNet切换到我们的签名可以提高或改善ResNet的性能。这表明聚合拓扑是其自身的基本考虑因素，与ResNet和DenseNet之间的其他设计差异解耦。第4节提供了这些实验结果的全部细节。在此之前，第2节涉及卷积神经网络中跳过或聚合链接的历史和作用的背景它把我们的贡献的背景下，最近的研究重点CNN架构。第3节介绍了我们的稀疏聚合策略的细节。我们的方法在聚合复杂性方面占据了一个以前未探索过的位置，一方面是标准CNN和FractalNet [26]，另一方面是ResNet和DenseNet。结合我们的实验结果，稀疏聚合似乎是一个简单的，一般的改进，可能会过滤到标准的CNN骨干设计。第5节总结了这些观察结果，并讨论了未来可能的研究路径。2相关工作现代CNN架构通常由一系列卷积，ReLU和批量归一化[23]操作组成，偶尔混合最大池化和子采样阶段。许多先前的研究集中在优化卷积内的参数效率，例如，通过降维瓶颈[22，16，17]，分组卷积[39，19]或权重压缩[4]。这些努力都涉及到微架构级别的设计，优化结构，使其适合包含最多几个操作的单个功能单元。在宏观架构层面，跳跃连接已经成为一种常见且有用的设计主题。这种连接将较早CNN层的输出直接路由到更深层的输入，跳过中间层的序列因此，一些更深层的层从多个路径获取输入：通常的顺序路径以及这些快捷路径。多个直觉激励包含跳过连接，并可能分享解释其有效性。稀疏聚集卷积网络32.1跳过要素预测一个视觉场景的详细标注可能需要理解它从边缘和纹理到对象类别的多个抽象层次。采取合理的观点，即当从较浅到较深的层时，CNN学会计算越来越抽象的视觉表示，跳过连接可以提供一种用于组装组合许多抽象级别的特征的途径。建立这样的连接减轻了学习存储和维护网络稍后再次需要的早期计算的特征的负担。这种直觉激发了在许多语义分割CNN中发现的跳过连接结构。完全卷积网络[28]上采样并组合标准CNN的几层，作为最终预测层的输入。超列网络[13]类似地将中间表示连接到级联特征描述符中。编码器-解码器架构（诸如SegNet [1]和U-Net [31]）不是使用端层作为跳过链接的唯一目的地，而是在相应空间分辨率的编码器和解码器层之间引入内部跳过链接这种内部特征聚合虽然具有不同的连接性，但也可以用于使非常深的网络可训练。2.2训练深度网络通过随机梯度下降来训练端到端的深度网络需要通过整个网络反向传播信号。从随机初始化开始，由较早层从网络末端处的损失接收的梯度将比由较深层接收的梯度噪声更大。这个问题随着网络的深入而恶化，使它们更难训练。附加额外的损失到中间层[27，35]是改善这个问题的一个策略。高速公路网络[33]和剩余网络[16]（ResNets）提供了一个更优雅的解决方案，通过向网络架构添加跳过连接来保留从单一损失中训练的能力。跳跃连接的添加缩短了早期网络层之间的有效路径长度和信息损耗。高速公路网络增加了门控机制，而剩余网络通过对所有先前层的输出求和来实现跳过连接。后一种策略的有效性是其目前被广泛采用的原因。分形网络[26]展示了一种用于训练非常深度网络的替代跳过连接结构伴随的分析表明，跳跃连接功能作为一种支架，支持训练过程。在特殊情况下，FractalNet跳过连接可以在训练后丢弃。DenseNets [20]直接构建在ResNets上，通过将跳过连接的操作它们保持与ResNets相同的聚合拓扑，因为所有先前的层输出都是串联的。2.3架构搜索构建健壮的表示和实现端到端培训的双重动机驱动了内部聚合链接的包含，但并不规定4L. Zhu等人这样做的最佳方法在缺乏对优化设计方法的深入了解的情况下，人们可以将建筑细节视为优化的超参数[42]。然后，单个网络的训练可以被包装为改变网络设计的更大搜索过程中的一个步骤。然而，目前还不清楚是否跳过链路拓扑是一个重要的超参数，在搜索。我们提出的聚合拓扑结构的动机是一个简单的建设，如第4节所示，显着优于以前的手工设计的结构。也许我们的拓扑结构接近最优，可以让架构搜索专注于更重要的超参数。2.4并发工作并行工作[18]，独立于我们自己，提出了一个类似于我们的SparseNet设计的DenseNet修改。相比之下，我们做出了独特的贡献– 我们的SparseNet图像分类结果明显优于Hu等人 [18]中报告的结果。我们的结果代表了DenseNet基线的实际和显着改进。– 我们更广泛地探索稀疏聚合拓扑，展示ResNet和DenseNet的应用，而[18]提出了对DenseNet的具体更改– 我们用极端配置的网络进行实验（例如 1000层），以突出我们的设计原则在当前基线开始崩溃的情况下的稳健性。虽然我们专注于参数效率和网络可训练性的上下文中的跳过连接，但其他并发工作检查了确保可训练性的 Xiao等 [38]开发一种新的初始化方案，允许训练非常深的普通CNN。Chang等人 [2]从常微分方程中获得灵感，开发了一个分析可逆网络稳定性的框架[8]，并展示了非常深入的可逆架构。3聚合架构图1概述了我们提出的稀疏聚合架构以及主要的ResNet [16]和DenseNet[20]设计，以及先前提出的FractalNet [26]替代ResNet。该宏观架构视图抽象出了诸如以下各项的详细信息：具体功能单元F（·）、参数和特征维度以及聚合运算符。由于我们的重点是一种新的聚合拓扑，第4节中的实验将这些其他细节与ResNet和DenseNet基线的细节相匹配。我们将具有稀疏聚合结构的网络定义为在输入x上的n个线性函数单元（layers）F（·）的序列，其中层的输出y计算为：y0=F0（x）（1）y = F（（y −c0，y −c1，y −c2，y −c3，. . . ，y −ck））（2）稀疏聚集卷积网络5F0×F1×F2×F3×F4×F5 ×F6×F7×F8F0B×F1B×F2b×F3B×b×bb×F4F5F6B×F7×F8(c)稀疏聚合（我们提出的拓扑）F0B×F1B×F2b×F3B×b×bb×F4F5F6B×F7×F8F30F20F21×F10F1×F112F13××BF0F001F0F 023F0F 045F0F067F08(a) 密集聚合（ResNet/DenseNet拓扑）(b) 密集聚集：（a）的等效分解视图（d）分形聚集（FractalNet）Fig. 1. 聚合拓扑。我们提出的稀疏聚合拓扑比DenseNet [20]更少地使用机器跳过连接，但比FractalNet [26]更多通过比较ResNet [16]或DenseNet拓扑（a）的分解图（b）以及分形拓扑（d）与我们的提议（c），这一点很明显所有这些算术运算都包含了一个复杂的算术运算单元F（·）（例如，卷积-ReLU-批处理规范）、聚合算子和连接模式。对于ResNet，是加法[+];对于DenseNet，是连接[];对于FractalNet，是是平均值[+]。注意紧凑视图（a）如何将一个聚合的结果馈送到下一个聚合;DenseNet的分解图（b）是用于与（c）和（d）进行比较的正确的可视化。对于深度为N的网络，密集聚合需要O（N2）个连接，稀疏聚合需要O（Nlog（N）），分形聚合需要O（2N）。通过在共同深度比较传入链接，这些差异在视觉上是明显的。对于示例，将（高亮度的）链接的内容合并到 F6（·）中。6L. Zhu等人其中c是正整数，k是最大的非负整数，使得ck≤。是聚合函数。这相当于以指数增加的偏移量将每个层连接到先前的层。与ResNet和DenseNet相比，它们根据以下方式将每个层连接到所有先前的层：y = F（（y −1，y −2，y −3，y −4，. . . ，y0））（3）对于总深度为N的网络，ResNet和DenseNet的完全聚合策略每层引入N个传入链路，总共O（N2）个连接。相比之下，稀疏聚合每层引入不超过logc（N）个传入链路，总共O（Nlog（N））个连接。我们的部件集合管理器将从FractalNet的集合模式中删除。FractalNet [26]设计将深度N的网络与深度为N，N，.. .，1，使整个网络由2N− 1组成2 4层。它会在这些并行连接网络，但这样做与这样的极端稀疏，总连接数仍然是占主导地位的O（2N）连接在并行层。我们的稀疏连接模式比ResNet或DenseNet更稀疏，但比FractalNet更密集。它占据了一个以前未被探索的点，具有与网络深度的跳跃连接密度的3.1密集聚集使用DenseNet和ResNet架构训练深度大于100层的网络的能力可以部分归因于其特征聚合策略。如第2节中所讨论的，跳过链接充当训练支架，允许每个层由最终输出层直接监督，并且聚集可以帮助将有用的特征从较浅的层转移到较深的层。然而，密集的特征聚合伴随着几个潜在的缺点。这些缺点以不同的形式出现在ResNet风格的求和聚合和DenseNet风格的级联聚合中，但都有一个共同的主题，即过度约束或过度负担系统。一般来说，在对一组特征求和之后，不可能解开它们的原始分量随着残差网络的深度增长，聚合的特征图的数量线性增长稍后的特征可能破坏或洗掉由先前的特征图携带的信息。这种由求和引起的信息损失可以部分解释当深度超过1000层时ResNet性能的饱和[16]。这种组合特征的方式在ResNets的设计中也是硬编码的，这使得模型几乎没有灵活性来学习更具表达力的组合策略。这种约束可能是ResNet层倾向于学习执行增量特征更新的原因[10]。相比之下，DenseNets的聚合风格通过直接串联来组合特征，这保留了先前特征的原始形式级联允许每个后续层的所有以前计算的功能，使功能重用微不足道的干净的看法这个因素可能有助于DenseNet优于ResNet的参数性能效率。稀疏聚集卷积网络7ButD enseNet的聚集是通过以下条件来实现的：跳过连接和所需参数的数量以O（N 2）的速率增长，其中N是网络深度。这种渐近二次增长意味着网络的很大一部分用于处理先前看到的特征表示。每一层只贡献了几个新的输出到一个不断扩大的串联存储状态。实验表明，该模型难以充分利用所有的参数和密集的跳跃连接。在原始的DenseNet工作[20]中，大部分跳过连接的卷积滤波器的平均绝对权重接近于零。这意味着特征图的密集聚合保持了一些无关的状态。DenseNet和ResNet中密集特征聚合的陷阱是由聚合的特征数量相对于深度的线性增长引起的。ResNet和DenseNet的变体，包括激活后ResNets [17]，混合链路网络[36]和双路径网络[5]都使用相同的密集聚合模式，仅因聚合运营商而异。因此，它们继承了这种密集聚合拓扑的潜在限制。3.2稀疏聚集我们希望保持短梯度路径的训练能力，同时避免密集特征聚合的潜在缺点事实上，SparseNets比没有聚合的架构具有更短的梯度路径在普通前馈网络中，从一层到前一层只有一条路径，偏移量为S;路径的长度为O（S）。在ResNet和DenseNet等密集聚合网络中，最短梯度路径的长度是恒定的然而，在任何两层之间保持具有O（1）长度的梯度路径的成本是聚合特征的计数的线性增长通过仅聚合具有指数偏移的图层中的要素，长度最短梯度路径的最短距离为 O（（c−1）log（S））。这里，c再次是控制稀疏连接模式的指数的基数同样值得注意的是，第层收集的前导输出的数量是O（log（）），因为它只到达具有指数偏移的前导参数最短梯度路径聚合特征平原O（N）O（N）O（1）ResNetsO（N）O（1）O（）DenseNetsO（N2）O（1）O（）SparseNets（sum）O（N）O（log（N））O（log）SparseNets（concat）O（NlogN）O（log（N））O（log）表1. SparseNet属性。我们比较了深度为N的网络和位于深度为N的各个层的结构引起的缩放特性。8L. Zhu等人因此，跳过连接的总数为ΣN=1时间复杂度O（n）其中N是网络的层数（深度）。对于级联聚合和求和聚合，参数的数量分别为O（NlogN）和O（N表1总结了这些特性。4实验我们通过CI-FAR [24]和ImageNet数据集[6]上的图像分类任务，证明了SparseNets作为具有密集特征聚合的最先进网络（即ResNets[16，17]和DenseNets [20]）的除了密集和稀疏聚合拓扑之间的差异之外，我们将所有其他SparseNet超参数设置为与相应的ResNet或DenseNet基线相同。对于一些大型模型，当我们继续增加模型深度或内部通道计数时，图像分类精度似乎饱和。这种饱和可能不是由于模型容量限制，而是由于数据集大小和任务复杂性，我们的模型和基线都达到了收益我们感兴趣的不仅是绝对精度，而且参数精度和FLOP精度效率。我们在PyTorch框架中实现了我们的模型[29]。为了优化，我们使用SGD，Nesterov动量为0.9，权重衰减为0.0001。我们训练所有的现代化的人，从我们的中心开始。这是一种新的方法[ 15 ]。所有这些w或k都使用NVIDIA GTX 1080 Ti GPU进行训练。我们发布了SparseNets的实现1，其中包含模型架构和参数设置的全部细节，目的是获得可重复的实验结果。4.1数据集CIFAR CIFAR-10和CIFAR-100数据集都有50，000张训练图像和10，000张测试图像，大小为32×32像素。CIFAR-10（C10）和CIFAR-100（C100）分别有10个和100个类。我们的实验使用标准数据增强，包括镜像和移位，如[20]中所做。结果表中C10或C100旁边的标记+表示该数据扩充方案。作为预处理，我们通过通道均值和标准差对数据进行归一化。按照ResNet [11]的Torch实现的时间表，我们的学习率从0.1开始，在epoch 150和225处除以10。1https://github.com/Lyken17/SparseNet稀疏聚集卷积网络9ImageNet ILSVRC 2012分类数据集[6]包含来自1000个类的120万个用于训练的图像和50K用于验证的图像为了公平比较，我们采用标准的增强方案来训练图像，如[11，20，16]所示在[16，20]之后，我们报告了验证集上的分类错误，单次裁剪大小为224 ×224。4.2CIFAR结果表2报告了CIFAR的实验结果[24]。最好的SparseNet与DenseNet的性能我们还显示了在补充材料中的CIFAR-100数据集多次运行显示出相似的准确度和低方差。在所有这些实验中，我们将每个SparseNet实例化为与相应命名的DenseNet完全相同，但具有更稀疏的聚合结构（删除了一些连接）。参数k表示特征增长率（每层产生多少新特征通道），我们将其与DenseNet基线相匹配。名称以BC结尾的模型由于SparseNet比DenseNet进行更少的连接，因此相同的特征增长率会产生具有更少总体参数的模型。值得注意的是，对于许多相应的100层模型，SparseNet的性能与DenseNet一样好或更好，同时具有更少的参数。架构深度参数C10+ 公司简介ResNet [16]1101.7M6.61-ResNet（预激活）[16]1641.7M5.4624.33ResNet（预激活）[16]100110.2M4.6221.42*Wide ResNet [40]1611.0M4.8122.07FractalNet [26]2138.6M5.5223.30DenseNet（k=12）[20]401.1M5.39* 24.79美元 *DenseNet（k=12）[20]1007.2M4.28* 20.97美元 *DenseNet（k=24）[20]10028.3M4.04* 19.61美元 *DenseNet（k=16，32，64）[20]10061.1M4.31*20.6*DenseNet（k=32，64，128）[20]100241.6M N/AN/ADenseNet-BC（k=24）[20]25015.3M3.6517.6DenseNet-BC（k=40）[20]19025.6M3.75* 17.53*DenseNet-BC（k=16，32，64）[20]1007.9M4.02* 19.55美元 *DenseNet-BC（k=32，64，128）[20]10030.5M3.92* 18.71美元 *SparseNet（k=12）400.8M5.1324.65SparseNet（k=24）1002.5M4.6422.41SparseNet（k=36）1005.7M4.3420.50SparseNet（k=16，32，64）1007.2M4.1119.49SparseNet（k=32，64，128）10027.7M3.8818.80SparseNet-BC（k=24）1001.5M4.0322.12SparseNet-BC（k=36）1003.3M3.9120.31SparseNet-BC（k=16，32，64）1004.4M3.4319.71SparseNet-BC（k=32，64，128）10016.7M3.2217.71表2. CIFAR分类性能。我们显示了SparseNets与DenseNets，ResNets及其变体的分类错误率。标有*的结果来自我们的实施。标记为+的数据集表示使用标准数据扩充（转换和镜像）。10L. Zhu等人模型深度 Params CIFAR 100+560.59M27.001101.15M24.70ResNet2002.07M23.101001 10.33M21.422000 20.62M22.76560.59M27.701101.15M26.10SparseNet[+]2002.07M25.771001 10.33M22.102000 20.62M21.01模型深度 Params CIFAR 100+401.10M24.79DenseNet（k=12）1007.20M20.97400117MN/ADenseNet-BC（k=24）25025.6M17.6400216.3MN/ADenseNet-BC（k=4）4001.10M32.9410016.63M28.50SparseNet[]-BC10040010010.40M1.70M4.62M27.9924.4122.10表3. CIFAR上的深度可伸缩性。左：ResNets和它们稀疏聚合的类似物SparseNets[+]。右：DenseNets和它们相应的稀疏类似物SparseNets[2]。观察ResNet和任何深度的所有SparseNet变体都表现出强大的性能。当拉伸太深时，DenseNets会遭受效率下降4.3使用稀疏连接进行表3示出了将架构推到极端深度的结果。虽然表2只探索了DenseNet的SparseNet类似物，但我们现在探索将ResNet和DenseNet切换到稀疏聚合结构，并分别用 SparseNet[+] 和 SparseNet[] 表示它们对应的SparseNet。ResNet和SparseNet[+]在CIFAR100上表现出更好的性能，因为它们的深度从56层增加到200层。ResNet和SparseNet[+]之间的性能差距最初随着深度的增加而扩大然而，当网络深度达到1001层时，它会变窄，并且SparseNet[+]- 2000的性能与ResNet相比，SparseNet[+]似乎能够更好地扩展到超过1000层的深度。与ResNet和SparseNet[+]类似，DenseNet和SparseNet[]的性能也随着深度的增加而提高。DenseNet的性能也受到特征增长率的影响。然而，当我们将DenseNet的深度增加到400时，DenseNet的参数计数会爆炸，即使增长率为12。如果我们想要更深入，就必须采用瓶颈压缩层，并且必须显著减少每层中的过滤器数量我们采用瓶颈压缩（BC）结构，使用4的增长率，但是，如表3所示，它们的性能远不能令人满意。相比之下，构建超过1000层的SparseNet[]是实用和内存高效的。我们可以很容易地使用 BC 结构构建深度大于 400 的SparseNet，增长率为12。在1001层，它实现了比DenseNet-1001更好的性能。SparseNet[]优于DenseNet的一个重要优势是，即使网络的深度超过1000层，聚合的先前层的数量也可以被一个小整数限制。这是对数函数的缓慢增长率的结果。这个特性不仅允许构建更深层次的SparseNet变体，还允许我们在深度和过滤器数量上更灵活地探索SparseNet的超参数。稀疏聚集卷积网络11我们还观察到SparseNet[]通常比SparseNet[+]具有更好的参数例如，在CIFAR-100上，SparseNet[+]- 1001和SparseNet[]-1001的错误率（巧合地）都是22.10。但是，请注意，SparseNet[+]-1001需要的参数不到SparseNet[+]-1001的一半。在SparseNet[+]-200和SparseNet[]-400之间的比较中也可以看到类似的趋势。 DenseNet与 ResNet通过级联（相对于求和）保留特征的优势也适用于稀疏聚合模式。4.4SparseNet的效率回到表 2 ，我们可以进一步评论 SparseNet[] （在表 2 中表示为SparseNet）与DenseNet相比的效率这些结果包括我们通过改变SparseNet的过滤器的深度和数量来探索参数效率。由于每层聚合的特征数量增长缓慢，并且在一个块内几乎是一个常数，因此我们还按照ResNets的方法将跨块这里，块是指在CNN流水线的池化和子采样阶段之间以相同空间分辨率运行的层序列。结果有两个总的趋势。首先，SparseNet通常需要比DenseNet更少的参数，当它们具有接近的性能时。最值得注意的是，DenseNet-BC（N= 190，k = 40）需要2560万个参数来实现错误率17。在CIFAR 100+上的错误率为53%，而SparseNet-BC可以达到17的类似错误率。71%低于设置（N= 100，k={ 32， 64， 128}），仅16.7百万参数19号SparseNet-BC（N= 100，k={ 16， 32， 64}）的71%错误率接近于对应的DenseNet-BC（N= 100，k={ 16， 32， 64}）的性能其次，当两个网络的参数都小于1500万时，SparseNet总是优于具有相似参数计数的DenseNet。例如，DenseNet（N= 100，k = 12）和SparseNet（N= 100，k ={ 16， 32， 64}）都有大约720万个参数，但后者表现出更好的性能。DenseNet（N= 40，k = 12）消耗了大约110万个参数，但仍然比80万个参数的SparseNet（N= 40，k = 12）性能更差。反例确实存在，例如SparseNet-BC- 100-{ 32，64，128}和DenseNet-BC-250-24之间的比较。后一种模型，具有较少的参数，表现稍好（17。6%对17。71%的误差）。我们认为这是性能饱和的一个例子，考虑到DenseNet-BC- 190-40仅具有比DenseNet-BC-250-24略高的准确性，具有更多的参数（2560万与2560万）。1 530万）。这些大型网络可能是在CIFAR-100图像分类任务上接近饱和性能请注意，当我们将不同块中的过滤器数量加倍时，SparseNets的性能会得到提升，并且它们比DenseNets更好的参数效率SparseNets实现了与DenseNets相似或更好的性能，同时在所有设置中均匀地需要至多一半的参数。这些一般趋势总结在图2（左图）的参数-性能图中。12L. Zhu等人模型误差参数FLOPs时间DenseNet-121-32 [20]25.0* 7.98M 5.7G 19.5msDenseNet-169-32 [20]23.6* 14.15M6.76G 32.0msDenseNet-201-32 [20]22.6* 20.01M8.63G 42.6msDenseNet-264-3222.2* 27.21M 11.03G 50.4msSparseNet[编辑]-121-3225.64.51M3.46G 13.5msSparseNet[]-169-3224.26.23M3.74G 18.8msSparseNet[]-201-3223.17.22M4.13G 22.0msSparseNet[]-201-4822.1 14.91M9.19G 43.1msResNet-5023.925.5M8.20G 42.2ms[12]第十二话23.77.47米--表4. ImageNet结果。ImageNet上每个模型的前1个单一作物验证错误、参数、FLOP和时间4.5ImageNet上的结果为了证明在更大规模数据集上的效率，我们进一步测试了SparseNet的不同配置，并将其与ImageNet上的最先进所有模型都使用相同的预处理方法和超参数进行训练。表4报告了ImageNet验证错误。这些结果表明，SparseNet[1]比DenseNet更好的参数性能效率扩展到ImageNet [6]：SparseNet[1]的性能类似于最先进的DenseNet，同时需要更少的参数。例如，SparseNet-201-48（14.91M参数）比DenseNet-201-32 （ 20.01M 参数）产生更好的验证误差 SparseNet-201-32 （ 7.22Mparams）的性能优于DenseNet-169-32，参数计数只有DenseNet-169-32的一半。即使与修剪网络相比，SparseNets也显示出具有竞争力的参数效率。在表4的最后一行中，我们显示了使用深度压缩修剪ResNet-50的结果[12]，其参数性能效率显着超过未修剪的ResNet-50。然而，我们的SparseNet[]-201- 32，从头开始训练，具有比修剪的ResNet-50更好的错误率，参数更少。完整的效率图见图24.6特征重用和参数冗余最初的DenseNets工作[20]进行了一个简单的实验，以研究经过训练的网络如何跨层重用特征简而言之，对于每个密集连接的块中的每个对于每个图层，平均绝对权重将在0和1之间重新缩放I. 第j个归一化值意味着与其他层相比，层i的特征对层j这些实验在由3个块组成的DenseNet上进行，其中N=40且k=12。我们在具有相同配置的SparseNet模型上进行了类似的实验。我们将结果绘制为图3中的热图。为了比较，我们也稀疏聚集卷积网络1325.525.0DenseNet-121 - 32电话：+86-0512 - 8888888传真：+86-0512-88888888#参数x10724.524.023.523.022.522.0SparseNet-169-32DenseNet-169-32ResNet-50-修剪SparseNet-201-32DenseNet-201-32DenseNet-264-320.51.01.52.02.53.03.54.0#参数x107图二. 参数效率。DenseNets和SparseNets[]之间的比较-1%的误差和不同配置的参数数量。左：CIFAR。右图：ImageNet。SparseNets使用更少的参数实现更低的错误。稀疏块10稀疏块20稀疏块302 2 21.04 4 46 6 68 8 80.810 10 100246810目标层（）0246810目标层（）0246810目标层（）0.6致密块10密集座20致密块300.42 2 24 4 40.26 6 68 8 810 10 100.00246810目标层（）0246810目标层（）0246810目标层（）图3.第三章。训练的DenseNet和SparseNet中卷积层的平均绝对滤波器权重像素（i，j）的颜色指示块内从层i到j第一行编码附加到DenseNet/SparseNet块的第一输入层的权重25DenseNet-40-1224SparseNet-40-242322SparseNet-40-36DenseNet-40-242120DenseNet-100-12SparseNet-BC-100-36DenseNet-100-24SparseNet-100-{16，32，64}验证误差（%）源层（）源层（）验证误差（%）14L. Zhu等人包括在DenseNets上进行的相应实验的热图[20]。在这些堆映射中，位置（i，j）处的红色像素表示层i大量使用层j的特征;蓝色像素表示相对较少的使用。白色像素指示层i与层j之间不存在直接连接。从热图中，我们观察到以下情况：– SparseNet热图中的大多数非白色元素都接近红色，这表明每个层都充分利用了它直接聚合的所有特征。它还表明几乎所有的参数都被充分利用，留下很少的参数冗余。考虑到我们模型的高参数性能效率，这个结果并不令人惊讶– 通常，DenseNet中位置（i，j）处的层耦合值随着i和j之间的偏移变大而减小。然而，这种衰减趋势并没有出现在SparseNet的热图中，这意味着SparseNet中的层有更好的能力从与前一层的长距离连接中提取有用的特征。图3中的学习权重分布以及图2中的效率曲线用于突出优化宏观架构设计的重要性。其他人已经证明了一系列方案[22，37，30，9，19]用于稀疏化微架构网络结构（层或滤波器内的参数结构）的益处我们的研究结果表明，类似的考虑是相关的，在整个网络的规模。5结论我们证明，遵循简单的设计规则，以对数方式随网络深度缩放聚合链路复杂度，产生了新的最先进的CNN架构。在CIFAR和ImageNet上进行的大量实验表明，我们的 SparseNets 比广泛使用的 ResNets 和DenseNets提供了显着的效率改进。这种提高的效率使SparseNets能够稳健地扩展到更大的深度。虽然CNN最近已经从10层转移到100层，但也许新的可能性将出现1000层网络的简单视觉识别的神经网络的性能随着它们从AlexNet [25]发展到ResNet[16，17]的深度而增长。根据这些趋势推断，我们有理由相信，建立更深层次的网络应该会进一步提高业绩。计算机视觉和机器学习社区的研究人员已经投入了大量精力来训练具有超过1000层的深度神经网络，希望如此[17，21]。尽管之前的工作和我们的实验表明，我们可以用随机梯度下降来训练非常深的神经网络，但它们的测试性能通常仍然处于平台期。即便如此，深度神经网络也可能适用于其他有趣的任务。一个可能的未来方向可能是解决依赖于长期依赖性的顺序跳过连接可以使网络具有回溯能力。稀疏特征聚合可能允许为此类任务构建极深的神经网络。稀疏聚集卷积网络15引用1. Badrinarayanan，V. Kendall，A.，Cipolla，R.：SegNet：用于图像分割的深度卷积编码器-解码器架构。PAMI（2017）2. Chang，B.，孟湖，加-地Haber，E.，鲁托托湖Begert，D.，Holtham，E.：任意深度残差神经网络的可逆架构。AAAI（2018）3. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：DeepLab：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割。1606.00915（2016）4. 陈伟，Wilson，J.T.，Tyree，S.，Weinberger，K.Q.，陈Y：用散列技巧压缩ICML（2015）5. 陈玉，李杰，Xiao，H.，Jin X Yan，S.，Feng，J.：双路径网络。NIPS（2017）6. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：ImageNet：一个大规模的分层图像数据库。CVPR（2009）7. 格尔希克河Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，用于准确的对象检测和语义分割。CVPR（2014）8. 戈麦斯，A.N.，Ren，M.，Urtasun河Grosse，R.B.：可逆残差网络：不存储激活的反向传播。NIPS（2017）9. Gray，S.，Radford，A. Kingma，D.P.：用于块稀疏权重的GPU内核。Tech.代表，OpenAI（2017）10. Greff，K.，Srivastava，R.K.，Schmidhuber，J.：高速公路和残差网络学习展开的迭代估计。ICLR（2017）11. 格罗斯， S. ， Wilber ， M. ：训练和调查剩余网（ 2016 ），github.com/facebook/fb.resnet.torch12. 汉，S.，毛，H.

下载后可阅读完整内容，剩余1页未读，立即下载