SkipNet：学习跳过卷积网络的动态策略

82 浏览量更新于2023-10-16 收藏 868KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SkipNet：学习卷积网络王欣1，余飞1，窦子毅2，特雷弗·达雷尔1，约瑟夫·E.冈萨雷斯11加州大学伯克利分校2南京大学抽象。虽然需要更深的卷积网络来实现视觉感知任务中的最大准确度，但对于许多输入，更浅的网络就足够了。我们通过学习在每个输入的基础上跳过卷积层来利用这种观察我们介绍了SkipNet，一种改进的残差网络，它使用门控网络来根据前一层的激活选择性地跳过卷积块我们制定的动态跳跃问题的顺序决策的背景下，并提出了一种混合学习算法，结合监督学习和强化学习，以解决不可微的跳跃决策的挑战。我们发现，SkipNet将计算量减少了30-90%，同时在四个基准数据集上保持了原始模型的准确性，并且优于最先进的动态网络和静态压缩方法。我们还定性评估的门控政策，以揭示图像的规模和显着性和跳过的层数之间的关系。1介绍越来越多的卷积网络设计研究[10，18，28]揭示了一个明显的趋势：更深的网络更准确。因此，性能最好的图像识别网络具有数百层和数千万个参数。这些非常深的网络以增加预测成本和延迟为代价然而，深度加倍的网络可能只会将预测准确率提高几个百分点。虽然这些小的改进在现实世界的应用中可能是至关重要的，但它们的增量性质表明，大多数图像不需要网络深度加倍，并且最佳深度取决于输入图像。在本文中，我们介绍SkipNets（见图1）。1），其是具有门控单元的修改的残差网络，所述门控单元动态地选择卷积神经网络的哪些层应当在推理期间被跳过。我们帧的动态跳过问题作为一个顺序决策问题，其中前几层的输出被用来决定是否绕过后续层。动态跳过问题的目标是跳过尽可能多的层，同时保持整个网络的准确性跳过策略不仅可以显着降低模型推理的平均成本，还可以深入了解单个层的收益和作用。虽然概念上简单，但学习有效的跳过策略是具有挑战性的。为了在保持准确性的同时减少计算量，我们需要正确地绕过网络中不必要的层。这种固有的离散决策是不可微的，因此排除了基于梯度的优化的应用2Wang等人图1：SkipNet学习在每个输入的基础上跳过卷积层对于具有挑战性的图像（顶部）执行的层比容易的图像（底部）多虽然一些[2，30，31]已经提出了软近似，但我们表明，为了减少计算结果而需要的后续硬阈值处理的精度较低。最近的工作[4，23]探索了强化学习（RL）在学习硬决策门中的应用。虽然有希望，但在我们的实验中，我们表明这些基于RL的技术是脆弱的，经常陷入糟糕的局部最小值，并产生与最先进的网络没有竞争力的网络。也可以应用重新参数化技术[16，21]，然而，这些方法通常会发现次优策略，部分原因是由于松弛引入的近似误差（在后面的章节中详细介绍）。我们探讨了几个SkipNet的设计，并介绍了一种混合学习算法，它结合了监督学习与强化学习，以解决不可微的跳跃决策的挑战。我们明确地为每组层分配门控模块。门控模块将先前层激活映射到二元决策以跳过或执行后续层。我们分两个阶段训练门控模块首先，我们通过采用重新参数化技巧[16，21]使用二进制跳过决策的软最大松弛，并使用原始模型使用的标准交叉熵损失联合训练层和门然后，我们将概率门输出视为初始跳过策略，并使用REINFORCE [34]来改进该策略而不放松。在后一阶段，我们联合优化跳跃策略和预测误差，以稳定的探索过程。我们使用ResNets [10]作为基础模型，在CIFAR-10、CIFAR-100、SVHN和ImageNet数据集上评估SkipNets。我们发现，通过混合学习过程，SkipNets学习跳过策略，可以显着降低模型推理成本（CIFAR-10数据集上为50%，CIFAR-100数据集上为37%， SVHN数据集上为86%我们将SkipNet与CIFAR-10和ImageNet数据集上的几种最先进的模型和技术进行了比较，发现SkipNet在两个基准测试上始终优于以前的通过操纵计算成本超参数，我们展示了如何SkipNets可以调整不同的计算约束。最后，我们研究了学习跳过策略的跳过行为，揭示了图像尺度与显著性和跳过层数之间的关系。我们的代码可在https://github.com/ucbdrive/skipnet上获得。2相关工作加速现有的卷积网络一直是现实世界部署中的核心问题，并且已经提出了几种补充方法这在很大程度SkipNet3工作集中在模型压缩[5，9，12，20]，通过应用权重稀疏化、滤波器修剪、矢量量化和蒸馏[13]将知识转移到较浅的网络。这些方法在训练初始网络之后应用，并且它们通常用作后处理。此外，这些优化的网络不动态调整模型的复杂性，以响应输入。虽然这些方法是互补的，我们显示SkipNet优于现有的静态压缩技术。一些相关的努力[6，8，29]探索了通过提前终止来动态缩放计算。Graves [8]探索了在循环网络中停止以节省计算成本。Figurnov等人[6]和Teerapittayanon etal.[29]提出了在卷积网络中使用最接近我们的工作，Figurnov等人。[6]研究了ResNets组块的早期终止。相比之下，SkipNet不会提前退出，而是根据进行中的层的输出有条件地绕过各个层，我们显示出更好的准确性与成本权衡的结果。另一条工作线[1，22，32]探索级联模型组合。这项工作建立在观察到许多图像可以用较小的模型准确标记的基础上。Bolukabasi等人[1]训练了一个终止策略，用于按成本增加的顺序排列的预训练模型的级联这种标准的级联方法不能跨分类器重用特征，并且需要大量的存储开销。类似于自适应时间计算的工作，Bolukabasi等人。[1]还探索网络内的提前终止然而，在许多广泛使用的体系结构（例如，ResNet）层被分成组;其中一些层比其他层更关键（图13）。10（a）。[1]的网络内级联工作无法在执行未来组中的后续层SkipNets以组合的方式探索网络中的选择层，从而导致作为级联超集的搜索空间。SkipNets中的门控模块充当层组的调节门它们与递归神经网络（RNN）中的门控设计有关[3，14，27]。Hochreiter等人[14]建议向RNN添加门，以便网络可以在网络状态中保持重要的记忆，而Srivastava等人。[27]将类似的技术引入卷积网络来学习深度图像表示。[3]和[26]都将门应用于其他图像识别问题。这些建议的门是我们在我们的实验中表明，3SkipNet模型设计SkipNet是卷积网络，其中针对给定输入选择性地包括或排除各个层层的每输入选择使用插入在层之间的小选通网络来选通网络将先前层或层组的输出映射到二元决策，以执行或绕过后续层或层组，如图2所示。二、更准确地说，设xi为输入，Fi（xi）为第i层或层组的输出，则我们将门控层（或层组）的输出定义为：xi+1=Gi（xi）Fi（xi）+（1-Gi（xi））xi，（1）4Wang等人=（x(a) 前馈门（b）递归门图2：我们研究了两种门控设计的SkipNets（a）每个残差块具有唯一的门控模块和门控参数。（b）各大楼共用一个统一的循环门其中Gi（xi）∈ {0，1}是层i的门控函数。为了使Eq。1是良好定义的，我们要求Fi（xi）和xi具有相同的维数。通常使用的剩余网络架构满足此要求，其中一期+1ResNetFI IResNet我ResNet 、（二）并且可以通过汇集xi以匹配Fi（xi）的维度来寻址。浇口网络设计既要有足够的表现力，又要准确确定要跳过哪些层，同时还在计算上便宜。为了解决准确性和计算成本之间的这种权衡，我们探索了一系列门控网络设计（Sec.3.1）将前馈卷积架构跨越到具有不同程度的参数共享的递归网络在任一种情况下，估计门控网络参数由于离散的门控决策以及最大化精度和最小化成本的竞争目标而变得复杂。为了学习门控网络，我们引入了一种两阶段训练算法，该算法结合了监督预训练（第二节）。3.3）基于策略优化（第3.2）使用将预测准确度与计算成本组合的混合奖励函数3.1门控网络设计在本文中，我们评估了两个前馈卷积门设计（图1）。2a）。FFGate-I（图3a）设计由两个3×3卷积层组成，步长分别为1和2，然后是全局平均池化层和全连接层，以输出一维向量。为了减少门计算，我们添加一个在第一个卷积层之前的2×2最大池化层总体计算FFGate-I的成本大约是本文中使用的残差块[10]的19%作为一个com-作为一种公认的更便宜的替代方案，我们还引入了FFGate-II（图1）。3b），由一个3×3步幅2卷积层组成，随后是与FFGate-I相同的全局平均池化和全连接层。FFGate-II的计算成本为12。剩余块成本的5%。在我们的实验中，我们将FFGate-II用于具有以下参数的网络：超过100层，FFGate-I适用于较浅的网络。前馈门设计计算起来仍然相对昂贵，并且不利用来自先前门的决定。因此，我们引入了递归门（RNNGate）设计（图1）。3c），其实现参数共享并且允许门跨级重用计算我们首先对输入要素应用全局平均池化X）+xSkipNet5共享(a) FFGate-I（b）FFGate-II（c）RNNGate图3：门设计。（a）FFGate-I包含两个3x 3卷积层，并且具有残差块的大约19%的计算（b）FFGate-II由步长为2的一个卷积层组成，并且具有约12个卷积层。5%的残余块的计算。(c)RNNGate包含一层LSTM，输入和隐藏单元大小均为10。的RNNGate的成本在0时可以忽略不计。04%的剩余块的成本。然后将特征线性投影到输入大小10。我们采用单层长短期记忆[14]（LSTM），隐藏单元大小为10。在每个门上，我们将LSTM输出投影到一维向量，以计算最终的门决策。与计算残余块的成本相比，这种递归门设计的成本可以忽略不计（大致为0. 残差块的计算的04%在我们后面的实验中，我们发现循环门在前馈中占主导地位在预测精度和计算成本上都有很大的差距。我们还评估了更简单的前馈门设计，没有卷积层，而这些匹配的计算成本的循环门的预测精度遭受。我们推测，循环门设计更好地捕捉跨层的依赖性。3.2基于混合强化学习的跳过策略学习在推理期间，从由每个门编码的概率分布中采取最可能的动作：则跳过或执行该层。这种固有的离散性和不可微的决策过程为我们如何训练SkipNets带来了独特的挑战一个自然的近似，类似于高速公路网络[27]中使用的，将是在训练期间使用可微的软最大决策，然后在推理期间恢复到硬决策。虽然这种方法能够实现基于梯度的训练，但它导致较差的预测准确性（Sec.4.3），因为网络参数在推理期间未针对随后的硬门控进行因此，我们探索使用强化学习来学习不可微决策过程的模型参数。由于SkipNets做出了一系列离散决策，每个门控层都有一个，因此我们通过强化学习在策略优化的背景下构建了估计门控函数的任务我们定义跳过策略：π（xi，i）=P（Gi（xi）=gi）（3）作为从输入xi到门动作gi上的概率分布的函数以执行（gi=1）或跳过（gi=0）层i。我们将从跳过策略中提取的门控决策的样本序列定义为从输入X开始：g=[g1，. . . ，g N] πFθ，（4）6Wang等人N101N其中F θ=Fθ，. . . ，Fθ是网络层的序列（包括门控模）由θ和g ∈ {0，1}N参数化。总体目标定义为minJ（θ）=minExEgLθ（g，x）=最小ExEgΣL（y（x，Fθ，g），y）−αΣNNΣRi，（五）i=1其中Ri=（1−gi）Ci是每个门控模块的奖励常数Ci是执行Fi的成本，项（1-gi）Ci反映了与跳过Fi相关的奖励。在我们的实验中，所有Fi具有相同的成本，因此我们设置Ci=1。最后，α是一个调整参数，它允许我们权衡最小化预测的竞争目标损失和最大化门的奖励。为了优化该目标，我们可以如下定义关于tθ的梯度。定义πF（x）=pθ（g|x），L=L（y（x，Fθ，g），y）且ri=−[L−αNRj]。θΣθJ（θ）=Ex|x）Lθ（g，x）GNj=i=ExΣp θ（g| x）θL +ExGΣp θ（g| x）θlog p θ（g| x）L θ（g，x）GΣN=ExEgθL −ExEgi=1θlog p θ（g i| x）r i.（六）第一部分Eq. 6对应于监督学习损失，而第二部分对应于REINFORCE [34]梯度，其中ri是与选通模块相关联我们将这种组合强化学习称为而监督学习过程Σdure是混合的reinΣ学习。在行动实践上可以放松r∈wardr=−βL−αΣNR来缩放iNj=i J预测损失，因为该混合强化学习之后是将在下一节中讨论的监督预训练。我们在实验中设定β=α，ImageNet和其他数据集的β=13.3监督预培训优化方程5从随机参数开始也始终产生预测精度差的模型（第2节）。4.3）。我们推测，降低学习能力是由于政策学习和图像表示学习之间的相互作用门控策略可能过度拟合早期特征，从而限制未来的特征学习。为了提供有效的监督初始化过程，我们引入了一种形式的监督预训练，它将前向传递期间的硬门控与软门控相在backpropagation。我们在等式（1）中放松门输出G（x）。1到连续值（即用S（x）∈[0，1]逼近G（x））。我们对前向传递中跳过模块的输出门控概率进行在反向传播过程中，我们使用soft-max近似[16，21]并计算相对于软最大输出的梯度的SkipNet7算法1：混合学习算法（HRL+SP）输入：一组图像x和标签y输出：训练的SkipNet1. 监督预培训（Sec. 3.3）θSP←SGD（L交叉进入py，SkipNet-G关系x（x））2. 混合强化学习（Hybrid Reinforcement Learning）3.2）用θSP初始化θHRL+SPθHRL+SP←REINFORCE（J，SkipNet-G（x））松弛过程总结如下：.G放松（x）=I（S（x）≥ 0。5）、向前传球S（x），反向传递、（7）其中I（·）是指示器函数。这种监督预训练的混合形式能够有效地利用标记数据来初始化基础网络和门控网络两者的模型参数在有监督的预训练之后，我们应用REINFORCE算法来细化模型和门参数，从而提高预测精度并进一步降低预测成本。我们的两阶段混合算法在Alg。1.一、4实验我们评估了一系列SkipNet架构和我们提出的四个图像分类基准的训练过程：CIFAR-10/100 [17]，SVHN [24]和ImageNet 2012 [25]。我们通过在残差块之间引入硬门，从ResNet模型[10节中4.1，我们评估了两种门设计的SkipNets的性能，并将SkipNets与最先进的模型进行了比较，包括动态网络和静态压缩网络，这些模型也是我们方法的补充方法。我们还将我们的方法与[15]启发的基线进行比较，以证明学习跳过策略的有效性节中4.2、通过大量的定性研究和分析，揭示了SkipNets的动态本质，揭示了图像尺度与显著性和跳过层数之间的关系节中4.3，我们讨论了所提出的学习算法和门控设计的有效性。数据集：选项卡。1总结了本文使用的数据集的统计数据。我们遵循CIFAR和ImageNet数据集采用的常见数据增强方案（镜像/移位）[7，19，33]。对于SVHN数据集，我们使用训练并提供额外的数据集进行训练，并且没有执行数据增强[15]。对于预处理，我们用通道均值和标准差对数据进行归一化。3531，131个图像是用于额外训练的SVHN的额外图像。8Wang等人表1：数据集统计表2：ResNets（简称R）的前1名准确率Dataset # Train # Test #ClassesModel CIFAR-10 CIFAR-100 SVHN模型ImageNetCIFAR-10 50k10k10R-3892.50%68.54%97.94% R-3473.30%CIFAR-100 50k10k100R-74百分之九十二点九五70.64%百分之九十七点九二转轴-5076.15%SVHN 604k326k10R-11093.60%71.21%百分之九十八点零九R-101 77.37%ImageNet 1.28m50k1kR-152--百分之九十八点一四--模型：对于CIFAR和SVHN，我们使用ResNet [10]架构，其中6n+2个堆叠加权层用于我们的基础模型，并选择n={6，12，18，25}来构建深度为{38，74，110，152}的网络实例对于ImageNet，我们评估ResNet- 34、ResNet-50和ResNet-101，如[10 ]第10段。我们将模型表示为深度x由SkipNet-x。此外，我们添加了+SP和+HRL来指示是否使用了监督预训练或混合强化学习。如果未提供修改器，则我们将进行完整的两阶段培训程序。最后，我们还将使用+FFGate和+RNNGate指示正在使用哪种选通设计。如果未指定，则使用RNGate。我们在Tab中总结了基本模型的准确性。二、在后面的章节中，我们将演示SkipNets可以保持相同的准确性（方差在0.5%以内）。训练：我们的两阶段训练过程将监督预训练和策略优化与混合强化学习相结合。在第一阶段，我们采用与[10]中用于CIFAR和ImageNet以及[15]中用于SVHN的相同的超参数。对于策略优化阶段，我们使用训练好的模型作为初始化，并使用相同的优化器对它们进行优化，所有数据集的学习率都降低了0.0001我们训练了固定次数的迭代（CIFAR数据集为10k次迭代，SVHN数据集为50次迭代，ImageNet数据集为40次迭代），并报告了在终止时评估的测试准确度监督预训练阶段的训练时间与在没有门控的情况下训练原始模型大致相同。我们的整体培训时间稍长，增加了约30- 40%。4.1 SkipNet性能评估在本小节中，我们首先提供了SkipNet在四个基准数据集上的总体计算减少，以证明SkipNet实现了减少计算的主要目标，同时保持了完整的网络预测准确性。我们还表明，通过调整α，SkipNet可以满足不同的计算成本和精度要求。对于横向比较，我们显示SkipNet在ImageNet和CIFAR-10上的表现优于一组最先进的动态网络和静态压缩技术。减少计算量，同时保持完整的网络精度：图4和图5a示出了原始ResNets和SkipNets的计算成本（包括门网络的计算），其以浮点运算（FLOP）测量，其中两者都是SkipNet93百分221% 39%1占百百分0ResNet-110ResNet-74ResNet-38 ResNet-110ResNet-74ResNet-38 ResNet-152ResNet-110ResNet-74ResNet-38占6%百分之六十百分之五十三百分之六十二百分之五十六-7%-11个百分点7%18%9%27%百分之二十六百分之四十一百分之二十八SkipNet+HRL+SP+FFGateSkipNet+SP+FFGate没有栅极51% 81%14% 18%11%30%百分15%58百分之七十七百分之三十四百分之八十六百分之六十五百分之十百分之四十八百分之十五百分之三十七百分百分之五十百分之二十三SkipNet+HRL+SP+RNNGateSkipNet+SP+RNNGate没有栅极4CIFAR-104CIFAR-100SVHN3210ResNet-110ResNet-74ResNet-38ResNet-110ResNet-74ResNet-38ResNet-152ResNet-110ResNet-74%ResNet-38CIFAR-10CIFAR-100SVHN图4：使用前馈门和递归门减少了SkipNet+SP和SkipNet+HRL+SP的计算计算成本包括门的计算在CIFAR-10，100和SVHN数据上，我们能够将计算成本降低50%，37%和86%的最深模型与仅使用SP相比，使用HRL进行微调可以获得另外10%或更多的计算减少。由于前馈门更昂贵，具有循环门的SkipNet通常可以实现更大的成本节省前馈和递归门设计，调整α以匹配相同的精度（方差小于0.5%）。稍后将讨论准确度和计算成本之间的权衡。在[10]之后，我们只考虑与卷积运算相关的乘加，因为其他运算对成本的影响可以忽略不计。我们观察到具有监督预训练的混合强化学习（HRL）（SkipNet+HRL+SP）能够大幅降低计算成本。总体而言，对于每个数据集上的最深模型，带有递归门的SkipNet-110+HRL+SP将CIFAR-10和CIFAR-100数据集上的计算分别减少了50%和具有循环门的最大SkipNet-152+HRL+SP模型将SVHN数据集上的计算减少了86%。在ImageNet数据上，使用递归门的SkipNet-101+HRL+SP能够将计算减少30%。有趣的是，如前所述，即使在目标中没有成本正则化的情况下，SkipNet架构的监督预训练始终导致预测成本降低解释它的一种方式是，较浅的网络更容易训练，因此更有利。我们还观察到，更深的网络往往会经历更大的成本降低，这支持了我们的猜想，即只有一小部分输入需要非常深的网络。权衡计算成本和准确性：当量 5引入了超参数α来平衡计算成本和分类精度。在图5b中，我们绘制了针对不同的α值的跳过层的平均数量的准确度。0.0 到ImageNet上的4.0我们在其他数据集上观察到类似的模式，详细信息可以在补充材料中找到通过调整α，可以权衡计算和精度以满足各种计算或精度要求。触发器（1e8）触发器（1e8）10Wang等人没有栅极SkipNet+SP15%3百分百分1% 12%SkipNet+HRL+SP0%的SkipNet-34SkipNet-50SkipNet-101SACTACTLCCLPFEC0765432ResNet-101ResNet-50 ResNet-34ImageNet77767574737210 20 30 40 50 60 70 80跳过的图层7776757473721234567FLOPs（1e9）(a) 计算减少(b) Acc.-计算权衡(c) 与他人图5：ImageNet评估。（a）使用RNNGate的SkipNets实现的计算减少（12 -30%），同时保持完整的网络准确性。（b）不同α下的精度和成本之间的权衡。在小α的情况下，计算下降得比精度下降得更快(c)SkipNet与最先进模型的比较。在计算成本和预测精度与最先进型号的比较：我们将SkipNet与ImageNet上现有的最先进的模型进行了比较（图2）。5c）和CIFAR-10（图6c）。由[6]提出的SACT和ACT模型是自适应计算时间模型，其试图在ResNets的每个块组中提前终止计算（Sec.2）的情况。此外，我们将SkipNet与静态压缩技术进行了比较：PEFC [20]和LCCL [5]也是我们方法的补充方法。如图5c，SkipNet-101在ImageNet基准测试中的表现远远优于SACT和ACT模型，即使它们使用最近更准确的预激活[11] ResNet-101作为基础模型。我们假设，跳跃模型制定所提供的灵活性增加，使SkipNet设计优于SACT和ACT。在图1中的CIFAR-10上可以观察到类似的图案6c.第二个例子。4为了与静态压缩技术进行比较，我们在图中绘制了计算FLOP和压缩残差网络的准确度（可能与本文中使用的深度不同五、虽然静态压缩技术是互补的方法，但SkipNet的性能与这些技术相似或更好请注意，尽管LCCL [5]使用更浅，更便宜的ResNets（ImageNet上的34层和CIFAR-10上的20，32，44层），但我们的方法仍然获得了相当的性能。与随机深度网络变体的比较：Huang等人[15]提出了随机深度网络，其随机地丢弃每个训练小批量的层，并恢复到使用完整网络进行推理。随机深度模型的原始目标是避免梯度消失并加速训练。为了降低推理计算成本，该模型的自然变体是在训练和推理阶段（称为SDV）中以选定的比率随机跳过块。我们在CIFAR-10和CIFAR-100数据集上比较了SkipNet和SDV，如图所示6a和6b在不同深度的网络下，SkipNet的性能大大优于SDV。4我们通过运行作者提供的代码获得了CIFAR-10结果FLOPs（1e9）准确度（%）准确度（%）SkipNet11100959085807570656055SDV-38SDV-74SDV-110SkipNet-3875SDV-38706560555045SDV-74SDV-11094.093.693.292.892.492.0010 20 30 40 50 60 70 80 90剩余FLOP %(a) CIFAR-1010 20 30 40 50 60 70 80 90剩余FLOP %(b) CIFAR-1000.00.30.60.91.21.51.8 2.1触发器（1e8）(c) 与他人图6：CIFAR上的比较。(a)CIFAR-10与随机深度模型（SDV）的变体的比较，该模型在训练和测试期间随机丢弃具有选定比率的块。SkipNet的学习策略在各种跳过率下优于基线（b）CIFAR-100与SDV的比较（c）SkipNet与CIFAR-10上的最新模型SkipNet始终匹配或优于最先进的模型(a) SkipNet +FFGate（b）SkipNet +RNNGate（c）SkipNet +FFGate（d）SkipNet+RNNGate CIFAR-10 CIFAR-10 SVHN SVHN图7：使用SkipNet在CIFAR-10和SVHN中可视化简单和困难图像74.上面两行是简单示例（跳过超过15层），下面两行是困难示例（跳过少于8层）。简单的例子更明亮，更清晰，而困难的例子往往是黑暗和模糊4.2跳跃行为分析与可视化在这一小节中，我们将研究与动态跳跃相关的关键因素，并定性地可视化它们的行为。我们在以下方面研究了块跳过与输入图像之间的相关性：（1）图像之间的定性差异，（2）输入的规模，以及（3）每个类别的预测精度。我们发现，SkipNet更积极地跳过较小规模的输入和更明亮和更清晰的图像。此外，对于具有高精度的类，跳过更多块输入之间的定性差异：为了更好地理解学习到的跳过模式，我们将SkipNets跳过许多层（作为简单示例处理）并保留许多层（作为困难示例处理）的图像聚类在图中。CIFAR-10和SVHN均为7有趣的是，我们发现，每个集群内的图像具有相似的特征，显着性和清晰度。在这两个数据集上，我们观察到简单的例子是SkipNet-38SACT法LCCLPFEC容易硬前1位准确度（%）前1位准确度（%）准确度（%）12Wang等人161412108642064202461.752.000.7518相对于比例1(a) ImageNet相对于比例1(b) SVHN图图8：使用多尺度输入执行的块的数量的分布X轴是按比例1执行的块的相对数量（#块保持在比例s-#块保持在比例1）。对于具有较大尺度的输入，执行更多的块。(a) 跳过图层数的中位数 (b)跳过层数图9：跳过的层的数量与不同类的复杂度水平的相关性（a）SkipNet以更高的准确性跳过更多的类层（b）硬类（狗）的分布是左偏的，而易类（卡车）是右偏的更突出（明亮、清晰且具有高对比度），而硬示例是暗且模糊的，其甚至难以被人类识别。这些发现表明，SkipNet可以识别输入的视觉差异并相应地跳过层。输入比例：我们推测的输入规模影响的门的跳跃决定。为了验证这一假设，我们在ImageNet和SVHN数据集上对训练模型进行了多尺度测试。我们绘制了相对于其他实验中使用的原始规模1的不同输入规模的执行块的数量的分布我们在这两个数据集上观察到，较小尺度的分布向左倾斜（执行的块比输入尺度为1的模型少），而较大尺度的分布向右倾斜（执行的块更多）。这一观察结果与直觉相匹配，即具有较大规模的输入需要较大的感受野，因此需要执行更多的块。另一种解释是，SkipNet动态地选择具有适当的感受野大小的层，用于具有不同输入尺度的给定输入。每个类别的预测精度：我们进一步研究了跳跃行为的相关性和CIFAR-10上每类的预测准确率。推测是SkipNet在容易的类（具有高准确性的类，例如，卡车类），而在硬类（具有低精度的类，例如，猫和狗类）。我们18161412108642064202461.252.000.751.500.50示例数（k）示例数（k）SkipNet13组3组2组1准确度（%）1.00.80.60.40.20.01357911131517192123252729313335969492.59290888684828087.0586.9187.1785.6487.490.2990.9491 74.92.1992.64ResNet-38SkipNet-38+HRL+SPSkipNet-38+HRL+S0.2 0.4 0.6 0.8 1.0(a) SkipNet-74每块的跳跃率（b）算法图图10：CIFAR-10的可视化和分析（a）SkipNet-74的每个块的跳跃率的可视化每一组中的前几块和后几块比较关键 ; 组 2 被大量使用。（ b ） SkipNet-38+HRL+SP、SkipNet-38+HRL+S的准确性和不同α值的具有FFGates的SkipNet-38+RL。SkipNet-38+RL（未绘制）只能达到10%的准确率，这表明使用纯RL，SkipNet无法学习正确的特征表示。此外，与随机初始化相比，精度与SP一致地提高。在图中绘制SkipNet+SP和Skip-Net +HRL+SP的每个类中跳过的层的数量的中值。9a.它表明，虽然所有类在应用HRL后都倾向于更积极地跳过，但SkipNets倾向于在简单类上跳过更多层图9b表示硬类的分布（例如狗类）向左倾斜，而更容易的类（例如，卡车类）是向右倾斜的，因为SkipNet倾向于在更简单的类上跳过更多的层不同块的跳过比：我们在图中可视化了SkipNet中不同块的跳过率。CIFAR-10上的10a。SkipNet在其他数据集上的可视化（例如ImageNet，CIFAR-100）可以在补充材料中找到。ResNet模型可以分为3组，其中同一组中的块具有相同的特征图大小，并且往往具有相似的功能。有趣的是，我们观察到组2中的跳跃比组1和组3中的少，这表明组2可能对特征提取更关键。4.3SkipNet设计与算法分析混合学习算法的有效性：我们比较了使用基本 RL ，从头开始的混合 RL（HRL+S）和混合RL加超预训练（HRL+SP）在CIFAR-10上训练的SkipNet- 38的性能。10b.对于SkipNet+HRL+S和SkipNet+RL，我们对两个网络进行了80k次迭代训练，以匹配SkipNet+HRL+ SP两阶段训练的总训练步骤。首先，我们无法使用纯RL方法训练模型（SkipNet- 38+RL准确率约为10%）。这为监督在复杂视觉任务中的重要性提供了强有力的证据其次，SkipNet-38+HRL+SP始终比SkipNet-38+HRL+S实现更高的准确性即使α非常小，SkipNet-38+HRL+S的准确度也低于原始ResNet-38模型的准确度。这表明监督预训练可以提供更有效的初始化，这有助于HRL阶段更多地关注跳过策略学习。间隔比块®14Wang等人表3：在相似的计算条件下，采用“硬”门控的SkipNet（简称S）比采用“软”门控的SkipNet具有更好的数据模型Acc.（%）触发器（1e8）数据模型Acc.（%）触发器（1e8）S-38-HD90.830.58S-38-HD67.680.50S-38-St66.670.61S-38-St21.700.62CIFAR-10 S-74-HD92.380.92CIFAR-100 S-74-HD67.790.61S-74-St52.291.03S-74-St25.470.89S-110-HD88.110.18S-110-HD63.660.96S-110-St23.440.05S-110-St9.841.00“Hard” gating and “Soft” gating design 3.3）或对于“软”门控，采用连续的门控概率进行训练，但是使用离散化的在选项卡中。3，我们展示了在类似的计算成本下，具有“硬”门控（SkipNet-Hd）和“软”门控（SkipNet-St）的SkipNet的分类准确率SkipNet-Hd实现了比SkipNet-St高得多的准确性，这可能是由于训练和软门控推理之间的不一致5结论我们引入了SkipNet架构，它可以学习动态跳过冗余层。在每个输入的基础上，而不牺牲预测精度。我们将动态执行问题视为一个顺序决策问题。为了解决动态执行固有的不可微性，我们提出了一种新的混合学习算法，它结合了监督和强化学习的优势。我们在四个基准数据集上评估了所提出的方法，表明跳过网在保持原始准确性的同时大大减少了计算与最先进的动态模型和静态压缩技术相比，SkipNets以更低的计算量获得了更好的精度。此外，我们进行了一系列的消融研究，以进一步评估所提出的网络架构和算法。动态架构提供了潜力，以更高的计算效率，并通过专门化和重用单个组件提高准确性。我们相信，在这一领域的进一步研究将对机器学习和计算机视觉的长期进展至关重要确认我们要感谢ECCV评审员的出色反馈。这项研究得到了NSF CISE ExpeditionsAward CCF-1730628的资助，并获得了阿里巴巴、亚马逊网络服务、蚂蚁金服、Arm、CapitalOne、爱立信、Facebook、谷歌、华为、英特尔、微软、加拿大丰业银行、Splunk和VMware的慷慨捐赠5我们调整SkipNet-Hd以匹配SkipNet-St的计算。SkipNet15引用1. Bolukbasi，T.，王杰，Dekel，O. Saligrama，V.：用于高效推理的自适应神经网络。第34届机器学习国际会议论文集。pp. 第5272. 陈伟，Jaitly，N.，Le，Q.，Vinyals，O.：听，参加和拼写：用于大词汇量会话语音识别的神经网络在：声学，语音和信号处理（ICASSP），2016年IEEE国际会议上。pp. 4960-4964. IEEE（2016）23. Dauphin，Y.N.，Fan，A.，Auli，M.，Grangier，D.：使用门控卷积网络进行语言建模国际机器学习会议（International Conference on Machine Learning）pp. 9334. Dhingra，B.，Li，L.，Li，X.，高，J.，Chen，Y.N.，Ahmed，F.，Deng，L.：面向信息访问的对话代理端到端强化学习在：计算语言学协会第55届年会的会议记录卷第1页。4845. 董X黄，J.，杨，Y.，Yan，S.：多即少：一个更复杂的网络，具有更低的推理复杂性。IEEE计算机视觉和模式识别会议论文集pp. 58406. Figurnov ， M. ，柯林斯医学博士 Zhu ， Y. ，张， L. ，黄， J. ， Vetrov ， D. ，Salakhutdinov，R.：残差网络的空间自适应计算时间。在：IEEE计算机视觉和模式识别会议（2017年7月）3，107. Goodfellow，I.J.沃德-法利，D.，Mirza，M.，Courville，A.Bengio，Y.：Maxout网络。第30届机器学习国际会议论文集。pp. III8. 格雷夫斯，A.：递归神经网络的自适应计算时间。NIPS 2016深度学习研讨会（2016）39. 汉，S.，毛，H.，Dally，W.J.：深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。学习表征国际会议（2016）310. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：Proceedings的IEEE会议上的计算机视觉和模式识别。pp. 77011. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射欧洲计算机视觉会议。pp.第63

下载后可阅读完整内容，剩余1页未读，立即下载