卷积网络的自适应推理图的设计及对模型性能的影响

52 浏览量更新于2023-10-13 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

具有自适应推理图的卷积网络安德烈亚斯·维特·塞尔日·贝隆吉纽约康奈尔大学计算机科学系{av443，sjb344}@ cornell.edu抽象。卷积网络真的需要固定的前馈结构吗？如果在识别出图像的高级概念之后，网络可以直接移动到能够区分细粒度差异的层，那会怎么样？目前，一个网络首先需要执行数百个中间层，这些中间层专门处理不相关的方面。理想情况下，网络对图像的了解越多，就越能更好地决定下一步要计算哪一层。在这项工作中，我们提出了卷积网络与自适应推理图（ConvNet-AIG），自适应地定义其网络拓扑结构的输入图像的条件。遵循类似于残差网络（ResNets）的高级结构，ConvNet-AIG为每个输入图像动态决定在ImageNet上的实验中，我们表明ConvNet-AIG可以为不同的类别学习不同的推理图。具有50层和101层的ConvNet-AIG都优于ResNet，同时分别减少了20%和33%的计算量。通过将参数分组到相关类的层中并仅执行相关层，ConvNet-AIG提高了效率和整体分类质量。最后，我们还研究了自适应推理图对对抗性示例敏感性的影响我们观察到ConvNet-AIG比ResNets具有更高的鲁棒性，补充了其他已知的防御机制。1介绍通常，卷积网络（ConvNets）在仅仅几层之后就已经对图像的高级概念充满信心这就提出了一个问题，即对于许多最先进的模型，网络的其余部分通常包括数百为了阐明这一点，重要的是要注意，由于它们的成功，ConvNets被用于对越来越大的视觉上不同的类别进行分类。因此，与低级和许多中级概念相比，大多数参数对高级特征进行建模，这些高级特征不能在各个类别中广泛共享。因此，随着类别数量的增加，网络变得更大，速度更慢此外，对于任何给定的输入图像，关注不相关概念的计算特征的数量增加。如果在识别出图像包含鸟类之后，ConvNet可以直接移动到可以区分不同鸟类的层，而无需执行专门处理不相关方面的中间层，那会直观地说，2A. Veit和S. BelongieF1F2++F1F2++F1F2传统前馈ConvNet：ResNet：ConvNet-AIG：图1.一、ConvNet-AIG（右）通过引入绕过每个层的身份跳过连接，遵循类似于ResNets（中）的高级结构关键的区别在于，对于每一层，门决定是执行还是跳过该层。这使得各个推理图能够以输入为条件。网络对图像知道得越多，它就越能更好地确定接下来要计算哪一层这与采用信息理论方法来选择最具信息量的特征进行评估的决策树有相似之处这样的网络可以将推理时间与学习的概念的最近的一项研究[31]提供了实现这种情况的关键见解作者研究了残差网络（ResNets）[11]，并表明几乎任何单独的层都可以从训练的ResNet中删除，而不会干扰其他层。这就引出了下面的研究问题：我们真的需要卷积网络的固定结构吗？或者我们可以根据输入动态地组装网络图吗？在这项工作中，我们提出了ConvNet-AIG，这是一种卷积网络，它自适应地定义了以输入图像为条件的推理图。具体来说，ConvNet-AIG学习一组卷积层，并为每个输入图像决定需要哪些层通过学习对所有图像有用的一般层和专门针对类别子集的专家层，它允许只计算与输入图像相关的特征。值得注意的是，ConvNet-AIG不需要对标签层次结构和关系进行特殊监督图1给出了我们的方法的概述ConvNet-AIG遵循类似于ResNet的关键区别在于，对于每个残差层，门确定当前输入图像是否需要该层。主要的技术挑战是门需要做出离散的决定，这很难集成到我们想要使用梯度下降训练的卷积网络中。为了结合离散决策，我们建立在最近的工作[4，18，24]的基础上，该工作为神经网络中的离散随机节点引入了可微近似特别地，我们将门建模为两个状态上的离散随机变量：以执行相应的层或跳过它。此外，我们根据前一层的输出对门进行建模。这允许基于输入自适应地构造推理图，并且端到端地联合训练卷积权重和离散门两者。在ImageNet [5]上的实验中，我们证明了ConvNet-AIG有效地学习生成推理图，使得对于每个输入，只计算相关特征在准确性方面，ConvNet-AIG 50和ConvNet-AIG 101都优于ResNet，同时计算量减少了20%和33%我们进一步表明，没有具体的监督，具有自适应推理图的卷积网络3ConvNet-AIG发现类层次结构的一部分，并学习专注于动物和人造物体等类别子集的专门层。它甚至可以为一些中级类别（如鸟类、狗和爬行动物）学习不同的推理图通过对相关类的参数进行分组并仅执行相关层，ConvNet-AIG提高了效率和整体分类质量。最后，我们还研究了自适应推理图对对抗性示例敏感性的影响我们表明，ConvNet-AIG始终比ResNets更强大，独立于对手的实力，即使在应用额外的防御机制时，附加的鲁棒性仍然存在2相关工作我们的研究涉及多个领域的工作。一些工作集中在视觉问答（VQA）[1，2，19]和零射击学习[25]的神经网络组成上虽然这些方法包括卷积网络，但它们专注于预先构建一个固定的计算图来解决VQA等任务。相比之下，我们工作的重点是构建一个卷积网络的输入图像上的飞行在执行过程中的条件。我们的方法可以被看作是神经网络自适应计算的一个例子。级联分类器[32]通过快速拒绝“简单”的否定，在计算机视觉方面有着悠久的传统。最近，类似的方法已经被提出用于神经网络[22，33]。在另一个方向上，[3，26]提出调整全连接神经网络中的计算量。为了适应卷积网络中的计算时间，[14，30]提出了将分类分支添加到中间层的架构。这允许一旦达到令人满意的置信水平就提前停止计算。与我们的方法最密切相关的是残差网络的空间自适应计算时间[6]。在那篇论文中，ResNet自适应地确定在哪一层之后停止计算。我们的工作不同于这种方法，因为我们不执行提前停止，而是确定要执行的层的子集这是关键，因为它允许对与类似类别相关的参数进行分组，从而为不同类别提供不同的推理图我们的工作是进一步与随机噪声的网络正则化。通过在训练过程中随机丢弃神经元，Dropout [27]提供了一个防止神经网络过拟合的有效方法。密切相关的是随机深度[16]的工作，其中ResNet的整个层在每次训练迭代期间被随机删除我们的工作类似于这种方法，因为它还包括决定是否执行层的随机节点然而，与我们的工作相反，随机深度中的层移除与输入无关，并且旨在增加层之间的冗余在我们的工作中，我们构建了以输入图像为条件的推理图，以减少冗余，并允许网络学习专门针对数据子集的层最后，我们的工作也可以被看作是注意力机制的一个例子，因为我们为每个输入图像选择特定的重要层来组装推理图。这与高速公路网等方法有关[28]4A. Veit和S. Belongie和挤压和激励网络[13]，其中剩余层的输出根据层的重要性重新缩放。这允许这些方法强调一些层而较少关注其他层。与我们的工作相反，这些是软注意力机制，仍然需要执行每一层。我们的工作是一个硬注意力机制，从而使解耦计算时间的类别的数量3自适应推理图传统的前馈ConvNets可以被认为是一组N层，其等同地应用于输入图像。，l∈{1，…N}表示由第l层计算的函数。以x0作为输入图像，xl作为第l层的输出，这样的网络可以递归地定义为xl=Fl（xl−1）（1）ResNets [11]通过引入绕过每个层的身份跳过连接来改变这个定义每一层的输入也被添加到其输出。这已经被证明在训练期间极大地简化了优化。由于梯度可以直接通过跳跃连接传播，即使在非常深的网络中，早期层仍然可以接收到足够的学习信号ResNet可以定义为xl=xl−1+Fl（xl−1）（2）在一项关于跳跃连接效果的后续研究[31]中，已经表明，尽管所有层都是联合训练的，但它们表现出高度的独立性。此外，几乎任何单独的层都可以从训练的ResNet中删除，而不会损害性能并干扰其他层。3.1门控推理受[31]中观察结果的启发，我们设计了ConvNet-AIG，这是一个可以动态定义其拓扑该架构遵循ResNet的基本结构，其关键区别在于，网络不是执行所有层，而是为每个输入图像确定要执行的层的子集特别是，由于层集中在类别的不同子组上，因此它只能选择特定输入所需的那些层ConvNet-AIG可以定义为xl=xl−1+z（xl−1）·Fl（xl−1）其中z（xl−1）∈ {0，1}（三）其中z（xl-1）是一个门，它根据层的输入来决定是否执行下一层。门在两个离散状态之间进行选择：0表示为了使这一大门有效，它需要解决几个关键挑战。首先，要估计其层的相关性，门需要了解其输入具有自适应推理图的卷积网络5卷积特征图i.i.d. Gumbel样本softmaxavg. 池1×1×C1×1×2F（·，W）+H×W×C向前落后如果argmax为1执行层argmax估计相关性直通Gumbel采样图二.门控单元概图。每个门包括两个部分。第一部分估计要执行的层的相关性。第二部分决定是否在给定估计的相关性的情况下执行层特别地，Gumbel-Max技巧及其softmax松弛用于允许梯度通过离散决策的传播。功能.为了防止模式崩溃成独立于输入特征的平凡解决方案，例如总是或从不执行层，我们发现门是随机的是至关重要的。我们通过向估计的相关性添加噪声来实现这一点。第二，门需要做出离散决策，同时仍然提供用于相关性估计的梯度我们使用Gumbel-Max技巧及其softmax松弛来实现这一点第三，门需要以低计算成本操作。图2提供了所提出的门的两个关键部件第一个有效地估计当前图像的相应层的相关性。第二个组件通过使用Gumbel-Softmax [18，24]进行采样来进行离散决策。3.2估计图层相关性门的第一个组件的目标门的输入是前一层的输出xl−1∈RW×H×C。由于在完整特征图上操作在计算上是昂贵的，因此我们建立在最近的研究[13，17，23]上，这些研究表明，大部分特征图都是基于卷积特征中的信息通过不同信道的统计量及其相互依赖性来捕获。特别是，我们只考虑通过全局平均池化收集的通道方式。这将输入特征压缩到1× 1×C通道描述符中。1ΣHzc=H×WΣWxi，j，c（4）i=1 j=1为了捕获通道之间的依赖关系，我们添加了一个简单的非线性函数，其中两个完全连接的层与ReLU [7]激活函数连接该操作的输出是层的相关性分数具体地，它是包含分别用于（a）计算和（b）跳过下一层的两个动作的未归一化分数的向量ββ=W2σ（W1z）（5）6A. Veit和S. Belongie其中σ是指ReLU，W1∈Rd×C，W2∈R2×d，d是隐藏层的维数。门控函数的轻量级设计导致最小的计算开销。对于基于ResNet 101 for ImageNet的ConvNet-AIG选通函数仅增加计算开销0。04%，但允许平均跳过其层的33%3.3贪婪Gumbel抽样第二个组件的目标是根据相关性分数做出离散决策。为此，我们建立在最近的工作，提出了通过随机神经元传播梯度的方法[4，20]。特别地，我们利用Gumbel-Max技巧[9]及其最近的连续松弛[18，24]。一个天真的尝试是选择两个相关性分数中的最大值来决定是执行还是跳过该层。然而，这种方法导致快速模式崩溃，因为它不考虑门的不确定性，并且它进一步不可微。理想情况下，我们希望在两个选项中选择与其相关性得分成比例的选项引入这种随机性的标准方法是在分数中加入噪声我们选择Gumbel分布作为噪声，因为它的关键属性被称为Gumbel-Max技巧[9]。随机变量G服从Gumbel分布，如果G=µ−log（− log（U）），其中µ是实值位置参数，U是来自均匀分布U<$Unif[0， 1]的样本然后，Gumbel-Max技巧表明，如果我们从K个Gumbel分布中采样具有位置参数{µ′}K，kth甘贝尔的结局最大Kk′=1与其位置参数KeµkP（k）是大的|{µk′}k′= 1}）=ΣKk′=1eµk′（六）有了这个，我们可以参数化离散分布的冈贝尔随机变量。特别地，设X是概率为P（X = k）∝αk的离散随机变量，且{Gk}k∈{1，…，K}是i.i.d.位置μ= 0的Gumbel随机变量。然后，我们可以通过从冈贝尔随机变量中抽样来从离散变量X中X= arg max（logαk+Gk）（7）k∈{1，…K}这种方法的缺点是argmax操作不是连续的。为了解决这个问题，已经提出了Gumbel-Max技巧的连续放松[18，24]，用softmax代替argmax。注意，离散随机变量可以表示为独热向量，其中变量的实现是非零条目的索引利用该符号，来自t个最大值的G_S的样本可以通过V_t或X_t来表示，如下所示：Xk=softmax（（logαk+Gk）/τ）（8）具有自适应推理图的卷积网络7其中Xk是X中的元素，τ是最大值的平均值。当hτ→0时，softmax函数接近argmax函数，并且等式8变得等同于离散采样器。当τ→ ∞时，它变成均匀分布。由于softmax是可微的，Gk是独立噪声，我们可以将梯度传播到概率αk。为了生成样本，我们将对数概率设置为估计的相关性得分，logα =β。采用Gumbel-softmax估计器的一个选项是在训练期间使用来自等式8的连续版本，并且在测试期间使用等式7获得离散样本另一种方法是Gumbel-softmax估计器的直通版本[18]。在那里，在训练期间，对于向前传递，我们从等式7获得离散样本，但是在向后传递期间，我们在等式8中计算softmax松弛的梯度。注意，由于前向和后向传递之间的失配，估计器是有偏的。然而，我们观察到，经验上的直通估计器表现更好，并导致推理图，更具体的类别。我们在图2中说明了向前和向后传递期间的两个不同路径3.4训练损失为了让网络学习何时使用哪一层，我们限制了每一层被允许使用的频率。具体来说，我们通过引入额外的损失项来使用软约束，该损失项鼓励每一层以某个目标速率t执行。这将优化引导到其中仅与相关类别的子集相关的参数在单独的层中被分组在一起的解决方案，这最小化了要计算的不必要的特征的量我们近似每一层的执行率在每个小批量和惩罚偏离目标率。令zl表示执行层l的然后，目标速率损失被定义为：ΣNL目标=l=12（zl−t）（9）目标速率提供了调整计算时间的简单工具ConvNet- AIG对广泛的目标利率具有稳健性。在实验部分，我们研究了目标率对分类精度和推理时间的影响。对于标准的多类逻辑损失LMC，总体训练损失为美国国际集团 =LMC+Ltarget（10）我们使用小批量随机梯度下降来优化该联合损失4实验我们进行了一系列的实验，以评估ConvNet-AIG的性能，以及它是否学习专门的层和特定于类别的推理图。最后，我们通过分析自适应推理图对对抗性攻击敏感性的影响来8A. Veit和S. Belongie表1. CIFAR 10的测试误差（%）。ConvNet-AIG 110明显优于ResNet 110，同时仅使用82%的层的子集执行所有图层时∗（ConvNet-AIG 110），它也优于随机深度。模型误差#参数（106）拖鞋（109）ResNet 110 [1]6.611.70.5Pre-ResNet 110 [12]6.371.70.5随机深度ResNet 110 [6]5.251.70.5ConvNet-AIG 1105.761.780.41∗ConvNet-AIG 1105.141.780.54.1CIFAR结果我们首先在CIFAR-10 [21]上执行一组实验，以验证所提出的门控机制及其在层之间分配计算的有效性模型配置和训练细节我们基于原始ResNet 110构建ConvNet-AIG [11]。除了增加的门，ConvNet-AIG遵循与ResNet 110相同的架构。对于门，我们选择大小为d= 16的隐藏状态。每个残差块的附加门增加了固定开销0。01%的浮点运算和4. 与标准ResNet-110相比，参数增加8%我曾以一种类似的方式，在《易经》中作了一个比喻。tum 0.9和重量衰减5× 10−4。所有模型都训练了350个epoch，小批量大小为256。我们使用从0开始的逐步学习率。1和衰变-在150和250个epoch之后，我们采用标准的数据增强方案，图像每边填充4个像素，随机裁剪为32× 32，水平翻转的概率为0.5。结果表1显示了ResNet [11]，预激活ResNet [12]，随机深度[16]及其ConvNet-AIG对应物在CIFAR 10上的测试误差。该表还显示了模型参数和浮点运算（乘加）的数量。我们比较了两种变体：对于标准ConvNet-AIG，我们只执行具有开放门的层。作为第二种变体，我们用“*”表示从结果中，我们观察到ConvNet-AIG明显优于其ResNet同行，即使只使用层的一个子集特别地，ConvNet-AIG 110具有0的目标速率。7只使用了预期中82%的层。由于ResNet 110对于CIFAR-10可能是过度参数化的，因此由丢弃层引起的正则化可能是性能的关键因素我们观察到ConvNet-AIG 110*优于随机深度，这意味着自适应推理图超越正则化的好处。事实上，ConvNet-AIG学习识别关键重要性的层，例如下采样层，并学习始终执行它们，尽管它们会产生计算成本。我们没有观察到任何向下的异常值，即。每次都要丢弃的图层具有自适应推理图的卷积网络928272625242322212 3 4 5 6 7 8109中的浮点运算（GFLOPs）图三. Top-1准确度与ImageNet上的计算成本。ConvNet-AIG 50的性能优于ResNet 50，同时在预期中跳过了20%的层。同样，ConvNet-AIG 101的性能优于ResNet 101，同时计算量减少33%降低目标速率通常比减少层数更有效4.2ImageNet上的结果在ImageNet [5]的实验中，我们研究了ConvNet-AIG是否学会对参数进行分组，以便为每个图像只计算相关特征Ima-geNet非常适合这项研究，因为它包含了大量的类别，包括人造物体，食物和许多不同的动物。模型配置和训练细节我们基于ResNet 50和ResNet 101构建ConvNet-AIG[11]。同样，我们遵循与原始ResNets相同的架构，唯一的例外是增加了门。隐藏状态的大小再次为d = 16，增加了固定开销3。9%以上的参数和0. 04%的浮点运算。对于ConvNet-AIG 50，所有16个剩余层都具有栅极。对于ConvNet-AIG 101，我们将早期层固定到始终执行的第二次下采样操作。主要原因是早期的层尚未区分对象类别。我们遵循标准的ResNet训练过程，小批量大小为256，动量为0.9，权重衰减为10−4。所有模型都训练了100个epoch，逐步学习率从0开始。1，每30个历元衰减10−1我们使用[11]中的数据增强过程，在测试时首先将图像重新缩放到256× 256，然后是224× 224的中心裁剪。在训练开始时，门被初始化为以85%的速率打开定量比较图3显示了ImageNet上的top-1错误以及ConvNet-AIG的GFLOP计算成本，其中ConvNet-AIG具有50层和101层以及不同深度的相应ResNet我们进一步显示了不同的目标率对性能和效率的影响我们使用从0开始的目标速率。4ResNet 34模型架构ConvNet-AIGResNet美国国际集团50t=0.4-20%ResNet 50t=0.7t=0.3ConvNet-AIG 101ResNet 101-33%t=0.5ImageNet top-1错误10A. Veit和S. Belongie表2.在ImageNet上测试ConvNet-AIG 50、ConvNet-AIG 101和不同深度的ResNets这两个ConvNet-AIGs的性能都优于ResNet，同时只使用了层的一个子集这表明ConvNet-AIG更有效，也提高了整体分类质量。模型前1前5#参数（106）拖鞋（109）ResNet 34 [11]26.698.5821.803.6ResNet 50 [11]24.77.825.563.8ResNet 50（我们的）23.877.1225.563.8ResNet 101 [11]23.67.144.547.6ResNet 101（我们的）22.636.4544.547.6随机深度ResNet 5027.759.1425.563.8随机深度ResNet 10122.806.4444.547.6ConvNet-AIG 50 [t=0.4]24.757.6126.562.56ConvNet-AIG 50 [t=0.5]24.427.4226.562.71ConvNet-AIG 50 [t=0.6]24.227.2126.562.88ConvNet-AIG 50 [t=0.7]23.827.0826.563.06ConvNet-AIG 101 [t=0.3]23.026.5846.234.33ConvNet-AIG 101 [t=0.5]22.636.2646.235.11至0 ConvNet-AIG 50为7，0。三比零。5用于ConvNet-AIG 101。关于模型复杂性和进一步基线的详细信息从结果中，我们得出以下关键观察结果。ConvNet-AIG 50和ConvNet-AIG101的性能都优于ResNet，同时也只使用了层的一个子集。特别地，具有0的目标速率的ConvNet-AIG 50。7节省了大约20%的计算。同样，ConvNet-AIG101的性能优于其各自的ResNet，同时使用的计算量减少了33%。图3还可视化了目标速率的效果。如所预期的，降低目标速率减少了计算时间。有趣的是，惩罚计算首先提高准确性，然后降低目标速率进一步降低准确性。这表明ConvNet-AIG提高了效率和整体分类质量。此外，与减少标准ResNets中的层相比，降低目标速率由于表面相似性，我们还与随机深度进行比较[16]。我们观察到，对于较小的ResNet模型，随机深度不提供竞争性结果。只有非常大的模型才能从随机深度正则化中获益。关于随机深度的论文[16]报告说，即使对于非常大的ResNet152性能仍然低于基本ResNet。这突出了ConvNet-AIG和随机深度的相反目标随机深度旨在通过强制每个层子集对整个数据集进行建模来创建冗余特征[31]。ConvNet-AIG旨在将与数据集的不同子集相关的参数分离到不同的层中。这些结果表明，卷积网络不需要固定的前馈结构，并且ConvNet-AIG是实现以输入图像为条件的自适应推理图的有效手段具有自适应推理图的卷积网络11第101章：你是谁？选通固定选通消费品集装箱设备结构运输执行率10.75其他物体鸟类0.5狗其他哺乳动物爬行动物和其他动物食品别人0 5 10 15下采样层0.2500残留层残留层见图4。在ImageNet上学习了推理图。直方图显示了ConvNet-AIG 50（左）和ConvNet-AIG 101（右）在ImageNet（y轴）中的1000个类中执行每个残差层（x轴）的频率。我们观察到用于人造物体和动物的层之间存在明显差异，甚至用于一些中级类别，如鸟类，哺乳动物和爬行动物。在没有特定监督的情况下，网络发现类层次结构的一部分此外，下采样层和最后一层显得非常重要，并且针对所有图像执行。最后，左侧直方图显示早期层对于不同的类大多是不可知的因此，我们将ConvNet-AIG 101中的早期层设置为始终执行。剩余的层足以为各种类别提供不同的推理图学习推理图的分析为了分析学习推理图，我们研究了针对不同类别的图像执行不同层的速率。图4示出了左侧的ConvNet-AIG 50和右侧的ConvNet-AIG101的每一层的执行速率x轴表示剩余层，y轴按ImageNet中的1000个类分解执行率此外，该图还显示了包含大量类的高级和中级类别每个单元格中的颜色指示执行相应层的给定类别中的验证图像从图中，我们看到了人造物体和动物之间的明显区别。此外，我们甚至还观察到鸟类、哺乳动物和爬行动物等中级动物类别之间的区别这揭示了网络发现标签层次结构的一部分并相应地对参数进行通常，我们在ConvNet-AIG 50和ConvNet-AIG 101中观察到类似的结构然而，在这方面，人造物体ImageNet分类动物0510152025312A. Veit和S. Belongie0.40.350.30.250.20.150.10.05010.90.80.70.60.5倒数第二层最后层下采样图层其它层6 8 10 12 1416层数0 10 20 30训练时期图五.左：执行层数的分布。对于ConvNet-ImageNet上的AIG50，目标率为0。4，平均执行16个剩余层中的10.8动物的图像往往比人造物体使用更少的层右图：前30个训练阶段的每层执行率。层被快速地分成关键层和不太关键的层。下采样层和最后一层增加执行速率，而其余层缓慢接近目标速率。由于可以捕获高级特征的层的数量更大，所以在ConvNet-AIG 101中中级类别的分组更加明显。这个结果表明，ConvNet-AIG成功地学习了专注于特定类别子集的层。值得注意的是，培训目标不包括学习类别特定层的激励当计算预算受到限制时，此外，我们观察到下采样层和最后一层明显偏离目标速率，并且对所有图像执行。这证明了它们在网络中的关键作用（如[31]中所观察到的），并显示了ConvNet-AIG如何学习有效地权衡计算成本以获得准确性。最后，该图显示，对于ConvNet-AIG 50，类间变化主要存在于第二下采样层之后的网络的较后层其中一个原因可能是早期层的特征对所有类别都有用。此外，早期层可能还没有捕获足够的语义信息来区分类别。因此，我们保持ConvNet-AIG 101的早期层固定为始终执行。其余的层仍然为各种类别的不同推理路径提供了足够的灵活性。图5在右侧显示了ConvNet-AIG 50训练期间执行率的典型轨迹在训练开始时，层被初始化为执行85%的速率。该图显示了前30个训练时期，并突出显示了如何将层快速分离为关键层和不太关键的层。重要的层，如下采样和最后一层，会增加它们的执行速率，而其余的层会慢慢接近目标速率。可变推理时间由于自适应推理图，计算时间在不同图像之间会有所不同。图5在左侧示出了ConvNet-AIG 50中的16个剩余层中的多少层在所有图像上被执行频率鸟类消费品所有类执行频率具有自适应推理图的卷积网络13最少层数大多数层鸟类狗乐器见图6。来自ImageNet的验证图像，在鸟类，狗和乐器类别中使用最少的层（顶部）和最多的层（底部）这些示例说明了实例难度如何转换为层使用率。geNet验证图像。平均10。执行81层，标准偏差为1。11. 该图还突出了鸟类和消费品的中等类别在预期中，鸟的图像比消费品的图像少使用一层从图4中，我们进一步知道这两个组也使用不同的层集合。图6显示了在鸟、狗和乐器类别中使用最少和最多层这些示例强调了具有图标视图的简单实例只需要几个层。小的或被遮挡的困难实例需要更多的计算。4.3对抗性攻击在第三组实验中，我们的目标是了解自适应推理图对对抗性攻击易感性的影响。一方面，如果对抗性扰动改变了推理图，使得网络的关键层被跳过，则性能可能会降低。另一方面，图的随机性可以提高鲁棒性。我们在ResNet 50和ConvNet- AIG 50上执行快速梯度符号攻击[8]，两者都是在ImageNet上训练的结果示于图7中。在左边的图表中，x轴显示了对手的实力，以每个像素可以改变的数量来衡量y轴显示ImageNet上的前1精度。我们观察到，ConvNet-AIG始终更强大，独立于对手的实力。为了研究这种额外的鲁棒性是否可以补充其他防御[10]，我们对对抗性示例执行JPEG压缩我们遵循[10]并使用75%的JPEG质量设置。虽然这两个网络都从防御中受益匪浅，但ConvNet-AIG仍然更加强大，这表明额外的鲁棒性可以补充其他防御。为了了解攻击对门的影响，我们查看攻击前后的执行率。在右侧，图7显示了在使用epsilon 0的FGSM攻击之前和之后，ConvNet-AIG 50的所有鸟类类别的每层平均执行率。047.虽然网络的准确性从74. 62%至11%，执行率保持相似。门的弹性的一个原因14A. Veit和S. Belongie0.80.70.60.50.40.30.20.100.01 0.02 0.03 0.04 0.050.06对手实力（epsilon）10.80.60.40.200 5 1015残留层鸟类（无攻击）鸟类(FGSM攻击，ε0.047）目标速率见图7。使用快速梯度符号方法的对抗性攻击。左图：ConvNet- AIG始终比普通的ResNet更强大，不受对手实力的影响。即使在应用额外的防御机制时，额外的鲁棒性仍然存在右图：攻击前后鸟类图像的每层平均执行率执行率基本上不受攻击的可能会超过攻击带来的噪音。此外，全局平均池化操作可以抵消一些对抗性扰动。5结论在这项工作中，我们已经证明了卷积网络不需要固定的前馈结构。通过ConvNet-AIG，我们引入了一个ConvNet，它基于输入图像动态地自适应地组装其推理图。ImageNet上的实验表明，ConvNet-AIG将相关类的参数分组到专门的层中，并学会只执行与输入相关的那些层。这允许从学习的概念的数量解耦推理时间，并提高效率以及整体分类质量。这项工作为今后的工作开辟了许多途径关于网络架构，将这项工作扩展到ResNets之外的其他结构，如密集连接[15]或基于接收的[29]网络，这将是有趣的。从从业者的角度来看，将这项工作扩展到一个框架中可能是令人兴奋的，其中执行层的集合是自适应的，但它们的数量是固定的，以便实现恒定的推理时间。此外，我们已经看到，门在很大程度上不受基本对抗性攻击的影响。对于攻击者来说，调查专门针对门控功能的攻击可能确认我们要感谢 Ilya Kostrikov ， Daniel D.Lee ， Kimberly Wilber ， AntonioMarcedone和Yiqing Hua进行了富有洞察力的讨论和反馈。这项工作得到了互联体验誓言实验室、谷歌重点研究奖、AWS研究云积分和脸书设备捐赠的部分支持。美国国际集团50美国国际集团50+ JPEG压缩ResNet 50ResNet 50+ JPEG压缩ImageNet top-1精度执行频率具有自适应推理图的卷积网络15引用1. Andreas，J.，Rohrbach，M.，Darrell，T.，Klein，D.：学习构建神经网络进行问答。NAACL-HLT会议记录（2016）2. Andreas，J.，Rohrbach，M.，Darrell，T.，Klein，D.：神经模块网络。计算机视觉和模式识别会议（CVPR）（2016）3. Bengio，E.，培根，P.L.，Pineau，J.，预处理，D.：用于更快模型的神经网络条件计算arXiv预印本arXiv：1511.06297（2015）4. 本吉奥，Y.，我在一条路上，NCourville，A. ：通过用于条件计算的随机神经元，使stimatitingingorpropagatitingingradients。ArXiv预印本arXiv：1308.3432（2013）5. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。计算机视觉和模式识别会议（CVPR）（2009年）6. Figurnov，M.，柯林斯医学博士Zhu，Y.，张，L.，黄，J.，Vetrov，D.，Salakhutdi- nov，R.：残差网络的空间自适应计算时间计算机视觉和模式识别会议（CVPR）（2017）7. Glorot，X.，Bordes，A.，Bengio，Y.：深度稀疏整流神经网络。国际人工智能和统计会议（AISTATS）（2011年）8. Goodfellow，I.J. Shlens，J.，Szegedy，C.：解释和利用对抗性的例子。arXiv预印本arXiv：1412.6572（2014）9. Gumbel，E.J.：极值统计理论及一些实际应用：一系列讲座。第33号，美国政府打印. 01 The Lost of the Woman（1954）10. Guo，C.，中国农业科学院，Rana，M.，Cisse，M.，van der Maaten，L.：使用输入变换对抗性arXiv预印本arXiv：1711.00117（2017）11. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。计算机视觉和模式识别会议（CVPR）（2016）12. 他，K.，张，X.，Ren，S.，孙杰：深度剩余网络中的身份映射在：欧洲计算机视觉会议（ECCV）（2016）13. 胡， J ， Shen ， L. ， Sun ， G. ：压缩 - 激励网络。 arXiv 预印本 arXiv ：1709.01507（2017）14. Huang，G.，Chen，D.，中国农业科学院，Li，T.，吴，F.，范德马滕湖，Weinberger，K.Q.：用于高效预测的多尺度密集卷积网络。arXiv预印本arXiv：1703.09844（2017）15. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。计算机视觉和模式识别会议（CVPR）（2017）16. Huang，G.，Sun，Y.，刘志，Sedra，D. Weinberger，K.Q.：深度随机的深度网络。在：欧洲计算机视觉会议（ECCV）（2016）17. 黄，X.，Belongie，S.：实时任意样式传输，具有自适应实例规范化。国际计算机视觉会议（ICCV）（2017）18. Jang，E.，Gu，S.，Poole，B.：使用gumbel-softmax进行分类重新参数化arXiv预印本arXiv：1611.01144（2016）19. Johnson，J.，Hariharan，B.，范德马滕湖，Hoffman，J.，Fei-Fei，L.Zitnick，C.L.，Girshick，R.：推理和执行程序的视觉推理。国际计算机视觉会议（ICCV）（2017）20. 金玛，D.P.，Welling，M.：自动编码变分贝叶斯。ArXiv预印本arXiv：1312.6114（2013）21. Krizhevsky，A.，Hinton，G.：从微小图像中学习多层特征（2009）16A. Veit和S. Belongie22. Li，H.，林芝，沈，X.，Brandt，J.，Hua，G.：用于人脸检测的卷积神经网络级联。计算机视觉与模式识别会议（CVPR）（2015）23. 李，Y.，王，N.，刘杰，Hou，X.：揭秘神经风格转移。arXiv预印本arXiv：1701.01036（2017）24. 麦迪逊C.J. Mnih，A.，Teh，Y.W.：具体分布：离散随机变量的连续松弛。arXiv预印本arXiv：1611.00712（2016）25. 米斯拉岛Gupta，A.，Hebert，M.：从红酒到红番茄：有背景的作文。计算机视觉和模式识别会议（CVPR）（2017）26. Shazeer ， N.Mirhoseini ， A. ， Maziarz ， K. ，戴维斯， A. ， Le ， Q. ，Hinton，G.Dean，J.：超大型神经网络：稀疏门控专家混合层。arXiv预印本arXiv：1701.06538（2017）27. Srivastava ， N. ，辛顿通用电气 Krizhevsky ， A. ，萨茨克弗岛Salakhutdinov，R.：Dropout：防止神经网络过拟合的简单方法。JournalofMac hi nelear ngrec h（JML R）15（1），192928. Srivastava，R.K.，Greff，K.，Schmidhub

下载后可阅读完整内容，剩余1页未读，立即下载