关系动态推理网络:一种新型的文件实现关系路由器模型以优化动态推理，降低计算成本

130 浏览量更新于2023-10-13 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4621RDI-Net：关系动态推理网络环宇王松元李世豪苏泽群秦锡利 * 浙江大学{huanyuhello，leizungjyun，shihaocs} @zju.edu.cnzequnqin@gmail.com，xilizju@zju.edu.cn*摘要动态推理网络以提高计算效率为目标，对给定的样本采用自适应的执行路径。流行的方法通常为每个卷积块分配路由器，并顺序地逐块执行决策，而不考虑动态推理期间的关系。本文从路由器和样本两个方面对动态推理的关系进行我们设计了一种新型的路由器称为关系路由器的模型路由器之间的关系，为一个给定的样本。原则上，当前关系路由器通过图卷积聚合先前路由器的上下文特征，并传播其skip(a) 流行方法skip跳过(b) 我们提出的关系路由器猫猫路由特征到后续特征，以远程方式对当前块此外，我们通过引入一个样本关系模块（SRM）来建模样本之间的关系，鼓励相关的样本沿着相关的执行路径进行。作为一个整体，我们称我们的方法的关系动态推理网络（RDI-Net）。在CIFAR- 10/100和ImageNet上的大量实验表明，RDI-Net实现了最先进的性能和计算成本降低。1. 介绍近年来，人们对动态推理网络的研究兴趣日益浓厚，它已被广泛应用于各种领域，例如，图像分类[40，51，48，1，41]，动作识别[21，33]和对象检测[55]。动态推理网络，旨在减少计算冗余，执行一个自适应路径为一个给定的样本在推理时间。典型的解决方案[40，44，51]是为每个卷积块分配路由器，以基于最后一个块的输出来决定是否应该执行当前块。本质上，用于动态推理的流行路由器以短程方式做出执行决策。由于路由器*通讯作者图1.关系路由器的图示。 (a)传统路由器（圆形）只考虑最后一个块（矩形）的输出特征。(b)该路由器通过一个关系图，聚集了先前路由器的特征，并以远程方式做出执行决策。原则上，路由器之间的距离越远，前一个路由器对当前路由器的影响就越小。仅将最后一个卷积块的输出作为输入、执行路径由各个路由器的逐块执行决定的序列组成。以这种方式，当后续路由器做出执行决定时，忽略先前路由器的特征。这里出现了一个问题：前面路由器的特征是否有利于后面路由器的决策？在本文中，我们设法明确地建模路由器之间的关系，使路由器作出决定，在一个远程的方式。我们提出了一种新的关系路由器，将当前路由器与其他路由器相关联：关系路由器聚集在前路由器的特征并将其特征传播到后续路由器。具体地，当前关系路由器采用路由器有向关系图，考虑一定量的先前路由器。在关系图中，节点代表关系路由器，并且有向边代表路由器对另一路由器的影响，其中路由器之间的距离越远，影响越小。基于关系图，目前的关系路由器特征传播4622执行图卷积[26]以聚合先前路由器的特征，并为当前卷积块做出执行决策，如图1所示。通过这种方式，路由器以远程方式做出决策。上面提到的关系路由器建立给定单个样本的路由器之间的关系。此外，不同样本的执行路径之间的关系直观的是，相关的样本应该沿着相关的执行路径进行。因此，我们提出将样本之间的相关性引入到它们的执行路径中，即使相关样本沿着相关的执行路径前进。然而，由于样本及其执行路径分布在不同的空间中[44]，因此根据样本之间的距离直接正则化执行路径是具有挑战性的。为了解决这个问题，我们提出了一种替代的解决方案，使执行路径的排名与样本之间的距离一致。具体地说，我们提出了一个样本关系模块（SRM），它测量样本之间的距离，并根据距离的排序将它们的执行路径正则化为三元组，即，距离越近，它们的执行路径越相似。作为一个整体，我们提出的方法，即相对动态推理网络（RDI-Net），模型之间的关系路由器和样本之间的关系。主要贡献概述如下：我们设计了一种新型的路由器称为关系路由器的动态推理聚合和传播的历史路由器的功能，使执行决策是在一个长距离的方式。针对不同的样本，对它们之间的关系进行建模，并对它们的执行路径进行规则化，以鼓励相关样本沿着相关的执行路径运行。大量的实验表明，该方法获得了最先进的结果w.r.t.性能和计算成本降低。2. 相关工作我们将相关方法分为三类：动态推理网络、早期预测网络和模型压缩方法。具体而言，动态推断网络和早期预测网络是典型的样本自适应方法。前者侧重于跳过部分单元，而后者的特点是多个出口。不同的是，模型压缩方法集中于减少网络的参数的数量，其对所有样本采用样本结构。动态推理网络。动态推理网络作为一种有前途的推理加速技术而出现[40，51，48，1，41]。这些方法中的大多数选择-表1. 符号动态网络的第nxn为Fn的输入，Fn−1Rn为第n个路由器特征提取器的输出unFn的离散执行决策vn un的连续松弛snFn的关系路由器的特征r正在考虑的γ路由器的衰减率影响下一个Xi训练批次中的第i个样本PiXi的执行路径D样本的距离矩阵M是矩阵D的排序索引通过专门设计的模块，例如，Conv-AIG中的门[40]，Skip- Net [51]和BlockDrop中的策略网络[48]。空间动态卷积在[42，53，37，50，8]中通过在特征图中掩蔽区域而提出还介绍了基于信道的动态路由方法[36，25]他们selec- tively下降通道根据输入样本。最近，面向性能的方法采用动态推理的思想。多核方法[4]选择不同的CNN内核。DR-ResNet [11]递归地利用卷积层。动态推理也适用于其他应用，例如动作识别[21，33]和对象检测[55]。与这些方法不同的是，这些方法侧重于使不同的任务的动态推理，我们探索动态推理的角度建模的路由器之间的关系和样本之间的。早期预测网络早期预测网络的特征在于多个出口。一旦在中间层满足标准，网络就退出。级联检测器[7，43]是在计算机视觉中利用这一思想的最早方法。最初，像[35，17，10，8，29]这样的方法考虑到多尺度输入，[32，18，52]引入了基于DenseNet [20]的早期退出分支。方法[9，49]不是绕过残差单元，而是生成决策以节省通道的计算成本。与我们的方法不同，这些技术通过不同的出口动态地执行我们还将RDI-Net与第4.2节中的这些方法进行了比较。模型压缩方法。提出了压缩方法，以减少大量模型的参数数量，而性能几乎没有受到影响。知识蒸馏[16，3，5，54]，低秩因子分解[22，31，23]和量化[13，47，34]已被广泛用于压缩神经网络的结构和修剪参数。此外，最近的研究倾向于修剪unimpor-···4623F∈{···}···∈··×一关系图GCN关系图GCN关系图GCN图2.考虑两个先前路由器（r= 2）的特征传播的图示。前两个关系路由器的路由器特征被聚合到当前路由器。例如，第n个关系路由器聚合了路由器特征sn-1和sn-2。静态过滤器或特征[28，15，30，45，19]来压缩或加速模型。它们通过检查权重或激活的大小来识别无效通道或层。最近，神经架构搜索也实现了低成本模型，包括 MnasNet [38] ， Proxyless-NAS [2] ，EfficientNet [39]和FbNet [46]。与这些工作相比，我们专注于动态地决定网络拓扑结构，根据不同的样本在推断时间。3. 方法在本节中，我们将详细说明我们的关系动态推理网络（RDI-Net）。首先，我们公式化的动态推理的问题。然后，我们从两个方面建立了动态推理的关系：利用关系路由器对路由器之间的关系进行了显式建模，并设计了样本关系模块（SRM）来对样本之间的关系进行建模。最后，我们说明了优化策略。为方便起见，表1总结了我们使用的符号。3.1. 问题公式化动态推理网络通常分配路由器以根据样本为每个卷积块做出执行决策形式上，给定一个N块网络，设Fn是第n个块，其中n1、，N. Fn的路由器对Fn做出二进制执行决策 un;un是 0（跳过块）或1（执行块）。然后，给定Fn的输入特征，用xn表示，输出特征为以这种方式，样本X的执行路径P由一系列孤立的执行决策（u1，u2，...，uN）组成。我们建议建立路由器之间的关系，在一个远程的方式作出决定。F n的路由器不仅考虑xn，还考虑r个前路由器的特征sn−1，，sn−r。然后，执行-ing决策un变为un：=Un（sn），其中sn=Rn（xn，sn−1，· · ·，sn−r）。（三）3.2. 路由器之间的关系建模在本节中，我们将设计关系路由器来对路由器之间的关系进行建模。关系路由器采用路由器关系图来表示路由器之间的关系。基于关系图，关系路由器执行图卷积以将先前路由器的特征聚合到当前路由器。最后，关系路由器利用聚集特性，对当前块做出执行决策路由关系图。为了模拟先前的路由器对后续的影响，我们建立了一个有向加权图，其中一个节点代表一个路由器和一个路由器对另一个路由器的影响的边缘。假设路由器对后续路由器的影响以恒定速率γ[0，1]衰减。那么，第m个路由器对第n个路由器的影响为γn−m。考虑到r个在前路由器，路由器方面的关系图可以表示为n+1 =un ·Fn（xn）+（1−un）·xn.（一）设A∈[0，1]（r+1）×（r+1），其中流行的动态推理网络的路由器以短距离的方式做出执行决策。例如，Fn的路由器输入Fn的输出特征。Am，n=γn−mn≥m，（4）0n

下载后可阅读完整内容，剩余1页未读，立即下载