网络调整：基于FLOP利用率的信道搜索

130 浏览量更新于2023-10-23 收藏 701KB PDF 举报

神经网络

计算效率

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10658网络调整：FLOP利用率引导的信道搜索陈正苏1、牛建伟1、谢凌希2、刘雪峰1、魏龙辉3、田琦4、北京航空航天大学1、约翰霍普金斯大学2、北京大学3、西安电子科技大学4danczs@buaa.edu.cn，niujianwei@buaa.edu.cn，198808xc@gmail.comxuefeng@buaa.edu.cnlonghuiwei@pku.edu.cn，wywqtian@gmail.com摘要近年来，自动设计计算效率高的神经网络受到了广泛的关注。前向搜索方法或者利用网络修剪或者利用网络结构搜索方法.本文提出了一种新的网络调整框架，它将网络精度作为FLOP的函数，从而在每种网络配置下，可以估计每一层的FLOP利用率（FUR），并利用它来决定是否增加或减少该层上的信道数请注意，FUR与非线性函数的梯度一样，仅在当前网络的小邻域中是准确的因此，我们设计了一个迭代机制，使初始网络经历了许多步骤，每个步骤都有一个小的“调整率”来控制网络的变化。整个搜索过程的计算开销是合理的，即，这与从头开始重新训练最终模型的过程可比较。在标准图像分类数据集和大范围的基础网络上的实验证明了该方法的有效性，其性能始终优于剪枝方法。该代码可从https：//github.com/danczs/NetworkAdjustment网站。1. 介绍在深度学习时代[24]，随着研究人员设计出越来越复杂的神经网络[23，35，14，19，50]对于各种计算机视觉问题[8，30]，找到对现实世界应用友好的高效架构变得越来越重要。深度神经网络的计算开销与其宽度密切相关，即。每层上的通道数。除了具有固定宽度配置的手动设计网络[14，35，38]之外，研究人员还探索了自动确定通道数量的方向代表性的方法包括网络修剪[25，28，21]和信道搜索[40，1]，这两种方法都成功地改善了计算性能。网络的效率（相对于开销的准确性）。然而，这两种方法都有一定的局限性。网络修剪方法通常从较宽的网络开始，并试图减少每层的信道数量这些方法大多对特定的效率标准不敏感（例如，FLOP），使得计算资源不总是被分配给最需要它的地方。另一方面，网络搜索技术的主要缺点是计算复杂性和搜索策略，限制了搜索空间，增加了搜索成本。本文提出了一种新的流水线网络调整算法，该算法从一个预先训练好的网络开始，以各层资源利用率为准则，同时对某些层进行信道添加和信道删减。网络平差在两个方面与现有方法不同。首先，我们可以估计每个单独的卷积层的状态，并同时优化信道数因此，我们的方法是非常有效的信道搜索。其次，我们用一种效率感知的策略搜索信道配置，通过这种策略我们可以找到计算有效的网络。该方法的顶层设计是一个迭代过程，每次迭代都包括训练给定的网络，计算每层的利用率，并相应地调整信道数。整个过程的计算开销通常与从头开始训练初始网络的计算开销相当，但我们可以观察到整个迭代过程中计算效率的逐步提高。作为一个特殊的例子，我们的目标是优化深度网络的 FLOP （浮点运算），并为此计算 FLOP 利用率（FUR）。 FUR定义在网络的每一层上，测量通过增加该层上的单位FLOP可以获得的准确度增益。为了计算它，我们假设网络精度是 FLOPs 的函数，并且FUR，像非线性函数的梯度一样，可以在每个状态的小邻域中以可接受的误差进行估计。为了模拟少量的FLOPs变化，我们提出了一个随机的106590列车该方法分别丢弃每层中具有小丢弃概率（也称为SpatialDropout [41]）的通道，并将FUR近似为精度下降与FLOPs下降的比率，假设SpatialDropout重新移动等效数量（可以是浮点数）的通道。注意，FUR计算仅涉及网络推理，因此可以有效地执行。我们根据设计有效网的标准基准来评价网平差.在CIFAR- 100和ImageNet数据集上，我们的方法始终提高了一些流行网络骨干的准确性，FLOP几乎没有变化。与现有的结构化剪枝或信道搜索算法相比，在相同的FLOP下，网络调整算法在识别精度方面也具有优势。本文的其余部分组织如下。第2节简要回顾了以前的文献，第3节阐述了网络平差方法。实验结果见第4节，结论见第5节。另一条研究路线在于通道修剪，其旨在通过移除对识别贡献不大的通道的一部分来加速网络[25，28，21]。修剪的典型管道从一个经过良好训练的网络开始，在这个网络上使用各种标准来衡量神经元[13，12]，通道[25，28]或层[44，43]的重要性。之后，不太重要的单元被删除，网络得到微调[25]。最近，研究人员开始重新思考网络修剪的价值或工作机制[29，7]，这导致了修剪方法的新设计[48，31]。3. 我们的方法3.1. 问题给定具有L个卷积层的网络N，c=（c1，c2，.，cL）和FLOPs 函数 FLOPs （ c ），目标是通过用预定义的FLOPsF0：2. 相关工作c=arg max AccCVal（c，W）（1）每层中的通道数量是设计深度神经网络的重要因素。研究人员S. t. FLOPs（c）=F，W= arg maxAccW（c，W）从经验方法开始。一个流行的例子是VG- GNet [35]，它在每次空间分辨率降低时增加通道数。这一策略之后是大量的工作与手册[46，50，38，37]或自动架构设计[50，33，27，32]。还有一些方法可以随着层索引逐渐增加通道数量，例如PyramidNet [11]和DenseNet [19]。为了减少计算负担，研究人员提出了一种然而，这样的工作需要相当大的人工努力，并且所设计的架构被认为在许多方面是不完善的。为了探索更多的可能性，引入了神经结构搜索（NAS）的想法[50，45]，因此每层的通道数量都是由一般算法指导的自动算法确定的，例如。网络的计算效率。一个典型的例子是优化RNN控制器，以控制来自大搜索空间的采样架构的策略[40，18]。然而，计算负担在很大程度上限制了这种方法的搜索空间。为了加速，研究人员必须减少每层中使用的候选数量[1]，或者训练一个宽网络，并从每层中采样通道，以模拟具有不同宽度的网络的行为[10，3，36]。这两种策略都给网络带来了不准确性，导致搜索结果不理想可微方法[27，2，47]尚未应用于信道搜索。其中W是网络的参数，F0是网络的参数。初始网络的故障。 Acctrain和Accval分别表示训练和验证准确度。问题是信道数c是网络的离散整数，不能直接用优化算法求解。为了解决c类基于梯度的优化算法，我们因此提出了一种方法来估计它们的梯度，这将在第3.3节中详细介绍。本文将估算的梯度称为FLOPs利用率或FLOPs利用效率。c的梯度一般是正的，因为大多数网络将从增加通道中受益。为了确保FLOP（c）=F0，我们增加具有较高FUR的层中的通道，并从具有较低FUR的层中减少相同量的FLOP。信道调整将像基于梯度的优化算法一样迭代地执行，直到FUR在每一层中相似。3.2. 管线：网络调整我们的方法旨在通过更准确地考虑效率来在搜索期间，迭代地调整信道编号每个迭代中有三个步骤：网络训练、FUR估计和信道调整，如图1所示。首先，我们在训练集上优化当前网络。这个过程从零开始，但是epoch的数量可以明显小于常规的完整训练过程，因为我们只需要确定每层的FLOP利用效率，10660ΣL图1.我们的频道号搜索方法的框架（最佳颜色）。最左边显示了原始网络，它经历了一个迭代过程。在每一轮中，当前网络从头开始训练，之后我们通过对每一层单独执行SpatialDropout [41]来估计每一层的FUR（以不同颜色标记）较高的条表示较高的FUR。之后，我们选择具有最高FUR的层（在本示例中只有1个）并增加其宽度，并对具有最低FUR的层执行相反的操作该迭代继续直到收敛，或者已经达到预定义的迭代次数。并不一定意味着网络已经达到高精度。其次，我们用下一部分描述的方法计算每一层的FLOP利用率。该过程仅涉及对验证集的基于采样的推断，因此相对较快。第三，也是最后，我们使用预定义的调整率（类似于学习率）来增加具有排名靠前的FUR的几个层的通道数量，并减少具有排名靠后的FUR的几个层的数量。每次迭代后，整个网络的FLOP必须保持接近原始数量一个典型的搜索过程涉及几个（例如，，10）迭代，或者如果验证集上的准确度饱和，则可以终止。伪代码总结在算法1中。验证集通常从原始训练集中分离出来。"Scale“功能搜索后，将在完整的训练集上训练具有配置的网络，并在测试集上进行评估。•与以前工作的区别在继续技术部分之前，我们详细说明了我们的方法和两个家族的先前工作之间的差异。本文方法与网络剪枝方法的区别主要在于两个方面.首先，修剪方法主要集中在寻找不太重要的通道，并使用绝对性能下降[48]或重建损失[21]对其进行评估。相比之下，我们的方法将层中的通道作为一个整体来考虑，并使用FUR对层进行评估。其次，我们的方法调整通道配置精细和迭代，而大多数修剪方法从预训练的宽模型中获得修剪模型。正确地。我们的方法也不同于频道搜索方法。尽管许多NAS系统迭代地更新通道编号[50，40]，但它们的方法通常需要数百个GPU日才能收敛。这是因为他们的搜索系统只能根据网络性能更新频道号。在我们的方法中，我们评估每一层中的FUR以指导搜索过程，并且搜索系统可以在几次迭代（例如，，10）。此外，受存储器和计算资源的限制，大多数NAS系统仅从少数通道号候选者中搜索配置。然而，我们的方法，可以学习的通道配置的自由度增加3.3. FLOPs利用率在上述之后，层的FLOP利用率（FUR）被定义为单位量的FLOP对网络精度的贡献，即，、Accval（c，W 为了计算这个量，我们使用通道数c作为中间变量，并计算两个量。第一个量是Accval（c，W）相对于c的梯度，记为ΔAccval（c，W）/ΔAc。特别地，该矢量中的元素，ΔAccval（c，Wc）/Δcl，指示单位通道对最终精度的贡献。第二个量涉及FLOP（c），我们使用另一个向量f，它与c具有相同的维度，每个元素fl表示第l层中的FLOP。我们有FLOP（c）=l=1fl+const，其中常数是由架构拓扑确定的-10。为了一个卷积-在第l层中，fl与空间分辨率、输入和输出通道数以及第l层的卷积核大小成比例类似地，计算单位信道对重构的贡献原始网络从头开始训练训练的网络毛皮估计FURs in搜索图层渠道调整调整网络最终架构空间丢弃下一次搜索迭代层1 层2 层3毛皮10661顶部−算法1网络平差输入：训练集Dtrain，验证集Dval，初始信道配置c（1），调整层K，调整速率rA，最大迭代次数T;输出：调整通道配置C语言;1：对于t = 1，2，. - 是的- 是的，T do第二章：建立一个网络N，其中c（t）;3：在训练集Dtrain上训练网络N;（吨）4：测试网络N并获得精度Accval在验证集Dval上;5：计算valida上N的每一层的FUR-丢弃分数通道以保证所有层中丢弃的FLOP相同。3.4. 走向略有不同的网络FUR类似于网络性能相对于FLOP的梯度，并且很可能仅是准确的对于目前的网络。因此，与基于梯度的优化方法一样，我们在每次迭代中仅略微调整通道数，以便FUR仍然足够准确。具体来说，我们增加了顶部k层的通道-作用集：F（t）（吨）（吨）（吨）按FUR排名，减少底部的渠道-=（FUR1 ，FUR2 、...、FURL）;6：对F（t）中的元素进行排序，并获得顶部索引集，I（t），F（t）中有K个最大元素，（吨）k层。超参数k将在搜索过程中衰减。“调整率”类似于基于梯度的设置Ibot电话+1F（t）中有K个最小元素;不在迭代中的通道它不应该太大（我们7：c=c;（吨）在大多数实验中使用0.1大调整率8：foriinItopdo（t+1）（吨）（一）可能会使搜索系统不稳定。9：ci=舍入（ci+rA·ci）;当更新通道配置时，10：结束（吨）每一层都会改变。为了获得新网络的新FUR-11：foriinIbotdo（t+1）（t）12：c=舍入（cr·c（1））;工作，我们将从头开始重新训练新的网络。由于在验证集上评估经过训练的网络是相对的，我13：结束IAI非常快，这是我们框架14：c（t+1）=Scale（c（t+1））;15：结束（t）16：t= arg max（Acc ）;正在训练一个网络。在每一次搜索迭代中，都应该训练一个对于像在IM上训练大模型这样的任务ageNet，这种策略变得不切实际。有两17：c不=c（t）;Val可以解决这个问题的方法：数据集采样[45]返回：c.源使用。利用这些量，第1层的FUR被定义为：减少训练次数[40]。在我们的实验中，观察到减少训练时期对FUR估计的影响小于当训练更少的时期时，即使网络性能相对较低，FUR排名仍然可以被揭示。因此，我们在ImageNet上训练我们的模型大约10FURl=Accval（c，W浮点数（c）=Accval（c，W（c）/（c）/（c）l（2）占整个时期的百分比。通过这种方式，在ImageNet上搜索通道号的时间与在ImageNet上训练模型的时间相当。这里我们省略了网络拓扑的符号N，为了简单起见。在写Δccval（c，Wd）/Δcl和ΔFLOPs（c）/Δcl时，我们假设 cl（每层中的通道数量可以取连续（非整数）值。为了模拟这种情况，我们引入了一种概率机制，该机制涉及将SpatialDropout [41]单独添加到每个层，并观察网络精度如何受到此操作的影响。SpatialDropout是一种正则化方法，它以一定的概率随机丢弃信道据我们所知，这是第一次将SpatialDropout用于信道评估。为了减少计算FUR的系统误差，我们在每一层中丢弃相同的FLOP。换句话说，FLOP的变化对于所有层都是相同的，由此我们可以直接以精度下降对FUR进行排名。由于数据丢失概率是连续的，我们可以模拟3.5. 实现细节SpatialDropout和网络培训。如上所述，我们通过随机丢弃一些通道（SpatialDropout）来评估FUR。为了使评估合理化，我们应该减少意外的变化（例如：数据分布的变化），从而使测试精度能够揭示信道变化所造成的真实影响。一般来说，丢弃某些信道不会使网络性能急剧下降。网络精度通常随着丢弃概率的增加而平滑地降低。事实上，即使丢弃残差块中的整个层也不会禁用残差网络[20，42]。此外，我们使用一些技巧来使习惯于数据的神经层下降。首先，在网络训练过程中使用空间丢弃。由于网络是用10662conv0输出表1. CIFAR-100上我们的方法和其他竞争对手的方法之间的准确性（%）比较。这里，标记“imp”表示我们自己的实现。图例：LC CL [5]、SFP [15]、FPGM [16]、TAS [6]。FLOPsD方法FT KD累积（%）（男）身份conv输入conv身份身份共享参数图2.使用零填充时的等效结构。将零填充到具有较少通道的路径相当于向残差块引入新路径。SpatialDropout，在测试过程中对SpatialDropout不敏感。其次，在SpatialDropout之后，像标准Dropout一样，数据分布是平衡的。例如，如果丢弃10%的通道，则剩余的通道将按10/9缩放。最后，我们减少BN和数据丢失之间的不协调。BN和dropout之间存在不和谐[26]。证明了高斯丢弃和在BN之后使用丢弃可以解决这个问题[26]。神经层的零填充。对于VGGNets这样的单路径网络，每层的通道数可以自由设置。对于像ResNets这样的多路径网络，在设置通道号时有一些限制以残差块为例，由于卷积的输出应加到残差捷径上，因此这两条路径的通道数应相同。为了解决这个问题，我们简单地将零填充到具有较少通道的路径。零填充不仅使我们能够在多径网络中自由地设置信道数，而且还隐含地引入了一些网络结构。如图2所示，在残差块中，向快捷方式填充零相当于在输入和输出之间添加卷积路径[11]。向卷积输出填充零相当于连接到输出的额外快捷方式。因此，用零填充搜索多径网络的信道号也是隐式地搜索网络结构。4. 实验4.1. 关于CIFAR 100我们在CIFAR-100上测试我们的方法，因为CIFAR-100上的结果比CIFAR-10上的结果更稳定。CIFAR-100是由[22]提出的公开数据集。该数据集由32× 32彩色自然图像组成20年龄在100个班级。训练集中有50，000张图像，测试集中有10，000张图像。我们从训练集中随机抽取5，000张图像作为验证集，以搜索通道号。然后，我们在整个训练集上重新训练搜索到的网络，并在测试集上发布结果。在培训期间按照惯例进行数据扩充[14，49]。在搜索和测试过程中，网络被训练了 200个epoch，SpatialDropout用于卷积层。使用余弦退火，学习率从0.15下降•与网络修剪的我们的方法和一些修剪方法的结果如表1所示。为了将我们的方法与prun- ing方法进行比较，我们首先将原始网络缩小到可比较的FLOP水平，然后基于瘦网络搜索通道配置。对于网络测试，修剪模型通常身份convconv输入convconv身份convconcatenateconv输入conv分裂输入concatenate0输出输出输出LCCL64.66（-2.87）27.3SFP64.37（-3.25）24.3FPGM66.86（-0.76）24.3TASC68.90（+0.21）22.4原创（imp）69.5240.1原始0.75×65.9022.7搜索0.75×69.04（-0.48）22.4搜索0.75×C70.03（+0.51）22.4LCCL67.39（-2.69）43.2SFP68.37（-1.40）40.3FPGM68.52（-1.25）40.3TAS68.95（-1.66）42.5TASC69.70（-0.91）42.532TASC72.41（+1.80）42.5原创（imp）72.5768.4原始0.75×69.6838.5搜索0.75×71.93（-0.64）42.210663表2.ResNet-20的精度（在CIFAR-100上）和FLOP，在整个网络调整的迭代过程迭代0（原始网络）12345678910准确度（%）69.5270.1270.2470.3470.4870.9471.0971.5571.4771.3671.57FLOPs（M）40.140.539.840.240.140.340.440.340.340.440.2图3. CIFAR-100上整个网络调整过程（10轮）前后的ResNet-20配置。红色和蓝色分别表示通道数增加和减少。用原始模型的权重初始化（精细-表3. 不同网络的搜索结果调整），这通常比从头开始训练更好。一些方法通过知识蒸馏转移原始模型中的知识[17]，这通常可以显着改善修剪网络。由于我们的目标是寻找更好的信道配置，我们的模型主要是通过从头开始训练来我们还报告了知识蒸馏的结果，以便进行公平的比较。表1中的方法有不同的基线。因此，主要标准是修剪网络与其原始网络相比的准确性下降。可以看出，我们搜索的模型在准确性下降方面优于大多数修剪方法。对于ResNet-32，尽管具有知识蒸馏的TAS模型比我们的模型表现更好，但我们的搜索网络在从头开始训练时优于TAS 模型，这表明我们的通道配置更好。对于ResNet-110，我们从头开始训练的搜索模型甚至比具有知识蒸馏的TAS模型表现更好。•诊断性研究CIFAR-100的不同迭代。频道编号-准确度（%）FLOPs（男）搜索71.53（+4.95）40.1ResNet-20在CIFAR-100上的ber搜索结果显示在表2.可以看出，网络的性能在前七次迭代中得到了一致的改善。在-因此性能增益变得饱和。由于我们已经平衡了不同层中FLOP的增加和减少，因此网络的FLOP几乎没有变化。注意，网络的参数增加了。这表明网络正在探索不受约束的资源，以提高其性能。在[4]中观察到类似的现象我们认为参数和性能的交换可以成为网络设计的一个新方向。因为对于大多数当前设备，FLOP而不是PA-参数是瓶颈。搜索的建筑在ResNet-20中搜索的通道配置与原始网络在网络级和子结构级都不同。原始ResNet-20和搜索到的ResNet- 20的结构如图3所示。在网络级，更多的通道被分配给深层。它表明，这些层是更有效地利用FLOP。在子结构层次上，对于靠近内部结构的层图像FCconv，3x3，64128conv，3x3，64112conv，3x3，6473conv，3x3，6493conv，3x3，6466conv，3x3，6478conv，3x3，3229conv，3x3，3229conv，3x3，3224conv，3x3，3228conv，3x3，3223conv，3x3，3226conv，3x3，1616conv，3x3，169conv，3x3，1617conv，3x3，166conv，3x3，1617conv，3x3，166conv，3x3，16ResNet-20原件69.5240.1搜索71.57（+2.05）40.2原始72.5768.4ResNet-32搜索74.14（+1.57）68.2原始74.90125ResNet-56搜索76.15（+1.25）126ResNet-110原件75.68252搜索76.98（+1.30）254ResNet-202.0×原始75.60160搜索76.87（+1.27）161ResNet-204.0×原始78.84642搜索79.51（+0.67）641原始65.6240.1Plain-20搜索68.89（+3.27）40.110664发现了更有效的残差块结构。在第一残余块中，第一层的输出声道数目从16减少到6。之后，信道数通过第二卷积层增加到17。虽然与原始块相比，块的输出通道数略有增加，但残差块的FLOP急剧降低。在这个残差块中，减少第一个卷积的输出将同时减少两个卷积层的FLOP。减少第二个卷积的输出可能只会减少第二层的FLOP，因为输出将被添加到剩余的connec和灰和下面的层的FLOP不会改变，如果其通道少于剩余的连接。我们的方法是敏感的FLOP利用，因此，可以找到这种实验结果还表明，该方法不仅可以在网络级上重置通道数，而且可以在神经网络中找到更有效的子结构。没有FUR。我们通过搜索ResNet-20来研究FUR。这意味着在评估通道时，我们随机丢弃每个层中固定比例的通道，并根据准确度下降而不是FUR对层进行排名。在此设置下，搜索到的ResNet-20达到71.06%，仍然优于原始网络（69.52%），但比FUR搜索的网络（71.57%）差。在子结构级，固定比率网络无法学习图3所示的不同的频道编号初始化。为了测试初始化通道数的影响，我们构建了一个20层的PyramidNet [11]。该网络的通道线性增加，FLOP类似于ResNet-20。在相同的FLOP下，ResNet-20的表现比PyramidNet-20高出2.94%。从FLOP的角度来看，PyramidNet-20是20层剩余网络的通道配置的糟糕初始化。在信道搜索之后，两个搜索到的网络实现了类似的性能，如表3所结果表明，该方法可以克服信道数初始化不好的问题。不同的深度，不同的宽度，不同的结构。我们在不同宽度和深度的ResNet上测试我们的模型。当增加深度时，我们的方法仍然很好。ResNet-32、56和110的性能比原始网络高出1%以上。对于这些深度网络，更多的 FLOP 被分配给最后几层，如 ResNet-20 。在ResNet-56和110中，“压缩-扩展”结构不仅在第一阶段学习，而且在最后的网络阶段学习。ResNet-20 2.0×和ResNet-20 4.0×是从ResNet-20扩展的2.0和4.0网络。这些广泛的网络也可以从频道调整中受益。Plain-20是ResNet-20的非残留版本。的在Plain-20上的搜索结果比原网络的搜索结果高出3.27%。DenseNet-40的搜索通道配置与ResNet-20不同更多的FLOP被分配给第28 - 36层，而不是最后几层。这表明这些层中的FUR高于原始DenseNet-40的其他层。通道配置传输。为了评估搜索到的通道配置的通用性，通过将通道加倍，将ResNet-20的搜索到的配置转移到ResNet-20 2.0×。传递模型具有与ResNet-20 2.0×相同的FLOP，在CIFAR-100上的准确率为76.34%。虽然转移模型的性能优于原始模型，但它的性能不如直接搜索模型（76.87%）。这表明在不同宽度的网络之间传递通道配置时存在偏差4.2. ImageNet上的结果ILSVRC 2012是ImageNet数据库的子集[34]。训练集、验证集和测试集分别有1.3M、50K和150K的图像。这些图像分为1K个类别。我们从训练集中随机抽取50K张图像作为搜索验证集。然后，我们在整个训练集上重新训练搜索到的网络，并在原始验证集上发布结果。使用[39]中的方法增强图像。在ImageNet上，网络在每次迭代中训练10个epoch，第一个卷积层的通道数在搜索过程中是固定的。在重新训练过程中，ResNet-18在完整的训练集上训练90个epoch。利用余弦退火，学习率从0.1衰减到0.001。MnasNet被训练了500个epoch，学习率从0.075下降到0.0001。首先，我们将我们的结果与网络修剪产生的结果进行比较。对于ResNet-18，搜索的模型比原始模型高出0.91%，前1名准确度如表4所示。为了将我们的方法与修剪方法进行比较，我们将ResNet-18中的通道数量缩放0.8倍，并基于它搜索通道配置。ResNet-18 0.8 ×的top-1精度在精度下降方面优于其他修剪方法，并且通过知识蒸馏，我们的模型表现得更好。原始和搜索的ResNet-18 0.8×如图4所示。可以看出，第一阶段还学习了此外，网络中的下采样层被分配了更多的通道，这表明下采样层与其他层不同，应该进行专门设计。我们还在图5中显示了调整过程中某些层的FUR，从中可以观察到FUR如何在开始时彼此不同，并在调整过程中逐渐变得相似。10665表4.ImageNet上我们的方法和其他竞争对手之间的前1准确率（%）比较在这里，标记图例：LCCL [5]、SFP [15]、FPGM[16]、TAS [6]、AutoSlim [48]。ResNet-18下采样层图4.ResNet-180.8×在ImageNet上的整个网络调整过程（10轮）前后的配置红色和蓝色分别表示通道数增加和减少。0.350.30.250.20.150.10.050层1层5层7层9层11层14层15层160 2 4 6 8搜索迭代层，这表明可以进一步改进当前的下采样结构。5. 结论本文提出了一种新的流水线--网络调整，用于设计高效的网络结构.我们的方法的动机是测量FLOP如何在预训练模型中被利用的想法为此，我们认为网络性能作为FLOPs的函数，其国际图5.ResNet-18中卷积层的FUR 0. 8×。我们对16层中的8层进行采样，以获得更好的可视化效果。其次，我们调整了MnasNet [40]，这是一种基于MobileNetV2的搜索网络架构。通过改变，荷兰荷兰的通道配置，我们提高了网络性能与相同的FLOP，如表4所示。这表明，我们的方法可以找到更有效的通道配置相比，NAS方法在有限的我们的方法在参数较少的情况下略优于AutoSlim。与ResNet-18 0.8×一样，搜索到的MnasNet也会为下采样分配更多的FLOP对所有上述内容进行分级产生迭代流水线，在相同计算量下，该迭代流水线在识别精度方面优于现有技术的网络修剪方法本文的研究提出了网络精度与速度联合优化的新观点，并为网络平差提供了初步的解决方案。在这方面需要作出更多的努力。鸣谢本工作得到国家重点研发计划（ 2017YFB1301100 ）、国家自然科学基金（ 61772060 ， U1536107 ， 61472024 ， 61572060 ，61976012，61602024）、CERNET创新项目（NGII20160316）。图像FCconv，3x3，409833conv，3x3，409637conv，3x3，409283conv，3x3，409673conv，3x3，204174conv，3x3，204184conv，3x3，204162conv，3x3，204366conv，3x3，10289conv，3x3，10284conv，3x3，10296conv，3x3，102103conv，3x3，5162conv，3x3，5116conv，3x3，5153conv，3x3，5126conv，7x7，51毛皮网络方法FTKD前1名（%）前5名（%）FLOPs（M）参数（M）LCCL66.33（-3.65）86.94（-2.29）1.19E3-SFP67.10（-3.18）87.78（-1.85）1.06E3-FPGMC68.41（-1.87）88.48（-1.15）1.06E3-TASC69.15（-1.5）89.19（-0.68）1.21E3-原创（imp）70.3189.451.81E311.7搜索71.22（+0.91）90.07（+0.62）1.81E318.5搜索0.8×69.41（-0.90）88.71（-0.74）1.17E311.810666引用[1] 韩才、朱立庚、宋涵。Proxylessnas：在目标任务和硬件上直接进行神经结构搜索。arXiv预印本arXiv：1812.00332，2018。[2] 辰昕、邪灵犀、君无邪、齐天。渐进式差异化体系结构搜索：缩小搜索和评价之间的深度差距。arXiv预印本arXiv：1904.12760，2019。[3] Yukang Chen ，Tong Yang ，Xiangyu Zhang，GaofengMeng，Chunhong Pan，and Jian Sun.Detnas：对象检测上的arXiv预印本arXiv：1903.10979，2019。[4] Xiangxiang Chu ， Bo Zhang ， Ruijun Xu ， and JixiangLi.Fair- nas：重新思考权重共享神经架构搜索的评估公平性。arXiv预印本arXiv：1907.01845，2019。[5] 董宣义、黄俊石、杨毅、严水城。多即少：一个更复杂的网络，具有更低的推理复杂性。在IEEE计算机视觉和模式识别会议论文集，第5840- 5848页[6] 董轩逸和杨毅。经由可变换架构搜索的网络修剪。arXiv预印本arXiv：1905.09717，2019。[7] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假设：寻找稀疏的、可训练的神经网络。 arXiv 预印本 arXiv ：1803.03635，2018。[8] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[9] Ariel Gordon、Elad Eban、Ofir Nachum、Bo Chen、HaoWu、Tien-Ju Yang和Edward Choi。Morphnet：深度网络的快速简单资源约束结构学习在IEEE计算机视觉和模式识别会议论文集，第1586-1595页[10] Zichao Guo ， Xiangyu Zhang ， Haoyuan Mu ， WenHeng，Zechun Liu，Yichen Wei，and Jian Sun.均匀采样单路径单次神经结构搜索 arXiv 预印本 arXiv ：1904.00420，2019。[11] Dongyoon Han，Jiwhan Kim和Junmo Kim深层金字塔残余网络。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第5927-5935页[12] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。[13] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统的进展，第1135-1143页，2015年[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页[15] 杨和、康国良、董宣义、傅彦伟、杨毅。用于加速深度卷积神经网络的软滤波器修剪arXiv预印本arXiv：1808.06866，2018。[16] 杨鹤、刘平、王紫薇、胡芷兰、易阳。通过几何中值进行滤波器修剪，用于深度卷积神经网络加速。在IEEE计算机视觉和模式识别会议论文集，第4340-4349页[17] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[18] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，et al.搜索mobilenetv 3. arXiv预印本arXiv：1905.02244，2019。[19] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。CVPR，第1卷，第3页，2017。[20] Gao Huang，Yu Sun，Zhuang Liu，Daniel Sedra，andKilian Q Weinberger.深度随机的深度网络。欧洲计算机视觉会议，第646-661页。施普林格，2016年。[21] 黄泽浩和王乃艳。深度神经网络的数据驱动稀疏结构选择在欧洲计算机视觉会议（ECCV）的会议记录中，第304-320页[22] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。2009年[23] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[24] Yann LeCun，Yoshua Bengio，and Geoffrey Hinton.深度学习nature，521（7553）：436[25] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv：1608.08710，2016。[26] 李翔，陈硕，胡小林，杨健。用方差移位法理解脱落与批量正态化之间的不协调在IEEE计算机视觉和模式识别会议论文集，第2682-2690页[27] 柳寒笑，凯

下载后可阅读完整内容，剩余1页未读，立即下载