没有合适的资源?快使用搜索试试~ 我知道了~
588原产地成本DBB成本DyRep成本DyRep ACC××××DyRep:具有动态重新参数化的黄涛1、2单友1* 张博涵3杜宇轩2 王飞4陈倩1常旭21SenseTime研究2悉尼大学工程学院计算机科学学院3马萨诸塞大学阿默斯特分校信息与计算机科学学院4中国科学技术大学摘要结构重新参数化(Rep)方法在简单的VGG风格网络上实现了显着的改进。尽管流行,当前Rep方法只是将所有操作重新参数化到增强网络中,包括那些很少有助于模型性能的操作因此,要付出的代价是操纵这些不必要的事件的昂贵的计算开销。为了消除上述警告 , 我 们 的 目 标 是 通 过 设 计 动 态 重 新 参 数 化(DyRep)方法以最小的成本引导训练,该方法将Rep技术编码到动态演变网络结构的训练过程中。具体地说,我们的建议自适应地找到的操作,在网络中的损失贡献最大,并适用于代表,以提高他们的代表能力。此外,为了抑制Rep引入的噪声和冗余操作,我们设计了用于更紧凑的重新参数化的去参数化技术。在这方面,DyRep比Rep更有效,因为它平滑地演化给定的网络,而不是构建过度参数化的网络。实验结果证明了我们的有效性,例如,DyRep将ResNet-18的准确性提高了2。在ImageNet上减少了04%,在基线上减少了22%的代码可在:https://github.com/hunto/DyRep.1. 介绍自动特征工程的出现推动了深度卷积神经网络(CNN)在大量计算机视觉任务中取得了显著的成功,例如图像分类[8,9,29,34],对象检测[5,16,19]和语义分割[7,33]。在追求比早期原型(如VGG[20]和ResNet [8])更好的性能的道路上,当前的深度学习模型[10,15,29]通常包含数十亿个*通讯地址:Shan You。14 7812761087467242700ResNet-18 ResNet-34 ResNet-50图1. ResNet在ImageNet数据集上使用origin,DBB和我们的DyRep模型的准确性和训练成本。我们的DyRep获得了最高的准确率,但与DBB相比,训练成本要小得多。参数和最重要的精心定制的架构和操作(例如,,SENet [10]中的通道注意力和Inception [23]中的分支级联)。从这个角度来看,我们可能会遇到一个两难的问题,具有良好性能的学习模型应该是繁重的和计算密集的,这极难部署并且具有高推理时间。为此,一个关键的问题是:如何提高神经网络的能力,而不招致昂贵的计算开销和高推理复杂性?结构重新参数化技术(Rep)及其变体[2,3,32]在训练中构建增强模型并在推理中将其转换回原始模型,已成为解决上述问题的主要策略。具体地说,这些方法通过在训练中使用多个分支扩展原始卷积运算来增强模型的代表性能力,然后将它们融合到一个卷积中以进行有效的推断而不降低精度。代表性实例包括RepVGG [3]和DBB [2]。前者通过将3 3Conv扩展为三个分支的积累来增强VGG式网络(即,3 3Conv、11Conv和残余连接),并在推理时间中将其重新参数化回原始3 3Conv后者通过富集来改善CNN培训成本(GPU天)ACC(%)589部署Conv平均池批量归一化图2.动态重新参数化(DyRep)概述。列车(左侧面板):DyRep从一个简单的模型出发,通过将操作扩展到多分支块或剪切冗余分支,动态调整训练中的网络结构。推理(右面板):将训练好的模型转换为原始模型进行推理。扩展分支的类型(即,引入重新参数化的6个等价变换),并将它们统一为适用于各种CNN(例如ResNet[8]和MobileNet [9])的通用构建块。尽管如此,当前Rep及其变体的一个常见警告是将所有分支粗略地重新参数化为增强网络,其中大部分分支可能很少增强模型换句话说,在所有层中直接此外,这些冗余操作将导致昂贵的或甚至负担不起的存储器和计算成本,因为存储器消耗随着分支的数量线性增加。为了克服上述问题,我们提出了一种新的重新参数化方法,称为DyRep,以在训练期间动态演化网络结构,并在推理中重新覆盖到原始网络,如图2所示。特别是,我们的建议背后的关键概念是自适应地寻找对性能(或损失作为其代理)贡献最大的操作,而不是对所有操作进行通用的重新参数化,这确保了增强网络的有效性和准确性。在DyRep中,具有最大贡献的操作相当于具有最显著性得分的操作。作为我们的第一个技术贡献,这种措施部分地受到基于梯度的修剪方法的启发,该方法利用梯度w.r.t.。计算滤波器的显著性分数的损失由于现有的Rep方法被设计用于在训练结束时将模型转换为窄模型,因此没有即插即用技术来将一个卷积扩展到多个分支,同时保持训练稳定。为了实现训练感知的Rep,我们首先在这种情况下扩展Rep技术,然后提出通过初始化小规模的额外分支来稳定训练批量归一化(BN)层中的因子。通过这样做,额外的分支将从次要的重要性开始,对原始权重进行微小的改变,从而获得平滑的结构演化。我们的第二个关键技术贡献是设计了一种去参数化方法,以挖掘和丢弃Rep中出现的冗余操作。由于我们以小的比例因子初始化新添加的分支中的BN层,可以将其视为打开或切断一个分支的松弛门。也就是说,如果一个分支与其他分支相比具有显著的小规模值,则它将对输出做出较小的贡献。因此,我们可以丢弃它并将其权重吸收到其他分支以提高效率。具体来说,如果分支的比例因子为零,则其操作不会影响输出。我们的主要贡献总结如下。• 我们提出了DyRep,一个动态的重新参数化的方法,适用于培训,旨在以最小的开销,以提高代表的性能通过在训练过程中动态识别重要操作,我们的建议实现了显着的效率和性能的改善。• 我们的DyRep对目标检测等下游任务更友好与以往的Rep和NAS方法需要首先在图像分类任务上训练网络,然后将其转移到下游任务不同,DyRep可以直接适应下游任务中的这个属性大大降低了计算成本。• 对 图像 分类 及 其下 游任 务 的大 量实 验 表明 ,DyRep优于其他Rep方法的准确性和运行时成本的措施。推理输入……输出推理模型K×KK×K输入使用DynamicRep输入inputting输入K×K…………扩大1×11×1切割1×1扩割K×KK×K…1×1K×K1×1K×KAVGK×K…………K×K输出输出输出输出原始模型最终模型K×KK×KK×KK×K590∈∈∈×ו×≤ ≤ו××× ××·2. 相关工作2.1. 网络态射网络态射[4,26,27]旨在将一层变形为多层或将多层丢弃为一层,同时保留原始网络的功能。这些方法在不同的训练阶段动态调整计算工作量,即。从浅网开始,在训练过程中逐渐增加其深度。然而,由于网络的增长将改变其产出,因此需要额外的培训战略(例如:模仿学习)以最小化新网络和原始网络之间的重构误差结果,各种初始化方法,例如,身份初始化[27]、随机初始化[28]和部分训练初始化[13]已经被提出来保证有效的训练。在本文中,我们实现了网络形态与负的重建误差使用Rep;因此,添加的操作可以被随机初始化,而无需额外的训练步骤,变形后的网络可以转换回原始网络进行有效的推理。2.2. 神经架构搜索神经架构搜索(NAS)方法[17,21,22,31,35]通过自动架构设计实现了显着的性能改进。然而,它们在训练中间体系结构时是计算上昂贵的。虽然一些一次性NAS方法[17,31]被提出来通过将整个搜索空间视为超网并对其进行一次训练来降低运行时成本,但它仍然存在高内存消耗和超网训练的额外成本最近,RepNAS [32]被提议通过利用可扩展的NAS方法[17]来搜索更好的Rep架构。通过这种方式,RepNAS可以直接将训练好的超网转换为使用Rep的最终网络,而无需再次训练搜索到的网络。然而,RepNAS仍然遭受昂贵的计算开销,因为它的训练与整个搜索空间(即,所有Rep分支机构都配备了网络在这项工作中,而不是利用NAS追求一个固定的Rep结构,DyRep假设最佳结构在不同的训练阶段(时期)变化,并旨在以最小的成本引导训练。因此,DyRep使用Rep在训练过程中动态地演化网络结构由于我们的方法从原始网络开始训练,因此与RepNAS相比,它将节省大量的计算成本。3. 重新审视结构重新参数化让我们首先回顾一下香草结构重新参数化(Rep)方法的机制[2,3]。Rep的核心内容是运算的等价变换具体地说,这些转变不仅增强了通过在训练过程中引入不同的分支,可以提高神经网络的表示能力,但也可以等价地转换为更简单的操作,这有望减轻神经网络的推理能力。这些属性在模型挖掘中非常重要,并且能够在不损失准确性的情况下显著降低计算成本。在本节的其余部分,我们将重新回顾Rep.代表工程师的操作广泛集成在网络中,例如卷积(Conv),平均池化和剩余连接。例如,Conv通过将输入特征IRC×H×W变换为输出O来运行,即、O:=o(I)=I<$F+b∈RD×H′×W′,(1)其中C、H和W分别指输入的通道、高度和宽度。 FRD×C×K×K和bRD是卷积算子的参数。请注意,H ′和W ′由几个因素决定,例如内核大小,填充,步幅等。卷积算子的线性确保了加法器的有效性。 具体地,对于具有权重F ( 1 )和F(2)的任意两个共解o(1)和o ( 2 ) ,如果它们遵循相 同 的配置(例如,,相同的D,C和K),我们有I<$F(1)+I <$F(2)= I <$(F(1)+F(2))。(二)为了便于理解,推导Eq.(2)省略了b项,但当考虑b时,上述结果仍然成立在Eq中的可加性支持。(2),直接观察到两个相容的Conv操作因此可以被归并到具有权ts的单个新的Conv操作o(3)中F(3)=(F(1)+F(2))。请注意,一旦可以将上述可加性转换为卷积运算,则可以将其推广到这证明了多分支操作,或者等价地一个操作序列,可以被转换成单个卷积,从而具有可加性。在不损失清晰度的情况下,我们遵循[2]中的约定,将分支称为转换中涉及的操作下面列出了一些满足这一规则的例子请参见图3中的左侧面板。序列卷积的卷积器 Conv11-KK的序列可以合并成一个KKConv。平均池化的Conv一个KK平均池-ing等价于具有相同步幅的K K Conv。多尺度卷积的卷积器。KHKW(KHK,KWK)卷积(例如,,11Conv和1KConv)可以通过对内核权重进行零填充来转换为K KConv。• 残余连接的转换器一个残差连接可以看作是一个特殊的1 × 1卷积,其值处处为1,因此可以转化为一个K × K卷积。591×××××∼×∼×我S(θ)=S(θ),(4)opSS ∈SLSpiθi×表1. RepVGG、DBB、RepNAS和DyRep的操作空间 K×K表示具有核大小K×K的卷积运算,以及1×1-K×K表示1×1和K×KConv顺序堆叠的分支。方法#分支分支RepVGG [3] 3K × K,1×1,剩余连接DBB [2] 4K × K,1×1-K × K,1×1-AVG,1×1RepNAS [32] 7K × K,1×1-K × K,1×1-AVG,1×1,1× K,K ×1,剩余连接DyRep(我们的)7K × K,1×1-K × K,1×1-AVG,1×1,1× K,K ×1,剩余连接通过利用上述基本变换,一个K KConv可以通过向其 输 出 添 加 更 多 不 同 的 分 支 来 增 强 。 例 如 ,RepVGG [3] 提 出 了 一 种 扩 展 的 3 3Conv , 包 括 11Conv和剩余连接; DBB [2]提出了一个多样化的分支块来替换原始的K KConv,并且块中的每个分支都可以转换为K KConv; RepNAS [32]旨在使用神经架构搜索(NAS)搜索DBB分支。表1总结了详细的操作空间。我们通过展示Rep及其变体的一个常见警告来结束本节具体地说,目前的方法只是在训练开始时将所有候选分支重新参数化到一个增强的网络中,这导致了内存和时间消耗的显著增加。例如,DBB具有二、3ResNet上的FLOP和参数18,成本1。7GPU天在ImageNet上训练。此外,现有的Rep及其变体通常涉及冗余操作,这可能将噪声引入输出并降低学习性能。解决上述问题的一种简单方法是用有效的操作训练增强的然而,由于可以嵌套重新参数化,因此可以详尽地确定oracle有效操作。在这方面,本研究的愿望是开发一种有效的算法,利用训练信息,逐步找到合适的结构。在DyRep中,通过梯度信息来衡量不同操作对降低损耗的贡献。也就是说,具有小梯度的操作对损失的减少贡献较小,因此更可能是冗余的。值得注意的是,类似的想法也被广泛用于网络修剪[14,24,25],这赋予了权重的重要性得分。然而,与集中于冗余(不重要)权重的网络修剪相比,DyRep更感兴趣的是识别权重对应于较大梯度的那些操作接下来,我们将解释DyRep中采用的评分度量,以识别具有高贡献的操作,以减少损失。已经提出了许多基于梯度的评分度量[14,24,25最近的一项研究[24]提出了一种评分度量同步流,以避免在执行参数修剪时发生层崩溃,即、S(θ)=<$L<$θ,(3)其中是参数为θ的神经网络的损失函数,p是每参数显著性,θiθ,表示Hadamard乘积。我们扩展p,通过对所有参数求和来对整个操作进行评分,即,n(i)(一)J4. 动态重新参数化(DyRep)在这里,我们提出了动态重新参数化(DyRep),以寻求最佳的结构与最小的成本,通过保守地重新参数化的原始网络。我们通过扩展训练中的重参数化技术来实现动态结构自适应。在Rep的支持下,在不改变输出的情况下转换结构,DyRep可以在训练过程中灵活地进化结构,并在推理中将它们转换回原始网络。4.1. 动态结构我们遵循图。2详细阐述了DyRep的算法实现。在训练过程中,DyRep集中于增强网络中对降低损失贡献较大的操作。因此,DyRep不再天真地为所有操作配备DBB中采用的不同分支,而是重新参数化对损失贡献最大的操作。J其中θ(i)表示操作o(i) 中 的参 数。 通过平衡Eq.(4)逐步对最大w.r.t.每t个时期中的累积训练损失,如算法1中所述。请注意,DyRep适用于所有K K卷积,包括新添加的Rep卷积。这意味着我们的方法可以递归地重新参数化操作,以获得更丰富的形式。为了动态地重新参数化这些识别的操作,我们进一步扩展了Rep技术,将单个学习卷积转换为训练期间具有随机初始化权重的DyRep块。我们的DyRep块由不同的Rep分支组成,并计算输入-将特征累积其所有分支。DyRep配备了表1中的所有候选操作。其权重利用下面详述的所提出的训练感知重新参数化规则来初始化,其中其图示在图3的左侧面板中示出。592W扩大RepAVGK×K1×1…K×K1×11×1K×K×--OM D{S|∈ M}M√O尼特i=1OΣjσjj jσjj随机初始化w′ =w+w截…AVGK×KK×K1×11×1图3. DyRep中使用的重新参数化(左)和去参数化(右)方法的图示。重新参数化:我们首先使用具有随机初始化权重的额外分支扩展原始K KConv,然后利用Rep修改原始卷积中的权重以获得一致的输出。去参数化:我们通过将其权重吸收到原始卷积中来去除冗余操作。培训意识重新参数化。假设我们有一组随机初始化的操作o(1),.,o(n)被添加到具有权重F(ori)的原始操作o ori,则扩展块的新输出变为O′= I <$F(ori)+I <$F(1)+···+I <$F(n).(五)原始运算O=I<$F(ori)的输出将因新的附加特征而变化对于一致的输出-直接将初始化的BN融合到卷积中将导致不准确的权重。对于精确的重新参数化,我们使用20批训练数据来校准BN统计量,然后改变等式中的权重。(六)、注意,BN校准的成本可以忽略不计,因为它不需要梯度计算。算法1使用DyRep进行训练输入:原始模型M,总训练时期Etr,总我们采用Rep变换原始权值F(ori)使用等式(二)、新的权重F(ori′)产生迭代次数NITER在每个时期中,训练数据集D,型号F(ori′)← F(ori)−(F(1)+···+F(n)),(6)其中F(n)是运算o(n)的变换权重。通过批量标准化稳定训练。 在当量(6)如果我们用大的权重初始化添加的操作,原始操作的权重将发生很大变化,从而干扰其训练。幸运的是我们所有的分支机构都遵循OP-BN范式,其中更新间隔t,去参数化阈值λ。1:对于e = 1,...,Etrdo2: 对于i = l,…尼特尔多3:train(,tr);针对一次迭代的训练模型4:(i)o= SCORE( );根据等式4计算评分操作。(4);5:结束6:如果e%t= 0,则7:S=1NiterS(i),N∈M ,平均超过最后一个批处理归一化(BN)层[12]计算输入x作为BN(x;γ,β)=γx−E(x)+β,(7)变量(x)其中γ和β是用于缩放和移位归一化值的可学习权重。如果我们将γ设置为一个小值并使β=0,则该分支的变换权重F将很小,并且分支的添加将对原始权重产生较小的因此,原始卷积的功能(表示能力)将被保留。我们设置γ=0。01在我们的实验中此外,我们认为, 将分支的权重转换为 的单个卷积的权重需要将BN层融合到卷积中,这为每个通道j构造新的权重F′和偏置b,F′<$γjF,b′<$(bj−µj)γj+β,(8)其中,µ和σ分别表示BN中的累积运行均值和方差。对于随机初始化的分支,BN中的µ和σ初始化为0和1,因此w′ =w−wnewWnewAVGK×K1×1…K×K1×11×1w切切割AVGK×K1×1…K×K1×11×1593MM{S| ∈ M}MM所有迭代;8:o=arg maxooo;定位最重要的9:=REP(,o);根据第4.1节对DyRep块进行重新参数化操作;10:=DEP(,λ);根据第4.2节的非参数分支;11:如果结束12:结束13:将模型M部署回原始模型;十四: 返回推理模型M.4.2. 取消参数化以提高效率在训练过程中,我们使用Eq.(4)并将其重新参数化为DyRep块;由于Rep可能会引入冗余操作,我们还设计了一个规则来赋予丢弃操作的能力,我们称之为de-parameterization(Dep)。在续集中,我们将讨论Dep是如何工作的。与第4.1节一样,我们将BN的γ设置为一个小值稳定训练;考虑到国阵首先正常化,594C--×××JCKJ j=1k=1具有相同幅度的输入x,然后使用γ和β来缩放和移动值,这意味着γ和β控制分支输出的幅度如果一个分支的输出值明显小于其他分支,我们可能会认为它对最终输出的贡献很小请注意,设置γ=0实际上会使输出归零。在这种情况下,我们现在提出一种方法来找到重新-冗余操作,通过比较BN层的比例因子[6,11,18,30]。具体地,我们使用最后一个BN层的γ的L1范数来表示分支j的重要性sj,即、表2.基础模型VGG-16 [20]在CIFAR数据集上的结果。结果报告的基础上,我们的实施与相同的培训策略。表中的FLOP和参数是训练中的平均值。训练成本在NVIDIA Tesla V100GPU上进行测试。数据集代表成本平均值FLOPs平均值参数ACC方法(GPU小时)(男)(男)(%)S =1Σ|γ|、(9)其中,C表示BN中的信道数量。以来BN层在开始时用相同的权重初始化,因此我们可以将具有显著低权重的分支作为在一段训练之后要切割的分支。在我们的方法中,我们简单地选择一个表3. MobileNet [9]和ResNet [8]模型在Im上的结果-ageNet数据集与DBB的比较[2]。 培训成本测试8NVIDIA Tesla V100 GPU。* :我们的实施。模型代表平均成本FLOPs Avg. ACC参数sj<平均值({sj}n )当分支进化为suf-j=1令人满意的可区分的。Var({s}n)>λ,其中λ是阈值,λ=0。02、我会满足你的很痛苦地去参数化。类似于训练感知Rep技术,对于具有操作o(o ri),o(1),.的DyRep块, oj,… 如果我们想保留操作oj,但又使输出一致,我们将o j的权重吸收到o(o ri)中,i. e. 、F(ori′)←F(ori)+F(j),(10)那我们就可以安全地取消手术了。由于冗余操作的尺度因子γ较小,因此去除冗余操作对原始卷积的权值影响较小,并保持训练的稳定性。4.3. Rep和Dep的渐进式培训通过重新参数化(Rep)和去参数化(Dep)技术,我们可以动态地丰富所需的操作,同时丢弃一些冗余操作。结合Rep和Dep,可以以极大的效率增强网络。在算法1中总结了整个训练过程。更准确地说,DyRep在每个时期重复进行Rep和Dep,如第3-7行所示。Rep程序包括三个部分,即,选择具有最大显著性得分S0的操作,用随机初始化的操作扩展它,并根据等式(1)修改原始操作的权重。(6)确保扩展块具有与原始操作相同的输出。Dep程序还包括三个部分,即,使用每个分支的BN的γ找到冗余操作,去除那些冗余操作,并根据等式(1)修改原始操作的权重。(十)、5. 实验5.1. 培训战略CIFAR。在DBB [2]之后,我们训练了批量大小为128的VGG-16模型,采用了衰减600个epoch的余弦学习率,初始值为0。使用SGD优化器,动量为0.9,权重衰减为1 10−4。在我们的方法中,我们设置结构更新间隔t = 15。ImageNet. 在表3中,我们使用与DBB相同的策略训练模型[2]。具体来说,我们训练ResNet-18和ResNet-50 120个epoch,总批量大小为256,颜色抖动数据增强,初始值为0的余弦学习率策略。1,优化器为SGD , 动 量 为 0.9 , 权 重 衰 减 为 1 10−4 。 对 于MobileNet , 我 们 用 权 重 衰 减 410−5 训 练 模 型 90 个epoch。而对于VGG风格的模型,在RepVGG [3]之后,我们用以下方法训练模型200个epoch:强大的数 据 增 强 ( Autoaugment [1] 和 标 签 平 滑 ) , 除 了DyRep-A2之外,我们使用简单的数据增强并将其训练120个epoch。在我们的方法中,对于120个epoch和200个epoch的训练,我们设置结构更新间隔t=5;对于300个epoch的训练,我们设置t=10。起源2.431315.0 94.68± 0.08CIFAR-10DBB9.472834.7 94.97± 0.06DyRep6.959726.495.22± 0.13起源2.431315.0 73.69± 0.12CIFAR-100 DBB9.472834.7 74.04± 0.08DyRep6.758227.174.37± 0.11方法(GPU天)(G)(男)(%)起源2.30.574.271.89MobileNetDBB4.20.614.372.88DyRep2.40.584.372.96起源4.81.8111.769.54ResNet-18DBB8.14.1326.370.99DyRep6.32.4216.971.58起源5.33.6621.873.31ResNet-34DBB系列12.88.4449.974.33DyRep7.74.7233.174.68起源7.54.0925.676.14ResNet-50DBB13.76.7940.776.71DyRep8.55.0531.577.08595∼×表4.ImageNet上的结果。FLOP和参数是通过推理模型来衡量的。培训成本在8个NVIDIA Tesla V100 GPU上进行测试。RepVGG [3]报告了基线ACC和速度。速度FLOPs params ACC表5.目标检测和语义分割任务的结果。Rep阶段C+D表示Rep方法被用于ImageNet训练和下游任务。BackboneRep Rep ImageNet COCO Cityscapes模型5.2. 与DBB我们首先在CIFAR和ImageNet数据集上将我们的方法与基线方法DBB [2]进行比较。为了公平比较,我们使用与DBB相同的模型和训练策略进行实验,结果总结在表2和表3中。表中的FLOP和参数是训练中的平均值。在CIFAR和ImageNet数据集上的结果表明,与原始模型和DBB模型相比,我们的方法具有显着的性能改 进 。 同 时 , 我 们 的 DyRep 的 培 训 成 本 明 显 低 于DBB。例如,DBB成本为13。7GPU天在ImageNet上训练ResNet-50,而我们的DyRep花费8 GPU天。5 GPU天(减 少 38%),获得0。准确度提高37%5.3. 使用RepVGGRepVGG [3]提出了一系列VGG风格的网络,并实现了与当前最先进模型相竞争的性能。我们在这些VGG网络上采用DyRep,以提高ImageNet的性能。结果总结在表4中。与RepVGG相比,我们的DyRep在相同的转换模型下获得了更高的准确性,因为它只采用了两个分支11转换和残余联系同时,与RepNAS [32]获得的结果(ODDB)相比,我们的方法也实现了更高的性能。例如,我们的DyRep-B3达到81。12%的准确率,优于RepVGG-B3和ODBB(B3)0。6%和0。分别为15%5.4. 下游任务我们将ImageNet预训练的ResNet-50模型转移到下游任务对象检测和语义分割,以验证我们的泛化能力。具体来说,我们使用预训练模型分别作为COCO和Cityscapes数据集上下游算法FPN [16]和PSPNets [33]的骨干,然后在验证集上报告其评估结果。此外,由于我们的DyRep可以在训练过程中进化结构,因此我们可以直接加载ResNet-50的普通权重,并在下游任务的训练中增强其结构因此,我们进行实验,采用DyRep在下游任务的训练。表5上的结果表明,通过将训练好的模型直接转移到下游任务(参见表中的C),与原始ResNet-50和DBB相比,我们的DyRep可以获得更好的性能当我们采用DyRep更新下游任务中的结构时,性能可以得到进一步的提高。5.5. 消融研究去参数化的效果。我们提出去参数化(Dep)来丢弃那些冗余的Rep分支.现在我们进行实验来验证它的有效性。如表6中所总结的,组合Rep和Dep实现了最佳性能,而使用DyRep而不使用Dep也可以提高性能,但训练效率和准确性将下降。表6.CIFAR-10数据集上DyRep的结果,含或不含Dep。DyRep,带Dep 597 26.495.22± 0.13DyRep(不含Dep 658)29.3 95.03± 0.15不同初始比例因子的影响为了稳定训练,我们用小的比例因子初始化每个新添加分支中的最后一个BN层在这里,我们进行实验,以显示不同的初始值的比例因子的影响。如图4所示,不同比例因子的性能差异很大。对于较大的初始值10,原始权重将发生显着变化;因此,其精度远远低于其他方法。当初始值很小时,由于增加的操作对输出的贡献很小,性能下降根据结果,我们用0初始化γ。01在我们的主要实验中方法阶段top-1地图MiouResNet-50--76.1337.477.85ResNet-50DBBC76.7837.878.18ResNet-50DyRepC77.0838.078.32ResNet-50DyRepD76.1337.778.09ResNet-50DyRepC+D77.0838.178.49(例数/秒)(G)(男)(%)ResNet-3414193.721.7874.17RepVGG-A213225.125.4976.48ODBB(A2)13225.125.4976.86DyRep-A213225.125.4976.91ResNet-507193.925.5376.31RepVGG-B2g458111.355.7779.38DyRep-B2g458111.355.7780.12ResNeXt-504844.224.9977.46ResNet-1014307.644.4977.21RepVGG-B336326.2110.9680.52ODBB(B3)36326.2110.9680.97DyRep-B336326.2110.9681.12ResNeXt-1012958.044.1078.42方法FLOPs(M)参数(M)ACC(%)起源31315.094.68± 0.08596×××1×10.871×17×7 1×7 7×11.51 0.68 0.861×1 1×1AVG0.471×11×17×7平均值0.101.010.30AVG0.271.727×70.591.23图4. BN中γ初始值不同的CIFAR-10评价结果再培训从零开始获得结构。为了验证我们的动态结构适应的效果,我们在CIFAR-10上重新训练DyRep训练中获得的中间结构如表7所示,与训练固定中间结构相比,使用DyRep训练获得更好的准确度一个可能的原因是最佳结构在不同的训练阶段(时期)是不同的我们的DyRep可以动态地调整结构以提高整个训练的性能,从而获得更好的性能,而在不同时期获得的结构可能不适合其他时期。表7. 关于CIFAR的中间结构再培训结果-10.我们修复这些结构,用同样的策略重新训练它们。DyRep表示使用DyRep进行训练,并且DyRep-N表示DyRep在第N个时期的结构。DyRep-200 466 18.2 94.83± 0.06DyRep-400 587 20.3 95.04± 0.07DyRep-600 766 24.4 94.93± 0.05DyRep 597 26.495.22±0.13收敛曲线的可视化。我们通过与原始ResNet-34模型和DBB的比较,可视化了我们方法的收敛曲线。如图5所示,我们的DyRep在整个训练过程中具有更好的收敛性。这可能是因为我们的方法有效地涉及有效的操作,而无需对冗余操作进行额外的训练开销增强结构的可视化。我们在图6中可视化了我们训练的ResNet-18网络中的第一个卷积层。 我们可以看到,原始的7 × 7卷积具有最大的权重,并且所有内核大小K >1的卷积都被配备,因为它们有助于提取信息。网络的前几个阶段 虽然在11个-77分支,它递归扩展并利用平均池来丰富功能。5.6. 限制DyRep可以有效地提高各种CNN的性能,可以被视为一种通用的机制。图5.使用DyRep、DBB和原始模型训练的ResNet-34模型的评估曲线(平滑)。图6.ResNet-18中第一个卷积层的最终增强结构的可视化每个分支下面的权重表示其重要性因子s。nism在不改变推理结构的情况下增强训练。然而,它的操作空间受到重新参数化的等价性要求的限制。6. 结论我们提出了DyRep,一种新的方法来引导训练与动态重新参数化(Rep)。具体地说,为了提高操作的表征能力(这对性能贡献最大),我们扩展了现有的Rep技术,使其动态地重新参数化,并提出了BN的初始化策略以稳定训练。此外,在BN层的比例因子的帮助下,我们提出了一种机制,以丢弃这些冗余操作。结果,可以进一步提高训练效率和性能。大量的实验表明,我们的DyRep享有显着的效率和性能的改善相比,现有的Rep方法。确认这项工作得到了澳大利亚研究委员会DP210101859项目和悉尼大学SOAR奖的部分支持。模型FLOPs(M)参数(M)ACC(%)起源31315.094.68± 0.08597引用[1] Ekin D Cubuk, Barret Zoph ,Dandelion Mane ,VijayVasude-van,and Quoc V Le.Autoaugment:从数据中学习增强策略。在IEEE/CVF计算机视觉和模式识别会议论文集,第113-123页6[2] 丁小涵,张翔宇,韩军公,丁贵光。多样分支块:将卷积构建为类似起始的单元。在IEEE/CVF计算机视觉和模式识别会议论文集,第10886-10895页一三四六七[3] 丁晓涵、张翔宇、马宁宁、韩军公Repvgg:让vgg风格的convnets再次变得伟大。在IEEE/CVF计算机视觉和模式识别会议集,第13733-13742页一三四六七[4] Chengyu Dong , Liyuan Liu , Zichao Li , and JingboShang. Towards adaptive residual network training : Aneural-ode perspective.在机器学习国际会议上,第2616-2626页。PMLR,2020年。3[5] Yuxin Fang,Shusheng Yang,Xinggang Wang,Yu Li,Chen Fang,Ying Shan,Bin Feng,and Wenyu Liu.实例作为查询。在IEEE/CVF计算机视觉国际会议论文集,第6910-6919页1[6] Ariel Gordon、Elad Eban、Ofir Nachum、Bo Chen、HaoWu、Tien-Ju Yang和Edward Choi。Morphnet:深度网络的快速简单资源约束结构学习。在IEEE计算机视觉和模式识别会议论文集,第1586-1595页,2018年。6[7] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页1[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。一、二、六[9] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。一、二、六[10] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页,2018年。1[11] 黄泽浩和王乃艳。深度神经网络的数据驱动稀疏结构选择。在欧洲计算机视觉会议(ECCV)的会议记录中,第304-320页6[12] Sergey Ioffe和Christian Szegedy。批量归一化:通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上,第448-456页。PMLR,2015. 5[13] Roxana Istrate , Adelmo Cristiano Innocenza Malossi ,Costas Bekas,and Dimitrios Nikolopoulos. 深度卷积神经网络的增量训练。arXiv预印本arXiv:1803.10232,2018。3[14] Namhoon Lee , Thalaiyasingam Ajanthan , and PhilipTorr. Snip:基于连接敏感度的单次网络修剪。在2018年的学习代表国际会议上。4[15] 李翔、王文海、胡小林、杨剑。选择性内核网络。在IEEE/CVF计算机视觉和模式识别会议集,第510-519页1[16] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页,2017年。1、7[17] 柳寒笑,凯伦西蒙尼扬,杨一鸣。Darts:差异化架构搜索。在2018年国际学习表征会议上。3[18] Zhuang Liu,Jianguo Li,Zhiqiang Shen,Gao Huang,Shoumeng Yan,and Chan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功