没有合适的资源?快使用搜索试试~ 我知道了~
1345不S基于路径约束优化的肖金1人,彭宝云2人,吴毅超1人,刘宇3人,刘家恒4人,丁亮1人,严俊杰1人,胡小林5人1商汤科技集团有限公司2国防科技大学3香港中文大学4北京航空航天大学5清华大学jinxiaocuhk@gmail.com,pengbaoyun13@nudt.edu.cn,yuliu@ee.cuhk.edu.hk,liujiaheng@buaa.edu.cn{wuyichao,liangding,yanjunjie}@ sensetime.com,xlhu@mail.tsinghua.edu.cn摘要基于蒸馏的学习基于教师模型的表示可以用作结构化和相对较弱的监督的假设来提高小型化神经网络的性能,并且因此可以通过小型化模型容易地学习。然而,我们发现收敛的重模型的表示仍然是训练小学生模型的强约束,这导致了更高的同余损失下界。本研究从课程学习的角度出发,通过教师的路径选择来探讨知识的升华。我们不是用一个收敛的教师模型来监督学生模型,而是用一些锚点来监督它,这些锚点是从教师模型经过的参数空间中的路线中选择的,我们称之为路线约束优化(RCO)。实验证明,这种简单的操作大大降低了知识提取、提示和模仿学习的一致性损失的下限。在CIFAR和ImageNet等闭集分类任务中,RCO分别将知识提取提高了2.14%和1.5%。为了评估RCO的泛化能力,我们还在开集人脸识别任务MegaFace上测试了RCORCO仅用0.8M参数就在1到100万的任务上实现了84.3%的准确率,这大大推动了SOTA。1. 介绍卷积神经网络(CNN)的性能可以通过更深更广的网络结构设计来显著提高。然而,在内存有限的耗能处理器上部署这些大规模的网络处理这种情况的一种方法是通过设计小型化模型来降低计算量,从而在性能和速度之间进行权衡*同等缴款。以性能下降为代价的动态工作负载。因此,缩小重型模型和小型模型之间的性能差距成为近年来的研究热点。提出了许多方法来解决这个问题,例如模型修剪[6,15],量化[12,28]和知识转移[10,24]。不教师模型(a) 知识蒸馏(b)提示学习学生模型类的潜在表示(c)路径约束提示学习图1:与仅针对KD和基于提示的学习等融合教师相比,RCO通过逐渐模仿教师的路线序列来缩小性能差距。在这些方法中,知识蒸馏(KD)通过模仿强大的教师网络的行为(最终预测[10]或在这种软知识的指导下,学生网络可以更多地关注额外的监督,例如类之间的概率相关性,而不是一个热门标签。以前的方法只考虑最终收敛的教师模型来教授小的学生网络,这可能导致学生停留在近似教师的能力上,并且教师和学生之间的差距(容量)越来越大我们观察到,不KDS不L2 KDS不不提示提示提示SS教师和学生的培训过程1346由教师早期培训阶段督导的学生与其教师的绩效差距远小于由教师后期培训阶段督导的学生。从课程学习的角度[1],对这一现象的合理解释我们认为,教师经过的中间状态也是有价值的知识,以减轻学习过程和降低学生的错误界。基于这一思想,我们提出了一种新的方法称为RCO,它以教师的优化路线来指导学生图1(c)显示了RCO的整个框架与单一的收敛模型相比,教师路径通过提供由易到难的学习顺序,包含了额外的知识。通过逐步模仿这样的顺序,学生可以学习更一致的老师,从而缩小性能差距。此外,本文还分析了不同学习序列对性能的影响,并提出了一种基于贪婪策略的序列生成方法,该方法可以在保持高性能的同时缩短训练范式。在CIFAR-100、ImageNet-1 K和大规模人脸识别上的大量实验表明,RCO在这三个任务上的性能都明显优于知识提取和其他SOTA方法。此外,我们的方法可以与以前的知识转移方法相结合,并提高其性能。总之,我们的贡献可以归纳为三个部分:• 从教师重要的观察,从收敛的教师模型学习不是最佳的方式。• 在此基础上,我们提出了一种新的方法RCO,该方法利用教师网络经过的参数空间中的路径作为约束,为学生网络带来更好的优化。• 我们证明,建议RCO可以很容易地应用于知识蒸馏和提示学习。在相同的数据和计算成本下,在CIFAR、Im-ageNet和百万分之一的人脸识别基准Megaface上的表现远远优于KD。2. 相关工作神经网络的小型化 许多工作研究了神经网络的小型化问题。分为两种方法:设计小网络结构,通过知识转移提高小网络的性能。对于前者,由于原卷积占用了太多的计算资源,人们提出了许多对卷积的修改。莫-bileNet [11]使用深度可分离卷积来构建块,ShuffleNet[31]使用逐点组卷积和通道混洗。这些方法在不增加过多推理计算量的前提下,能保持较好的推理性能.此外,许多研究[7,23,19,9]关注网络修剪,通过去除大型CNN模型中的冗余来提高推理速度。Han等人[7]建议删除不重要的连接。Molchanov等人[23]提出了对重要性较低的过滤器进行剪枝,并根据对损失的影响程度进行排序。他们用泰勒展开来近似损失函数的变化。这些方法通常需要手动调整每层的压缩比。最近,Liuet al. [19]提出了网络瘦身框架。他们用稀疏性惩罚约束每个批量归一化[13]层的尺度参数,这样他们就可以去除尺度参数较低的相应通道。He等人[9]提出采用再增强学习来开拓模型压缩的设计空间。他们从用自动策略代替手动调整中获益更多。对于后者,最流行的两种知识转移方法是知识蒸馏[10]和拟合网络[24]。我们在这项工作中主要考虑这些情况。知识蒸馏分类。有效地将知识从大型教师网络转移到小型教师网络学生网络是一个传统的话题,近年来受到Caruana等人[2]第一次提出来他们声称,模型集合的知识可以转移到 另 一 个 单 一 的 模 型 。 Hintonet al. [10] 知 识 蒸 馏(KD)可以有效地将蒸馏后的知识转移到学生网络中。通过增加温度,logit(最终softmax的输入)包含比one-hot标签更丰富的信息。之后,[14]提出通过一个名为Mentor-Net的网络从数据中学习课程[18]采用了一种方法来从嘈杂的标签中学习。从提示中学习表示。基于提示的学习通常用于开集分类,如人脸识别和个人重新识别。FitNet [24]首先通过利用中间层引入了更多的监督,教师隐含层的层次特征图指导学生的训练过程。之后,Zagoruyko等人。[30]提出了将注意力地图从教师转移到学生的方法。Yim等人[29]将从教师网络中提取的知识定义为求解过程(FSP)的流程,该流程通过两个选定层的特征图之间的内积来计算以往的知识转移方法只对学生进行融合型教师的监督,无法捕捉教师培训过程中的知识我们的工作不同于现有的方法,因为我们监督学生与教师的培训轨迹转移的知识1347s t2supervisedyt1==ft1(x)supervisedyt2==ft2(x)监督ytN= =ftN(x)S步骤NS步骤2S步骤1步骤NT步N步骤2T步2步骤1T步1培训教师网络的发展轨迹学生网络的培训步骤图2:RCO的总体框架。以往的知识转移方法只考虑了收敛的教师模型。而RCO的目的是监督学生与中级培训状态的教师。3. 路径约束优化3.1. 师生学习机制收敛到某个局部最小值,则其训练损失将收敛到某个(或类似)值,而不管不同的初始化。为了更好地说明,我们将教师网络称为φ t学 生 网 络 为 φs , 参 数 为 Ws 。 Pt=softmax ( zt ) 和Ps=softmax(zs)分别表示教师和学生的输出预测,zt和zs表示教师和学生的logit。超越KD的想法是让学生通过最小化交叉熵损失和Kull来模仿老师back–LeiblerLKD=H(Ps,y)+λKL(Pτ,Pτ), (1)表1:使用不同的训练方法训练的学生网络的性能从CIFAR-100数据集上的教师培训轨迹中提取的时间段。“T”S t其中τ是用于软化教师网络输出的松弛超参数(在[10]中称为Temperature),λ是用于平衡交叉熵和KL发散损失的超参数。在几个作品[26,17] KL发散被替换为欧几里德距离,我们能达到比这个条件更好的局部最小值吗?我们考虑改变优化目标。更具体地说,通过首先模仿确定性较低的目标,然后向前移动到确定性目标来训练学生,希望以这种方式学生与教师的差距较小。为了验证这一点,我们使用不同的interme-1ΣnL模拟=ni=1(2)第一章:用训练损失和前1准确率来评价目标教师与融合学生的差异。MobileNetV2f表示特征表示。3.2. 优化学生通常,教师调用更大更深的网络来达到更低的局部最小值并实现更高的性能。由于老师和学生之间的巨大差距(能力),一个较小和较浅的学生很难模仿这样一个大老师通常,网络通过使用随机梯度下降来训练以最小化目标函数。由于损失函数的高度非凸性,在深度神经网络的训练过程当网络[25]被采用为学生,ResNet-50 [8]被采用为教师。教师网络采用交叉熵损失训练,学生网络采用KD损失训练。我们分别选取第10、40、120、240个时期的教师检查点作为训练目标,训练学生网络。第240个历元处的检查点是最终收敛的模型,并且第10个历元处的检查点在分析中是最不确定的。表1总结了结果。从表中可以观察到,由确定性较低的目标引导的学生具有较低的训练损失,而收敛性较强的目标带来较大的性能差距。换句话说,越多网络时代1040120240ResNet-50T top-1(%)T损失53.071.68056.531.199770.06779.520.009MobileNetV2S top-1(%)51.210.51157.621.18966.053.75868.714.2181348收敛型教师意味着学生更难接近的目标。受课程学习[1]关于局部极小可以通过由易到难的学习过程来促进的启发,我们将教师的中间状态序列3.3. RCO为了更好地说明,我们将用于形成学习序列的中间训练状态(检查点)称为锚点。 假设老师的轨迹上有n个锚点。RCO的总体框架见图2。不失一般性,令C=C1,C2,.,Cn表示锚点集,相应的 输 出 为 φ t ( x;WC1 ) , φ t ( x;WC2 ) , . , φ t(x;WCn).学生的训练过程是从随机初始化开始的然后,我们训练学生一步一步地模仿教师的轨迹上在第i步,学生的学习目标被切换到 第i个锚点的输出φt(x;WCi)第i步的优化目标如下:设Yi为第i个锚点的输出。所有锚点的输出都切割空间<$i ={Yi|i= 1,2,… n}。表1中所示的结果假定教师轨迹上的中间状态构造了一个从易到难的序列,例如: Yi比Yi+1更容易模仿,而收敛模型Yn对于小学生来说是最难的目标。让X作为训练数据。第i个锚点对(X,Yi)的训练数据和输出提供了一个教训。然后,课程顺序可以表述如下:{(X,Yi)|i = 1,… n}。(四)不失一般性,令Lλ(X;θ)表示成本函数的单参数族,使得L1可以容易优化,而LN是我们实际上希望的标准。在RCO的序贯训练中,增加λ意味着通过切换锚点增加学习难度。令D表示学习目标的硬度度量如图3.2所示,锚点越趋集中,学习目标越难D(φ(X,W Ci) 0.(五)LKD(Ws,WCi)=H(φs(x;Ws),y)+λH(φs(x;Ws),φt(x;WCi)),(三)在课程学习[1]中,学习顺序是通过将X分成几个不同的其中i∈ {1,2,…n}。通过顺序地学习这些锚点来优化参数Ws算法1描述了整个训练范例的细节。算法1路由约束优化要求:从预先培训的教师网络中设置锚点:C1,C2,...,C n,带参数W i的学生网络i= 1随机初始化Wi当i≤n用Ci锚初始化教师网络,得到WCi如果i >1,则用Wi−1初始化Wiend if通过优化LKD(Wi,WCi)来更新Wii=i+1end while得到Wn作为学生的最终权重。3.4. RCO的依据从课程学习的角度来看,由易到难的学习顺序可以帮助模型获得更好的局部极小值[1]。RCO类似于课程学习,但不同之处在于它提供了一个由易到难的教师轨迹标签序列硬度取决于预定义的标准。 虽然RCO可以被看作是一种更灵活的方法,它逐渐改变目标标签Y的硬度。课程学习和RCO都是通过由易到难的学习来逐渐将θ移动到一个占主导地位的(如果不是全局的)最小值的吸引盆中[1]。3.5. 选择锚点的策略等时期间隔策略。通常,教师网络在训练过程中会产生大量的检查点。为了找到最佳学习序列,可以使用蛮力搜索。然而,给定n个可能的中间状态,存在2n个可能的序列,这是不切实际的实现。一个简单的策略是通过教师轨迹上的每个状态(时期/迭代)来监督学生然而,模仿每个状态是可分配的且耗时的,因为相邻的训练状态彼此非常接近。给定有限的时间,更有效的方式是以相等的历元间隔(EEI)对历元进行采样,例如,每四个历元选择一个。虽然EEI在时间上是有效的,但它是一种非常简单的ad-hoc方法,忽略了不同锚点之间的硬度,并且会导致不适当的课程序列。课程序列的理想属性应该是快速高效的学习和流畅的硬度,以更好地弥合教师和学生之间的差距。贪婪搜索策略为了探究学生向教师学习的优化路径,我们计算了KL1349图3:教师不同时期(30、100、180)监督的学生与教师在验证集上的所有240个时期之间的KL散度损失曲线验证集上学生的输出与教师的不同目标状态之间的差异,该验证集由从训练集随机采样的老师基于上述思想,我们给出了完整的GS算法2中的策略。似乎调整学习率点附近的锚点比其他锚点更重要。直觉上,根据算法2,最优学习序列必须包含来自不同学习速率阶段的至少一个锚点。由于本节主要关注锚点 选 择 策 略 , 因 此 我 们 提 供 了 δ = 0 的 经 验 值 。MobileNetV2的最大值为8,以在性能和培训成本之间实现更好的平衡请注意,虽然我们的实验是基于SGD,GS也适用于其他优化方法,如SGDR[20],因为先决条件仍然成立。算法2贪婪搜索要求:模拟后具有参数W s的学生网络 前第i 锚点 C i,其中i∈{1、2、… N},松弛因子δ。计算KL散度Hij=i+1而j N做在验证集计算Hj通过降低学习率来训练,计算rijHj−HiHi时代 我们选择第30、100和180个纪元作为焦油-让各州分别监督学生。图3显示了学生和教师中间状态之间的KL分歧曲线。从图中可以看出,教师第30课时辅导的学生与教师第30课时辅导的学生非常接近,但与教师后课时辅导的学生差距较大,尤其是在教师降低学习率后。同样的观察结果也可以从教师的其他时代的学生监督表1和图3给了我们两个启示:某一特定学生的学习能力目标限定在一定范围内;在一个好的老师的指导下,学生的能力会得到提高。受 这 些 启 发 , 我 们 提 出 了 一 种 贪 婪 搜 索 策 略(GS),以找到有效的和硬度光滑的curricu- lum序列。贪婪策略的目标是找到学生能够学习的范围边界上的一个为了找到这些边界锚点,引入了一个度量,如下所示:rij = Hj − Hi,i,j ∈ {i +1,i+2,., N},H},如果rij>δ,则返回j-1;end ifj=j+1end whileReturn N;4. 实验常见设置。 所有实验中教师的骨干网络是ResNet-50。对于学生结构,而不是使用较小的ResNet,我们使用更紧凑的MobileNetV2及其具有不同FLOP的变体,因为MobileNetV2已被证明在许多任务中保持高精度同时保持低FLOP方面扩展比和宽度乘数是两个可调参数,以控制MobileNetV2的复杂性我们通过将扩展比设置为6和宽度乘数设置为0.5来进行默认配置。KD损失的弛豫为5。请注意,所有这些实验都是基于GS,通常(6)Hi=H(φs(X,Ws),φt(X,Wti),产生大约4个锚点。′ ′Hj=H(φs(X,Ws),φt(X,Wtj),′其中H是KL散度,X是验证集。rij评价了j个时代的教师对一个学生的硬度由第i个时代引导的凹痕然后,我们引入一个超参数δ作为阈值,它反映了学习者的学习能力当rij>δ时,意味着第j个时期对于第i个训练的学生来说是难以学习的,并且rijδ意味着逆。4.1. CIFAR 100实验CIFAR-100数据集包含50 000幅图像的训练集和10000幅图像的验证集,大小为32×32。在这个实验中,对于教师网络,我们将初始学习率设置为0.05,并在第150、180、190、19第210个时期,我们训练了240个时期。我们将重量衰减设置为5e-4,批量大小设置为64,并使用SGD和momen-=1350Acc çpcy膨胀比宽度乘法器1011 20.8 42.8 72.6tum 对于学生网络,除了初始学习率为0.01之外,设置几乎与教师相同我们比较了CIFAR-100数据集的前1名准确度,结果如表2所示。从结果中我们可以发现T=475 7570 7065 65T=6与KD相比,我们的方法在top-1上提高了约2.1%。虽然基础学生网络很小,速度很快,但通常某些特定情况或应用程序需要模型更小,速度更快。为了进一步研究所提出的方法的有效性,我们进行了广泛的实验,将RCO应用到一系列的Mo-bileNetV 2与不同的宽度乘数和扩展比。我们设置扩展比为4,6,8,10和宽度多-分别对0.35、0.5、0.75、1.0进行了倾斜,共形成16种不同的组合。 这些模式的浮点数-60SofpχKDOç3550.35 0.5 0.75 1沃代赫T=875706560550.35 0.5 0.75 1沃代赫60550.35 0.5 0.75 1沃代赫T=1075706560550.35 0.5 0.75 1沃代赫表3中显示了ELS。我们根据宽度乘数对模型进行排名,并将结果绘制在图4中。从图中我们可以得出以下结论:(i)所提出的方法在所有设置中表现出一致的优 越 性 。 (ii) 容 量 较 小 的 学 生 网 络 ( 例 如MobileNetV2,T=4,宽度=0.35)通常从RCO获得更多的改进。(iii)虽然扩展比设置为10和宽度乘数设置为0.35的模型具有比扩展比设置为4和宽度乘数设置为0.5的模型更大的FLOP,但是前一设置显示了所有三种方法中的性能降低。结果表明,将扩展比参数化为10,宽度乘数参数化为0.35,在很大程度上限制了表示能力.方法网络MFlopstop-1损失T-SoftmaxResNet-502.6k79.34-S-SoftmaxMobileNetV213.561.88-S-KDMobileNetV213.568.711.59S-RCOMobileNetV213.570.851.45表2:CIFAR-100表3:具有不同设置的MobileNetV2的复杂度(MFLOPs)4.2. ImageNet实验ImageNet数据集包含1000种不同大小的图像。它是分类任务中最常用的数据集。在这个实验中,对于教师网络的训练,我们将初始学习率设置为0.4,然后下降0.1图4:不同设置下MobileNetV 2的CIFAR-100 top-1精度。X轴中的所提出的方法获得更小的学生网络的推广。在15k、30k和45k迭代时,我们训练50k迭代。我们将权重衰减设置为5e-4,批量大小设置为3072,并使用带有动量的SGD。对于学生网络,我们将初始学习率设置为0.1,并在45k,75k和100k次迭代时下降0.1,我们训练130k次迭代。我们将权重衰减设置为5e-4,批量大小设置为3072,并使用带有动量的SGD。为了保持训练的稳定性,我们在训练大批量时使用[4]建议的我们比较了ImageNet数据集的前1名和前5名准确率,结果如表4所示。实验结果表明,在top-1/top-5分类上,RCO算法比KD算法分别提高了1.5%/0.7%,证明了RCO算法在大规模分类中的适用性。方法网络top-1top-5教师-SoftmaxResNet-5075.4992.48学生-SoftmaxMobileNetV264.285.4学生-KDMobileNetV266.7587.3学生-RCOMobileNetV268.2188.04与分类不同,人脸识别中的网络通常包含一个实现为全连接层的特征层,以表示每个身份的投影经验证据[21]表明,模仿FitNet [24]中使用的特征层可以为学生网络带来更多改进。我们在基线实验中遵循这一设置。我们采用两个流行的人脸识别数据集MS- Celeb-1 M[5] 和 IMDb-Face [27] 作 为 我 们 的 训 练 集 , 并 在MegaFace上验证我们的方法。MS-Celeb-1MSof×KDOç3Sof×KDOç3Sof×KDOç3Acc çpcyAcc çpcyAcc çpcy0.350.50.751.045.49.819.332.1表4:ImageNet67.313.527.245.689.117.13559.14.3.人脸识别1351人脸识别是一个大型的公共人脸数据集,包含一百万个不同年龄、性别、肤色和国籍的身份,在人脸识别领域有着广泛的应用。IMDb-Face数据集包含约170万张面孔,59 k个身份。所有图片均来自IMDb网站。MegaFace是最受欢迎的基准测试之一,可以在多达100万个干扰因素下执行通过FaceScrub中的探针和图库图像对该基准点进行评估。在这个实验中,对于教师网络,我们将初始学习率设置为0.1,并在100k,140k,170k迭代时下降0.1我们将重量衰减设置为5e-4,批量大小设置为1024,并使用SGD和mo-精神我们将输入图像调整为224×224,而不进行增强。We use ArcFace [3] to train the teacher net-工作至于学生网络,我们将初始学习率设置为0.05,在180k,210k迭代时下降0.1,我们训练240k迭代。其余设置与老师相同。我们将结果显示在表5中。从表中我们可以看到,在这个具有挑战性的人脸识别任务中,与原始的基于提示的学习相比,RCO大大提高了MobileNetV2的性能。方法e1e2e3e4e5e6老师99.7899.6799.3898.8697.7094.83Softmax99.2096.3791.4984.4575.6065.91FitNet99.6298.8096.8393.5388.2881.02RCO99.6999.0197.5294.8490.5584.3表5:MegaFace4.4. 消融研究虽然RCO在以往的实验中取得了不错的成绩,但它带来的额外训练时间是不可忽视的。即使我们只是用4个Anchor点构造学习序列,它仍然需要4倍于KD或Softmax的训练时期。由于训练时间在研究或工业中起着重要的作用,我们考虑使用与KD相同的时间来验证RCO 的 鲁 棒 性 请 注 意 , 在 本 节 中 , 我 们 将 主 干MobileNetV2的扩展比设置为4,宽度乘数设置为有限训练时期下的比较。 以前的实验通常需要比KD更多的训练时期。考虑在CIFAR-100上使用EEI策略执行RCO。令M间隙是EEI中使用的历元间隔。为了获得4个锚点,我们可以将Mgap设置为60。然后选择的锚点应该是第60、120、180和240个历元。使用学习序列训练的学生总共需要960个epoch,因为每个锚点都要训练240个epoch以确保收敛。然后,我们将EEI策略从多阶段加速到一阶段(一阶段EEI),在那里我们只训练学生240个epoch,通过简单地修改训练范式如下:对于学生的前60个时期,学生最初由教师的第60个时期监督,然后对于下一个60个时期,学生由教师的第120个时期监督,等等。在一阶段EEI中,评估不同数量的锚点的影响是很自然的设K为训练集的大小。我们从最小的情况开始计算M间隙,其中M 间 隙为1/(K/BatchSize)(表6中为1.28E-3,这意味着学生模仿教师的每次迭代)。 然后逐渐增加M间隙到最大情况,其中M间隙是最大时期(240),并且RCO退化为KD。从优化路由的角度来看,我们发现[33]中的方法可以被视为RCO的一个特例,即将Mgap设置为最小值,并以KD损失而不是MSE损失来匹配logits。此外,我们还按照[32]实现了DML,并与KD进行了表6中的结果表明,RCO在所有设置中优于其他方法。在CIFAR-100上,通过适当选择Mgap为10,RCO分别比KD和DML提高了4.2%和3.8%。方法M间隙锚钉编号top-1[32]第三十二话--61.13[33]第三十三话1.28E-318750061.63124062.74212063.7846064.21RCO102465.01201263.8860464.5KD240160.79表6:在有限的培训时间内,基于一阶段EEI的RCO与其他知识转移方法的比较。它清楚地表明RCO通过使用相同的训练时期优于其他方法。不同策略的比较。 由于战略是RCO最重要的组成部分,本文对这些战略进行了比较.出于实际考虑,我们将训练时期限制为不超过KD时期的四倍。我们选择了以下策略进行比较:一阶段EEI,EEI-x,GS,其中“EEI-x”中的“x”表示使用EEI策略选择的锚点的数量。结果示于表7中。结果表明:(1)所有策略均优于KD,(2)GS是其中最优的策略,因此在训练时间不受限制的情况下应采用GS。4.5. 可视化轨迹的可视化。为了进一步分析我们的方法,我们使用PCA绘制学生顶部-1@牵引器尺寸1352战略一期M间隙总时期top-1KD✓24024060.79单级EEI✓1024065.01EEI-2✗12048061.43EEI-3✗8072063.34EEI-4✗6096065.27GS✗-72065.41表7:基于CIFAR-100的不同策略的RCO比较。在所有策略中,GS策略取得了最好的效果。Δlo33C·p·G·l·罗克奇21.510.500.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1ẟSęçQQĘ cpç图6:KD损失和RCO损失之间的损失差距随高斯噪声的曲线。δ表示高斯噪声的尺度。RCO损失代表KD损失与RCO损失之间的损失差距。较大的热损失意味着RCO的损失低于KD。最下面一行显示了部分噪声图像。图5:在CIFAR-100数据集上,通过MobileNetV 2的PCA方向显示学生 的训练轨迹。这些 学生网络通过不 同的方法(SoftMax,KD和Ours)进行训练红色曲线代表使用RCO培训的学员,线上的蓝点红色曲线到达其中最低的局部最小值。Liet al建议的方向。[16]第10段。 过程如下:给定n个训练时期,让W mi表示时期i的模型参数,最终估计为W mn。然后我们将PCA应用于矩阵[W m0-W mn;. ;Wmn−1−Wmn],并选择最多的两个主方向。在图5中,在CIFAR-100上为学生绘制了三种模式的MobileNetV 2训练轨迹:1)软最大值,2)KD,3)建议的方法(我们的)。对于一个公平的计算器,三个学生用相同的参数(标记为红点)初始化,每个学生训练240个epoch,其中RCO使用具有三个锚点的一阶段EEI。对于RCO的曲线,线上的蓝点显示学生由中间锚点引导的时期。对于KD或Softmax,学习率下降的时期显示为黑点。第一个锚点使学生远离Softmax或KD建议的方向,到达一个中间状态。状态本身可能不存在于性能良好的参数空间中,而是在在锚点之后,学生网络最终达到更深的局部最小值,这充分说明了教师网络优化路径的重要性。对噪声的鲁棒性可视化。除了优化轨迹的可视化外,我们还观察到新的局部极小值具有更好的推广能力,并且对输入空间中的随机噪声具有更强的鲁棒性我们考虑到给测试图像带来噪声。首先,我们计算每个图像的标准偏差σin,并通过步长0.1将δ设置为0.0至1.0噪音是sam-从N(0,σ2)中求出,其中σ=σ∈ σδ。我们选择一些噪声图像,并将它们显示在图的底部行6.图像在第一列是清晰的,但是随着δ增加,图像变得难以辨认,特别是对于最后一列。我们在使用KD和RCO训练的模型上进行了这个实验,并比较了它们的从KD到RCO的损失差距随着δ的增加而变得更加显著,这表明用RCO训练的模型比KD对噪声更结果在图6的顶部。5. 结论本文提出了一种简单有效、普遍适用的提高小型学生网络性能的方法。学生网络通过构造一个由易到难的学习目标序列,可以获得比其他知识传递方法更高的性能。此外,我们提供了两个可用的策略来构建锚点序列。对于未来的工作,我们想探索的策略,自动设计的学习序列。鸣谢本研究得到了国家重点研发计划项目(编号:2018YFB2101100)和国家自然科学基金项目(编号:61836014)的部分资助。1353引用[1] YoshuaBengio , Je´ ro meLouradour, RonanCollobert ,andJa-son Weston.课程学习。国际机器学习会议,第41-48页,2009年[2] Rich Caruana和Alexandru Niculescu-Mizil。模型压缩。ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining,第535-541页,2006年。[3] Jiankang Deng,Jia Guo,and Stefanos Zafeiriou. 弧面:用于深度人脸识别的附加角边缘损失2018.[4] PriyaGo yal , PiotrDolla´r , RossGirshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,Yangqing Jia,and Kaiming He.准确、大的小批量sgd:1小时内训练imagenet arXiv预印本arXiv:1706.02677,2017。[5] Yandong Guo,Lei Zhang,Yuxiao Hu,Jongdong He,and Jianfeng Gao. Ms-celeb-1m:在现实世界中识别一百万名人的挑战。电子成像,2016(11):1[6] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,2015。[7] Song Han,Jeff Pool,John Tran,and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统的进展,第1135-1143页,2015年[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition,第770-778页[9] Yihui He ,Ji Lin ,Zhijian Liu ,Hanrui Wang,Li JiaLi,and Song Han. Amc:Automl用于移动设备上的模型压缩和加速。2018年。[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。2014年[11] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko,Weijun Wang,Tobias Weyand,MarcoAn- dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。[12] Itay Hubara,Matthieu Courbariaux,Daniel Soudry,ElYaniv Ran,and Yoonge Bengio.量化神经网络:用低精度 权 重 和 激 活 训 练 神 经 网 络 。 Journal of MachineLearning Research,18,2016。[13] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。[14] Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,and Li Fei-Fei. Mentornet:在损坏的标签上学习数据驱动的深度神经网络课程。在ICML,2018。[15] Hao Li,Asim Kadav,Igor Durdanovic,Hanan Samet,and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv:1608.08710,2016。[16] Hao Li,Zheng Xu,Gavin Taylor,and Tom Goldstein.可视化神经网络的损失景观。arXiv预印本arXiv:1712.09913,2017。[17] Quanquan Li,Shengying Jin,and Junjie Yan.模仿非常有效的网络进行对象检测。2017年IEEE计算机视觉和模式识别会议(CVPR),第7341-7349页。IEEE,2017年。[18] Yuncheng Li ,Jianchao Yang ,Yale Song, LiangliangCao,Jiebo Luo,and Li-Jia Li.用蒸馏从噪声标签中学习。在IEEE计算机视觉国际会议论文集,第1910-1918页[19] Zhuang Liu,Jianguo Li,Zhiqiang Shen,Gao Huang,Shoumeng Yan,and Changshui Zhang.通过网络瘦身学习高效的卷积网络。在计算机视觉(ICCV),2017年IEEE国际会议上,第2755-2763页IEEE,2017年。[20] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr:随机梯度下降与热重启。2016. arXiv预印本arXiv:1608.03983。[21] 罗平,朱振耀,刘紫薇,王晓刚,唐晓鸥,罗平,朱振耀,刘紫薇,王晓刚,唐晓鸥.通过从神经元中提取知识来压缩人脸模型2016年AAAI商业智能[22] Seyed-Iman Mirzadeh , Mehrdad Farajtabar , Ang Li ,and Hassan Ghasemzadeh.通过教师助理改进知识提炼:弥合学生和老师之间的鸿沟。arXiv预印本arXiv:1902.03393,2019。[23] Pavlo Molchanov,Stephen Tyree,Tero Karras,TimoAila,and Jan Kautz.修剪卷积神经网络以实现资源高效推理。2016年。[24] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets:薄而深的网的提示。arXiv预印本arXiv:1412.6550,2014。[25] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2:反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集,第4510-4520页[26] 作 者 : Gregor Urban , Krzysztof J. Geras , SamiraEbrahimi Kahou,Ozlem Aslan,Shengjie Wang,RichCaruana,Abdelrahman Mo
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功