知识浓缩蒸馏：教师指导学生主动学习的新视角

55 浏览量更新于2023-11-30 收藏 918KB PDF 举报

学生模型

神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文知识浓缩蒸馏李晨欣1，林明宝2，丁志远1，聂林4，庄义红1，黄跃1，3，丁兴浩1， 3，曹柳娟11厦门大学信息学院2腾讯优图实验室3厦门大学人工智能研究所4湖南大学linmb001@outlook.comchenxinli@stu.xmu.edu.cndingzhiyuan@stu.xmu.edu.cnnielin@hnu.edu.cn{zhuangyihong，yhuang2010，dxh，caoliujuan} @ xmu.edu.cn抽象的。知识蒸馏（KD）从高能力的教师网络转移知识，以加强较小的学生。现有的方法主要集中在挖掘知识暗示，并将全部知识传递给学生。然而，由于知识在不同的学习阶段对学生表现出不同的价值，从而产生了知识在本文中，我们提出了知识浓缩蒸馏（KCD）。具体地说，每个样本上的知识值是动态估计的，在此基础上的期望最大化（EM）框架是伪造的迭代浓缩从教师的紧凑的知识集，以指导学生学习。我们的方法很容易建立在现成的KD方法之上，没有额外的训练参数，计算开销可以忽略不计因此，它为KD提供了一个新的视角，即学生根据自己的能力，主动地识别教师在标准基准上的实验表明，所提出的KCD可以很好地提高学生模型的性能，甚至更高的蒸馏效率。代码可在https://github.com/dzy3/KCD上获得。关键词：知识升华;主动学习;有效培训1介绍虽然深度神经网络（DNN）在计算机视觉领域取得了巨大的成功，但大多数先进的模型在计算上过于昂贵，无法部署在资源受限的设备上。为了解决这个问题，在过去的几十年里，人们一直在探索轻量级DNN典型的方法包括网络修剪[18]、参数量化[36]和神经架构搜索[2]等。在所有这些方法中，知识蒸馏[10]被广泛地集成到他们的学习框架中，从而将原始的繁琐模型（教师）转移到其通讯作者arXiv：2207.05409v1 [cs.CV] 2022年7+v：mala2255获取更多论文……知识渊博。无信息的知识。前馈反馈冷凝2C. Li等人KD知识浓缩蒸馏的现有范式t=1t=2t=1t=2老师学生t=T学生t=T图1：现有KD范式与我们的KCD的比较左：现有范式在整个培训过程中将教师模型中的完整知识点转移，而不管学生在不同阶段的价值如何。右：首先根据学生当前的能力估计知识点，然后将其浓缩为学生模型的紧凑但信息丰富的子部分。知识，以提高其压缩版本的识别能力，即学生模特。由于其灵活性，KD在各种视觉任务中越来越受欢迎。在大多数关于KD的现有研究中[10，25，13，30，22，4，17，16]，整个样本空间的知识提示，如软预测[10]，中间表示[25]，注意力地图[13]等，在整个训练过程中被转移到学生模型中，如图所示1（左）。然而，这些方法忽略了学生模型在不同学习阶段的变化能力。具体来说，教师模型中的所有知识点对于处于幼儿学习阶段的学生模型来说都是足够的然而，随着学习的进行，不同知识点的价值对学生来说开始不同。比如，“熟记”的知识点，在后期的训练阶段对学生的因此，在现有的研究中，学生模型被动地从教师那里接受所有的知识点，从而引起了对知识转移冗余的关注。这进一步带来了两个严重问题：（1）培训负担。冗余知识不仅需要额外的存储空间，而且会增加训练时间.（2）业绩不佳。这种冗余性使得学生模型不能充分集中于信息量更大的知识，从而削弱了学生模型的学习效能。为了克服上述挑战，如图1（右）所示，本文提出了KD的新视角，其核心是两个主要折叠：（1）引入反馈机制，挖掘教师知识对不同培养阶段学生的不同价值。（2）学生主动识别信息性知识点，并逐步浓缩核心知识集进行提炼。为此，我们提出了一个知识浓缩蒸馏（KCD）范式，即知识价值的标签，以学习，……+v：mala2255获取更多论文知识浓缩蒸馏3dent模型被编码为一个潜在变量，并期望最大化（EM）框架是伪造迭代浓缩教师此外，考虑到学生学习中的局部批量训练潮流，我们提出了在线全局值估计（OGVE）模块，以动态估计全局知识空间上的知识值为了生成一个紧凑而有效的教师知识编码我们在两个基准点CIFAR100 [14]和ImagetNet [5]以及KD中的许多代表性师生网络我们表明，我们的KCD可以很好地建立在大多数现有的KD管道作为一个即插即用的解决方案，而不会带来额外的训练参数和计算开销。我们的贡献总结如下：– 我们提出了一种新的KD范式的知识浓缩，其中的知识转移是主动确定的学生模型，和一个简洁的编码浓缩从整个知识集利用KD。– 我们推导出一个期望最大化框架，通过迭代地执行知识冷凝和模型蒸馏来完成我们的– 我们提出了一个OGVE模块，以获得一个近似的全球估计的知识价值，同时只利用本地的训练统计。我们进一步提出了一个VAKS模块，以协调知识压缩编码的紧凑性和信息量之间的权衡。2相关工作知识蒸馏。KD的开创性工作可以追溯到[10]，其中教师的软概率分布被提取出来以便于学生从那时起，大量的发展致力于挖掘更丰富的知识提示，例如中间表示[25，9]，注意力地图[13]，实例关系[32，23]，自监督嵌入[30，34]等。所有这些方法都将所有训练实例上的知识传递给学生，而不管不同的训练阶段。接着，我们研究了教师最近的一项研究[35]通过识别每个训练批次中信息量最大的样本来考虑KD的效率问题。我们的方法不同于以下方面。首先，该研究[35]探索了教师和学生模型向前传递中计算开销的差异，并在蒸馏过程中固定了知识集。作为我们方法的比较，知识集被动态压缩并显式编码模式学生模型在训练中。其次，我们在完整的样本空间上估计知识值，而不是每一个批次，这是更准确和全面的。+v：mala2255获取更多论文Se步骤凝聚蒸馏不Sm步教师模型学生模型Knowl.点知道。去除在线全球价值评估价值-适应性知识摘要（（（（.-是的ΣSTSX- 是的Σ{|∈ X}不4杯 Li等人点X值V（x）频段F（x）00.85210.165………N-10.696N0.434(a) （b）了解成本的价值排序（c）知识划分（d）适应性知识增加图2：拟议的KCD框架概述知识浓缩和学生蒸馏迭代优化EM框架。Coreset Construction. 另一个相关的文献是coreset建设的问题[8，26]。它们背后的主要思想是，通过选择数据本身，学习代理仍然可以在较少的训练样本下表现良好。大多数现有的工作[12，33，31，20，40]通过重要性抽样来构造该核心集例如，在[12]中，样本重要性通过其损失梯度的大小来估计w.r.t. 模型参数CRAIG [20]选择训练数据的加权核心集Wang等人[33]从整个数据集中提取知识，以生成一个合成的较小数据集。这些思想启发我们从教师那里寻找整个知识集合的核心成分，以实现有效的知识传授。3方法3.1预赛在知识提取（KD）任务中，我们得到一个训练数据集、一个预先培训的教师模型和一个有待学习的学生模型. Hinton等人[10]提出最小化教师的输出概率pT（x）和学生的输出概率pS（x）之间的交叉熵损失：LKD= −pT（x）log pS（x）。（一）x∈X将每对x，p，T（x）表示为知识点，教师T实质上提供知识集合K=p，x，pT（x）X，然后将其转移到学生。在常规KD中，知识集K在整个KD中是固定的。蒸馏过程中，尽管不同的学习阶段的学生模型。作为一个核心区别，我们建议简单地传递一个简明的知识，+v：mala2255获取更多论文||||.Σ{|∈ X}Y ∈ {}ΣΣΣΣΣΣΣQ（y）−∈YSx∈X c∈Cy∈Y知识冷凝蒸馏5其中<知识点是最有价值的，适应不同时期学生模型的需要。在下面的内容中，我们表明，有效编码K_∞可以由期望最大化（EM）框架，将学生模型的知识值编码为潜在变量Y，我们可以识别知识集K中最有价值的成分。图2显示了所提出的方法的概述3.2知识浓缩蒸馏KD在Eq.（1）学习学生模型的参数θ，以最大化教师T和学生S之间的负交叉熵：θθ=argmaxpT（x，c）logpS（x，c;θ），（2）θx∈X c∈C其中C表示类空间。而不是转移完整的知识集K=x ，pT （x ）X，我们引入一个二进制值变量0，1 |K|第i个值表示第i个知识点对学生是否有价值。这样，传统的优化方程。（2）在我们的设定中变成：θ= arg maxpT（x，c）log pS（x，c，y; θ）。（三）θx∈X c∈Cy∈Y为了最大化这个目标，我们考虑它的下界替代：T（x，c）logS（x，c，y;θ）x∈X c∈C=pTx∈X x∈C≥pTx∈X c∈Cy∈Y（x，c）logQ（y）pS（x，c，y;θ）Q（y）y∈Y（x，c）Q（y）logpS（x，c，y;θ），Q（y）y∈Y（四）其中Q（y）表示值标签Y的空间上的分布，使得y∈YQ（y）=1.注意，我们基于Jensen不等式导出最后一步根据本条件下，分布Q（y）应为：pS（x，c，y;θ）pS（x，c，y;θ）Q（y）=y∈Y=pS（x，c，y;θ）p（x，c; θ）=pS（y; x，c，θ）.（五）去除方程中的常数项yQ（y）logQ（y）（4）结合Eq.（5）导致我们最终的优化：pT（x，c）（六）+v：mala2255获取更多论文ΣR∈{···}−≥·2≥x∈X c∈Cy∈Y6摄氏度。 Li等人上述问题的最大化可以通过期望最大化（EM）算法来实现，如下所述：E步在这一步中，我们的目标是评估值分布Q（y）=pS（y;x，c，θ）。在此之前，我们首先讨论如何测量每个知识点（x，pT（x））的值，其中的洞察力是双重的：首先，已经证实，如果模型是通过教师模型的知识提示提取的，而不是单独训练的，则平均预测熵损失会急剧下降[21]。这体现了知识点对学生模型训练的贡献。其次，如[27]中所讨论的，编码信息语义结构的知识往往需要更多的训练时间才能使学生模型更好地适应。这两个见解表明，预测熵损失可以作为衡量知识价值的一种选择此外，信息知识往往会导致更大的熵损失。因此，给定一个知识点（x，pT（x）），我们利用它的预测熵来度量它的值：V（x）= − pS（x，c）log pS（x，c）。（七）c∈C利用预测熵，为了估计pS（y; x，c，θ），我们进一步以关于. r. t的降序进行排序操作。V（x）除以X。然后，基于排序位置V（x）0，1，.，N，我们推导出关于知识价值的相对似然概率：pRV （y; x，θ）= 1RV（x）.（八）|X|然后，值标签pS（y; x，c，θ）的似然性可以通过阈值τ来确定：如果pRV（y;x，c，θ）τ，则pS（y; x，c，θ）= 1，否则为0。M步E-step后，Eq.（6）可以改写为：pT（x，c）x∈X c∈Cy∈Y（九）=<$$>pT（x，c）<$I（pRV（y;x，θ）≥τ）logpS（x，c，y;θ），其中，如果输入为真，则I（）返回1，否则返回0。当没有提供训练样本时，我们假设在y（0或1）上的一致先验：1pS（x，c，y;θ）=pS（x，c;y，θ）pS（y;θ）=2·pS（x，c;y，θ），（10）其中pS（y; θ）=1，这是由于均匀分布的前提。然后是...S（x，c; y，θ）仅以估计值标签Y为条件，即，I（pRV（y;x，θ）τ）.我们只对标签y= 1的知识点进行蒸馏。因此，我们可以在等式中重写最大估计。（2）作为：θ= arg minθΣ Σ−pT(x, c) logpS (x, c;θ),(11)x∈X| Y（x）=1c∈C+v：mala2255获取更多论文∈XX.ΣXXF（x）.Σ×F（x）R（x）= arg sortV（x）F（x），（13）知识冷凝蒸馏7其中x仅在条件y= 1时才可用于蒸馏。因此，我们的KCD迭代地执行E步和M步。前者的目标是找到标签Y的分布和简洁的知识编码K是由y=1的k个非线性项组成的，而后者实现了在简洁集K上的有效蒸馏。然而，目前的神经网络工作以批处理方式训练，其中每次向前馈送一小部分样本。这些局部样本批次阻碍了从整个训练数据集中直接提取简明的kn osetK. 在此基础上，提出了一种在线全局值估计方法来解决这一问题。3.3在线全球价值评估为了将有价值的知识集K**浓缩在全局帧中，我们设计了在线全局值估计（OGVE）来导出整个训练数据集的全局统计，该训练数据集包括在线值记录和以下成本感知排名：在线价值记录。pS（y;x，c，θ）的估计通过在E步的整个（全局）样本空间上的pRV（y;x，θ）来进行然而，只有一小部分的子集（本地）的知识可以在每个训练iteration。此外，相同的样本x可能在不同的训练阶段频繁出现为了缓解这个问题，我们建议考虑以下历史统计数据：X.从技术上讲，当x在特定的训练迭代中被馈送到网络时，我们首先计算x在训练中的频率，表示为F（x）。此外，我们使用等式（1）计算其在当前训练迭代的预测熵V（x）（七）、然后，以在线移动平均方式更新知识点x的全局值pT（x），如下：VF（x）（x）= F（x）−1× V F（x）−1+ 1V（x）。（十二）成本意识排名。基于所记录的VF（x）（x）的全局统计，我们可以在不引入任何额外开销的情况下获得RV（x然而，在当前的设计中，具有相似值的两个知识点的排名顺序可能是相同的，即使它们的训练频率非常不同，这是违反直觉的，因为神经网络倾向于记忆并为这些曾经见过更多次的样本提供低预测熵[7]。因此，具有相似V（x）但训练成本较高F（x）的知识点对于学生模型来说应该更关键考虑到这一点，在排名操作中，我们使用训练频率F（x）重新加权V（x）为：F（x）αVx∈X其中α控制F（x）的加权效应。当量公式（13）不仅考虑V（x）的状态，而且考虑实现该状态的成本F（x将Rv（x）组合在等式（13）和等式（14）中的pRV（y;x，θ）（8）可以估计thevalue值la belY. 因此，简明的知识编码K包括：+v：mala2255获取更多论文̸||||8摄氏度。 Li等人y= 1的知识点。随着训练的进行，许多学习得很好的知识点对学生模型来说变得不那么有价值了然而，相对似然概率pRV（y;x，θ）= 0指示再次被选择的可能性相反，我们进一步提出了一个值自适应的知识摘要，解决这个问题，在一个分而治之的方式。3.4价值-适应性知识摘要我们的价值自适应知识摘要（VAKS）执行简明的知识编码在两个步骤的方式，包括知识分区和自适应知识增强。知识分割。根据我们的OGVE，我们可以得到一个显式的标签集Y。然后，原始知识集可以被划分为K1，y=1和K0，y=0。对于K0中的知识点，我们认为它们是没有价值的，因此我们选择直接丢弃它们。对于K1，基于相对似然概率RV（x），我们进一步将其划分为元素具有相对高RV（x）的集合K1H和元素具有相对低RV（x）的集合K1L，如图所示。二、此外，我们的划分还要求K1L与K0的大小相同，即K1L与K0的大小相同. ，K1L = K0，其原因将在下面的自适应知识扩充中给出。K1H中的知识点对学生有价值的可能性很高，因此它们可以像传统KD一样安全地传递给学生。然而，K1L中的知识却处于一种虽然它们被认为是有价值的，但它们往往不如K1H中的知识有价值，并且容易被学生吸收这就激励我们加强K1L中的知识点。一种直接的方法是引入基于梯度的蒸馏[33，37，41]来生成新的知识内容。然而，大量的时间消耗阻碍了它的应用。在下文中，我们将介绍一种自适应知识增强方法，以免训练的方式实现这一目标。适应性知识增强。我们对知识增强的见解来自对抗性示例领域[29，6]，其中细微的扰动会极大地混淆模型识别。同样地，我们也寻求K1L中知识点的扰动.值得注意的是，为了找到对抗性例子中最具破坏性的干扰，我们的目标是使用一些知识方面的扰动来增加知识点，使它们对学生模型更具信息性。具体地，表示S={|K1|、|K1|-1，...， |K1L|}，如图所示。 2.提出了充分利用K0中被去除的无价值知识，以极小的扰动率ε来扩充K1 L中的知识点。如：KAug= Ordered（K1L）Ordered（K0）（S），（14）其中，Ordered（·）根据知识点的值将其输入集降序排列，并且表示逐元素添加操作。记得|为|K0|在我们的设置中，该方法是适用的。|inoursetting,t hus,the⊕isapplicable.定义为：（x′）=|K0|（x′−|K1|）+m.（十五）+v：mala2255获取更多论文知识冷凝蒸馏9算法1知识浓缩蒸馏输入：训练数据集X;具有可学习参数θ的学生模型S;由预先训练的教师模型T生成的完整知识集K。要求：学习阶段中的epoch数T;期望的最终知识凝结率ρ。输出：含参数θ的蒸馏研究模型;压缩知识边界编码K（|K|为|K|·ρ）。1：初始化。K=K;2：对于i = 0，...，Iepoch do第三章：# M-step：知识蒸馏4：通过等式（1）在凝聚的kn ok kk上提取研究对象S的θ k。（11）;5：#E-step：知识浓缩第六章：##通过建议的OGIE估计K上的知识价值（第（第3.3段）第七章：Cal. 在紧（local）kn空间K上通过等式V（x）来定义值V（x）。（7）;在线更新完整（全局）知识空间K上的历史记录VF（x）（x），通过等式（十二）;八：如果i%T= 0，9：经由等式（1）计算知识值RV（x）的排名位置（13）;经由等式（14）计算基于排序的似然概率（8）;不10：将pRV（y;x）与当前阶段t=i/T处的阈值τ二值化;确定完备知识空间K上的值标号Y（y= 1或0）;11：##通过所提供的VAKS总结知识 3.4）;12：通过标记Y将K划分为K1和K 0;将K1划分为K1 H和K1 L，s.t.|为|K0|;|;13：经由等式14的增强件K1L（14）Eq.（15）;图14：通过K_n=K_1 H_nK_Au_g总结紧致知识。15：如果结束16：结束因此，S是一个从0线性增加到预先给定的m的集合（见图2）2）。直觉上的直觉是把位置较低的知识点w.r.t. 知识价值得到更大的增长效果，职位越高的人越能保持原有的知识内容。最后得到了一个新的kn-缩合物Kn=K1HKAug.3.5总体手术我们建议的KCD的整体程序在Alg中描述1.一、所提出的框架迭代地执行E步骤中的知识浓缩和M步骤中的知识蒸馏，这实际上可以被公式化为基于阶段的学习框架。总的I训练时期被平均地划分为I/T学习阶段，每个阶段具有T时期。在每个阶段内，在固定知识集上进行T个时期的蒸馏，然后记录每个训练批次中的知识值（等式 10 ）。（12））。在每个阶段结束时，我们在整个知识集中执行排名步骤w.r.t.知识价值（方程式）（ 13））和知识总结（方程式）。（14））。以浓缩更小的信息知识集。然后将浓缩的一种用于下一阶段。+v：mala2255获取更多论文V×××10 ℃。 Li等人值得注意的是，计算开销的减少主要来自于在KD期间使用更紧凑的kn_o_encoding_K_n。为了定量地描绘这一点，绝对成本Ca通过所使用的知识点的数量来计算，例如，，Ca=|K|·I用于常规KD。我们进一步计算相对成本C，作为我们的KCD和传统KD基线之间的Ca|·（τ 0 + τ 1 + · · · + τ t + · · · + τ I/T）· T|·(τ0+ τ1+···+ τ t+···+ τ I/T)·TC=|K|·I（十六）其中，τt表示基于排名的概率pR的阈值（等式2）。（八）对于第t阶段的值标签Y。它控制着冷凝率，| 为|K|· 第 t 级的 τt 和最终冷凝速率 ρ=τI/T 。 |·τtatt-thstageandthefinalcondensationrateρ= τI/T.4个实验数据集。我们在KD的两个基准数据集上进行了实验，即CIFAR100 [14]和ImageNet [5]。CIFAR100包含50K训练图像，每类500张图像，10K测试图像，每类100张图像。图像大小为32 32。ImageNet是一个大规模的分类数据集，包含120万张图像，超过1K个类用于训练，50K用于验证。图像大小为224 224。实施细节。遵循[30，34]中的常见做法，我们采用随机梯度下降（SGD）优化器，动量为0.9，权重衰减为5 10 −4。批量大小对于CIFAR-100设置为64，对于ImageNet设置为256。对于CIFAR100 [14]，学习率初始化为0.05，并且在前150个epoch之后每30个epoch衰减0.1，直到最后240个epoch。对于ImageNet [5]，学习率初始化为0.1，并衰减为每30个时期0.1在没有规范的情况下，Alg.1的设置如下：对于CIFAR100，我们设置I= 240，T= 40;对于ImageNet，设置I = 90，T我们设定最终冷凝率ρ = 0。7.在每个学习阶段之后，冷凝阈值τ初始值为τ0=T/τEρ=0。9423. 设α=0。03在Eq. （13），和方程中的扰动率（15）从0到0.3线性增长（λm= 0. 3）。4.1与最先进技术的CIFAR100的结果。我们比较了各种代表性的最先进的KD方法，包括vanilla KD [10]，FitNet [25]，AT [13]，SP [32]，[1]，[2]，[3]，[4]，[5]，[6]，[7]，[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16]，[17]，[18]，[19我们直接引用他们论文中报道的定量结果[30，4，3，22]。对于教师和学生模型的网络，我们使用Wide残差网络 [38]（缩写为 WRNd-w ），MobileNetV 2 [11]（MN 2），ShuffleNetV 1 [39] /Shuf-fleNetV 2 [19]（SN1/SN 2）和VGG 13/VGG 8 [28]（V13/V8）。R110、R56和R20 表示 CIFAR 风格的残差网络，而 R50 表示 ImageNet 风格的ResNet50。教师和学生代表教师和学生模型在单独训练时的表现+v：mala2255获取更多论文知识浓缩蒸馏11表1：CIFAR100上学生网络的测试Acc.（%）。粗体和下划线表示最佳和次佳结果。是否配备现代方法与我们的KCD的比较在两组列中示出了相同架构和跨架构实验。老师型号：W 40 -2 W 40 -2R56 R32x4 V13V13 R50 R50 R32x4 R32x4 W40-2学生公司简介R8x4 V8MN2 MN2 V8 SN1 SN2 SN1老师75.61 72.34 79.42 74.6474.64 79.34 79.42 79.42 75.61学生73.26 73.26 69.06 72.50 70.3664.60 70.36 70.50 71.82 70.50[10]第10话74.92 73.54 70.6667.37 67.35 73.81 74.07 74.45 74.83[25]第二十五话73.58 72.24 73.50 71.0264.14 63.16 70.69 73.59 73.54[第13话]74.08 72.77 70.55 73.4459.40 58.58 71.84 71.73SP [32]73.83 72.43 69.67 72.94 72.6866.30 68.08 73.34 73.48英国[1]74.11 73.30 70.3865.56 67.57 70.30 73.38 73.40RKD [23]73.35 72.22 69.61 71.90 71.4864.52 64.43 71.50 72.28 73.21[24]第二十四话74.54 73.45 70.3467.13 66.52 73.01 74.10 74.69CRD [30]75.64 74.38 71.6369.94 69.54 74.58 75.12 76.05 76.27WCoRD [3]76.11 74.7271.9270.02 70.12 74.68 75.77 76.48评论KD [4]76.1275.09 71.89 75.6370.37 69.89 - 77.4577.78SSKD [34]75.6675.2770.96七十五点一二70.92 71.14七十五点七二77.9178.3776.92KC-KD75.70 73.84 70.75（+0.78）（+0.30）（+0.09）（+0.72）（+0.46）68.61 67.94 74.41 74.33（+1.24）（+0.59）（+0.60）（+0.26）（+0.74）（+0.77）公司简介75.01 74.12 72.08 74.4567.99 67.92 73.32 74.60 75.79（+0.47）（+0.67）（+1.74）（+0.81）（-0.06）（+0.86）（+1.40）（+0.31）（+0.50）（+1.10）（+1.89）KC-CRD75.9374.60七十二点一一75.7874.3869.90 69.82 74.49 75.74 76.44（+0.29）（+0.22）（+0.48）（+0.32）（+0.09）（-0.04）（+0.28）（-0.09）（+0.62）（+0.39）（+0.13）KC-SSKD76.2475.3571.3176.48七十四点九三71.3271.2975.6578.2878.59 77.61（+0.58）（+0.08）（+0.35）（+0.68）（-0.21）（+0.40）（+0.15）（-0.07）（+0.37）（+0.22）（+0.69）表2：CIFAR100上计算成本为C的测试Acc.（%），与关注蒸馏效率的唯一现有方法UNIX [35]相比。教师WRN-40-2 WRN-40-2 resnet 56 VGG 13 VGG 13ResNet 50学生WRN-16-2 WRN-40-1 resnet 20VGG 8 MobileNetV 2 VGG 874.92科威特第纳尔（100%）73.54（100%）70.66（100%）72.98（100%）67.37（100%）73.81（100%）UNIX-KD75.19（75.3%）73.51（73.1%）70.06（76.0%） 73.18（76.4%） 68.47（77.5%）73.62（68.9%）UNIX-KD 75.25（81.6%） 74.18（81.6%）） 70.19（81.6%） 73.27（81.6%） 68.58（81.6%） 74.24（81.6%）KC-KD75.70（81.6%）73.84（81.6%）70.75（81.6%）73.44（81.6%）68.61（81.6%）74.41（81.6%）11对师生对的实验结果见表1。1.一、我们可以看到，在vanilla KD上构建所提出的知识凝聚（KC）显示出令人印象深刻的改进。此外，我们的KCD在各种现代KD方法之上都表现出明显的准确性增益。更重要的是，所提出的KCD只利用浓缩的知识，这享有的优点，准确性和效率。我们还将KCD与唯一关注KD计算成本的现有工作进行了比较，即UNIX [35]。选项卡. 2显示了精度和计算成本C5的结果（见等式2）。（16））。值得注意的是，我们的KCD的计算C与网络无关，因此在不同的教师之间保持固定5本方法中C的计算过程详见附录。+v：mala2255获取更多论文†R12摄氏度。Li等人表3：ImageNet上从ResNet 34到ResNet 18的前1/-5错误（%）。采用该方法后，计算量C降低了100%→ 81.61%，Ca降低了114 M → 81 M.茶史都[第13话]SP[32][34]第四十二话：我的世界KD KC-KD[10个国家]（我们的）CRD KC-CRD[30个]（我们的）ReKD KC-ReKD[4]（Ours）Top-1 26.69 30.25 29.30 29.3829.4528.38 29.3428.6128.8328.4628.3927.87Top-5 8.58十点九三十点二十分10.419.3310.129.629.879.539.499.08表4：四种KD过程中拟定KCD的消融研究（%）。师生WRN-16-2 VGG13VGG8VGG13MobileNetV2Resnet32x4ShuffleNetV2OGVE w/random74.5473.0167.7674.92OGVE，不带OVR75.0173.2667.7374.56OGVE不带CAR75.2773.0467.7974.88OGVE-完整75.4873.0868.2375.16OGVE + VAKS w/KA（λ=μm）75.5773.2068.3475.14OGVE + VAKS（Full）75.7073.4468.6175.19学生对。相比之下，UNIX中的C[35]依赖于教师向前、学生向前和学生向后的样本传递数量之间的比率，因此它在不同的对中呈现不同的值KD表示普通基线，C设定为100%。UNIX表示引用与我们的KCD最相似的原始作品中报道的模型的精度结果。UNIX表示使用他们的公共代码6来运行和评估他们的方法，使用与我们的方法相同的成本设置C。看来，建议的KCD的准确性优于UNIX在相同的计算成本水平。ImageNet上的结果。按照惯例[30，34]，ImageNet上的选项卡. 3显示Top-1和Top-5错误的结果。我们可以看到，在KD，CRD和ReviewKD（简称为ReKD）上构建所提出的知识浓缩都显着降低了测试误差。此外，建议的KC导致相对计算C减少到81。61%和绝对计算量Ca从114 M提高到81 M，在大规模基准测试中训练效率明显提高。4.2进一步的实证分析消融研究。我们验证了建议的框架中的每个组件的效果结果见表1。四、（1）OGVE w/ random表示我们随机分配排名位置V以及值标签Y，而不是使用OGVE。（2）OGVE w/o OVR，w/o CAR，-full表示我们删除在线价值记录（即，估计期间6https://github.com/xuguodong03/UNIXKD+v：mala2255获取更多论文WRN-40-2 > WRN-16-2（随机）WRN-40-2 > WRN-16-2（我们的KCD）resnet32x4 > ShuffleNetV2（随机）resnet32x4 > ShuffleNetV2（我们的.Σ×××知识冷凝蒸馏1376个一点740.75720.5070680.25660.000.10.20.30.40.50.60.70.80.9 1最终知识浓缩率(a) 精度与比率ρ（b）变化的知识值（c）距离矩阵图3：（a）冷凝比ρ变化时的精度。(b)在整个培训过程中，知识价值的变化模式（c）跨越KD过程的值标签的汉明距离小批量训练）、成本感知排名（即，，丢弃等式中的权重F（x）α。（13），并保持OGVE的完整设置。请注意，OGVE的上述变体与标签y=1上的直接选择相结合（3）OGVE + VAKS w/ KA（λ = λm）表示使用非自适应知识扩充，其中λ保持其最大λm =0。三是各点。OGVE +VAKS表示我们提出的KCD的完整结构。当任何组件被移除时，性能似乎相应地下降，这揭示了我们设计的有效性。知识凝聚率ρ的影响。图3（a）显示不同模型的性能（即，随机选择基线和我们的KCD）在不同的KD过程（即，，W 40 -2> W16-2和R32 4> SN2）。我们可以看到，我们的KCD比随机基线有显著的优势，特别是当ρ减小时。值得注意的是，本文提出的KCD算法在ρ为0.6-0.8的范围内比ρ=1的全知识情况下获得了更好的结果，并且在ρ为0.3-1.0的范围内几乎保持了正确率，这意味着本文提出的KCD算法能够识别和总结出紧凑而有效的知识编码，并且对知识集的规模缩减具有鲁棒性.知识价值模式。图3（b）显示了在整个训练过程中知识值的变化的基于排名的概率我们可以看到，知识点的价值对于不同学习阶段的学生是不同的。如红色所示，有些知识点在开始阶段是没有价值的，但在后期会变得越来越重要。图3（c）描绘了关于估计值标签Y的汉明距离矩阵在决赛中阶段，其中距离指示不同KD过程之间的数量不同元素的混合物我们可以看到，当两个KD进程具有相同的学生架构（例如，，V13> V8和R50> V8）或类似的（例如，，R32 4> SN 1和R32 4> SN2），揭示了所识别的知识值确实编码了学生模型的一些“ 模式 ” 。累积（%）+v：mala2255获取更多论文14摄氏度。Li等人累积（%）80.0KCD转移75.070.065.074.475.375.673.373.7DS +VAKS +DS +VAKSV13>V8→R50-V8 R32x4>SN1→W40-2>SN1图4：浓缩知识再利用的表现左图：我们利用浓缩的知识直接从头开始重新训练原始KD过程中的学生模型。右：我们转移浓缩的知识编码，以促进另一个KD过程。浓缩知识的再利用。KD过程中所观察到的知识值的相似性启发我们研究如何重用浓缩的知识进行有效的训练。如图4（左）所示，我们首先使用现成的浓缩知识，从头开始重新提炼学生。“+DS”（直接选择）和“+VAKS”（值自适应知识摘要）表示我们的KCD的两个变体。与我们的标准KCD相比，重新蒸馏的学生在配备“+DS”时的表现明显下降，而在配备“+VAKS”时则达到了相当的结果。如图4（右）所示，我们进一步评估了知识浓缩的可转移性，其中我们转移了在源KD过程中浓缩的知识编码以提高效率。可以看出，性能与标准KCD相比，浓缩知识的传递效率大大降低。相比之下，在传输过程中配备我们的VASK模块，与标准KCD的性能差距缩小了很多。这些观察结果表明，我们的KCD方法，促进有效的培训，重用和转移浓缩的知识的潜力。5结论本文提出了知识浓缩蒸馏（KCD），以解决知识的冗余在KD。该方法的核心思想是首先识别出包含信息的知识成分，然后总结出一个紧凑的知识编码，从而有效地执行KD，而不是依赖于教师模型的整个知识特别是，我们建立了一个迭代优化框架之间的压缩压缩知识编码和压缩学生模型的基础上EM算法。我们进一步提出了两个合作模块来执行建议的知识发现，作为在线全球价值估计（OGVE）和价值自适应知识总结（VAKS）。大量的实验证明了所提出的KCD对国家的最先进的有效性。致谢。本研究得到了国家自然科学基金项目82172033、U19B2031、61971369、52105126的资助。2019HZ 020009）。KCD再蒸馏75.375.7七十五点三75.075.375.273.5+DS+VAKS+DS+VAKSWRN 40 -2> WRN 16 -2 Res32x4 > ShuffleV274.171.869.971.7+v：mala2255获取更多论文知识冷凝蒸馏15引用1. Ahn，S.，Hu，S.X.，Damianou，A.，劳伦斯，北达科他州，Dai，Z.：知识转移的变分信息蒸馏。IEEE计算机视觉和模式识别会议（CVPR）。pp. 91632. 蔡洪，Zhu，L.，中国科学院，Han，S.：Proxylessnas：在目标任务和硬件上直接搜索神经架构。在：学习表示国际会议（ICLR）（2019）3. Chen，L.，中国地质大学，Wang，D.，中国科学院，Gan，Z.，刘杰，赫瑙河Carin，L.：对比表征蒸馏法。IEEE计算机视觉和模式识别会议（CVPR）。pp.162964. 陈佩，Liu，S.，赵，H.，Jia，J.：通过知识回顾提炼知识。IEEE计算机视觉和模式识别会议（CVPR）。pp. 50085. 邓，J.，Dong，W.，Socher河，Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。IEE

下载后可阅读完整内容，剩余1页未读，立即下载