Lipschitz连续性引导的知识蒸馏方法与应用

108 浏览量更新于2023-10-13 收藏 662KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10675∥ ∥Lipschitz连续性引导的知识蒸馏尚玉章1*，段斌1*，宗子良2，聂立强3，颜岩1†1美国伊利诺伊理工学院计算机科学系2美国德克萨斯州立大学计算机科学系3山东大学计算机科学与技术学院{yshang4，bduan2} @ hawk.iit.edu，ziliang@txstate.edunieliqiang@gmail.com，yyan34@iit.edu摘要知识蒸馏通过将知识从较大的教师网络中提取到较小的学生网络中，已经成为最重要的模型压缩技术之一。虽然通过精心设计各种类型的知识，现有的蒸馏方法已经取得了巨大的成功，但它们忽略了神经网络的功能特性，这使得将这些技术应用于新任务的过程不可靠且不平凡。为了解决这一问题，本文首先利用Lipschitz连续性来更好地表示神经网络的功能特性，并指导知识的提取过程。特别地，我们提出了一种新的Lips-chitz连续性引导的知识蒸馏框架，通过最小化两个神经网络的Lipschitz常数之间的距离来忠实地提取知识我们推导出一个可解释的近似算法与明确的理论推导，以解决计算Lipschitz常数的NP-难问题。实验结果表明，我们的方法优于其他基准在几个知识蒸馏任务（例如，分类、分割和对象检测）。我们的代码可在https://github.com/42Shawn/LONDON/tree/master上找到。1. 介绍最近，深度学习模型在计算机视觉[13，8]、自然语言处理[36，33]、信息检索[42，43]和多模态建模[19，18]方面取得了巨大进步。为了满足在资源中装备这些笨重模型的快速需求-*同等贡献。†通讯作者。受限的边缘设备，研究人员已经提出了几种网络压缩范例，例如网络pruning [24，12]，网络量化[20]和知识蒸馏（KD）[16]。在这些压缩方法中，KD通过从较大的网络（教师）转移知识来帮助较小的网络（学生）的训练过程作为最早的创新者之一，Hinton et al.[16]提出使用较大网络的软标签来监督较小网络的训练过程。这些软标签通常被解释为一种从教师那里提炼出来的看不见的知识。除了将软标签视为提炼的知识外，在[45，14，38，41]中设计了各种知识例如，Romero et al. [34]提出了在相应层次的教师指导下培养中间层次的学生，引发了后来基于特征的知识提炼研究的蓬勃发展。研究人员[45，25，39]还调制了相邻特征图之间的关系作为辅助训练学生网络的额外知识。不幸的是，这些基于特征的KD方法中的大多数仅关注于对齐浅层信息，而忽略了两个网络的高级信息，即，学生机械地模仿教师的动作，忽视教师的内在素质。因此，以前的研究将网络视为黑箱，并启发式地选择没有任何功能属性的特征[38，41，48]，这阻碍了要提取的知识的普遍代表。为了解决这个问题，我们认为，利用网络在本文中，我们将Lipschitz连续性纳入KD，将神经网络视为函数而不是黑箱。根据Eq. 4，Lipschitz常数1是输入pertur之间的关系的上限。1函数f Lip的Lipschitz常数是最大范数函数在定义域集中的梯度，反映了函数的Lipschitz连续性。10676∥ ∥对于给定的距离，输出和输出变化，代表神经网络的鲁棒性和表现力[1，29，28]。具体而言，作者在[29，46]中通过约束生成对抗网络（GAN）中鉴别器的权重证明了Lipschitz常数的有效性。此外，表征学习[2，37]中的许多研究表明，深度神经网络能够学习抽象程度越来越高的高级信息。受此启发，我们设计了一个方案来捕获Lipschitz连续性（即计算每个中间块的Lips-chitz常数），并采用捕获的连续性作为知识来指导学生网络的训练。值得注意的是，Lipschitz常数计算是一个NP难问题[40]。我们解决这个问题，提出了一个近似算法与紧上限。特别地，我们为每个分块设计一个传输矩阵（TM），并通过迭代的方法计算TM的谱范数，避免了学习大型中间矩阵的高复杂度。然后，我们聚合所有的 Lipschitz 常数计算 TM 的知识的Lipschitz连续性转移到学生网络。重要的是，由于其可微性，Lipschitz连续性损失函数对于训练深度网络是反向传播友好的。总的来说，本文的贡献有四个方面：• 据我们所知，我们是第一个利用高级功能属性，Lipschitz连续性知识蒸馏，监督学生网络的训练过程。此外，我们从网络正则化的角度从理论上解释了我们的方法的有效性，然后实证巩固了这一解释。• 我们提出了一种新的知识蒸馏框架，Lipschitz CON连续性引导知识DistillatiON（伦敦）从Lipschitz常数蒸馏知识。• 为了避免NP难的Lipschitz常数计算，我们设计了一个传输矩阵来数值近似的网络在 KD 过程中的Lipschitz常数。• 我们进行实验，不同的知识，如分类，对象检测和分割的任务。我们提出的方法在 CIFAR-100 ，ImageNet和VOC数据集上实现了这些任务的最新结果2. 相关工作神经网络的Lipschitz连续性与谱范数。对抗性机器学习的研究[23，31]表明，神经网络非常容易受到基于测试时对模型输入的小修改的攻击，并且估计这种架构的规则性对于实际应用和泛化imm至关重要证明以前的努力[40，29，30]已经研究了评估深度网络规则性的关键特征之一：深度学习架构的Lipschitz连续性。为了保证神经网络对小扰动的鲁棒性，引入了Lipschitz常数，该常数是输入扰动与输出变化之间关系的上界这个Lipschitz常数fLip可以被看作是衡量函数Lipschitz连续性程度的一个标准。除了一些理论研究[1，27，30]解释了新的一般化边界严重依赖于神经网络的Lipschitz常数之外，神经网络的Lipschitz连续性被广泛研究，以实现许多深度学习主题中的最先进性能：（i）在图像合成[29，46]中，研究人员在每一层上使用光谱归一化，这是一种可选的方法，可以约束用于在ImageNet上训练GAN的Lipschitz常数，就像正则化项一样，可以平滑卷积函数。在对抗性攻击机器学习[44]中，作者提出约束神经网络的局部Lipschitz常数以避免对抗性攻击。上述努力强调了Lipschitz常数在神经网络的表达能力和鲁棒性中的重要性。特别是，故意限制Lipschitz连续性（常数）在适当的范围内被证明是一个强大的技术平滑网络，这可以提高模型因此，在知识提炼模型中引入神经网络的函数信息Lipschitz常数，以规范学生网络的训练。知识蒸馏。除了软标签的开创性设计[16]之外，中间特征图的对齐也作为知识转移到学生网络[34]。研究者们不断深入研究基于特征的输出，提出了各种特征映射变换和组合的设计方案，以定义基于特征的知识，极大地提高了知识发现的性能。例如，Heo等人[15，14]指定了网络不同位置中隐藏神经元的激活边界作为用于蒸馏的知识。在[45]中，神经网络的相邻特征映射的Gram矩阵作者[25，4，39]使用奇异值分解（SVD）构建了特征表示的相似性度量，以得出不同层之间的关系作为传递的知识。受这些思想的启发，许多方法被提出来精确地捕获特征明智的知识，通过巧妙地堆积在知识蒸馏模型的复杂机制。例如，Wang等人。 [41]引入了一种注意力机制，为不同的CNN通道分配权重10677S不--−→×−→−∥ ∥∥ ∥−→ ∈∈∥∥×不不S不SSk=1···钱柜此外，Tian等人。 [38]引入了对比学习来捕获相关性和高阶输出依赖性，以监督学生网络训练。这种动态对齐的知识几乎完全探索了提取网络下式在图2中，我们将教师网络的函数形式定义为fT（ W1 ， ... ， WLT;x ），并且将学生网络定义为 fS（W1，...，WLS;x），使得基于特征的KD范例可以被解释为：视野然而，所有那些基于特征的知识蒸馏x∈Data，arg minW1、···、WLSDist（T（fT（x）），T（fS（x），（3）方法将神经网络视为黑盒，其在通过捕获高级信息来探索神经网络的功能特性方面是该限制妨碍了适用性并且阻碍了性能改进。为了缓解这一局限性，我们将Lip- schitz连续性引入到知识提取中.3. 方法在本节中，我们将介绍我们提出的知识蒸馏框架。由于篇幅有限，我们在本节中仅阐述关键的推导。详细的讨论和技术定理可以在补充材料中找到。在这里，我们专注于捕获神经网络的功能属性作为知识，并以数值可访问的方式将其转移到我们的蒸馏方法中。3.1. 初步我们首先定义一个全连接的神经网络，其中L其中，给定相同的数据，KD范例的最终目标是最小化教师和学生之间的距离以优化后者特别地，Dist（）是距离函数，并且（）是将特征图转换为更可测量和可学习的知识的特定转换方法通过利用这些设计的知识，学生网络被迫模仿教师网络，并有希望获得类似的性能与更轻的架构。本文根据神经网络的功能特性，将Lipschitz连续性作为神经网络的泛信息为了使Lipschitz常数的计算在数值上可行，我们进一步提出了Lipschitz常数的一个近似值，并用幂迭代法计算了这个近似值。3.2. 神经网络的函数信息：Lipschitz连续性定义1. 函数f：RnRm称为Lipschitz连续的，如果存在一个常数L使得：···dL（d=ΣLdk）的形式f（x）=（TL◦σ◦TL−1◦··· ◦σ◦T1）（x），（1）其中每个T（k）：Rdk−1Rdk是仿射函数（d0和d L是网络的输入和输出特征映射的大小），σ执行特征映射的元素激活。对于网络的第k层，T（ k ）（u）=Wku+ bk，其中Wk和bk分别代表权矩阵和偏置向量。出于一般性目的，我们丢弃网络的偏置项，使得网络可以简化为：f（W1，···，WL;x）=（WL◦σ◦WL−1◦···◦σ◦W1）（x）.值得注意的是，考虑具有最直接的全连接层的网络就足够了，因为具有复杂结构的层（如卷积层）也可以表示为矩阵乘法的形式我们考虑具有i个输入通道和o个输出通道的卷积层，并且核的大小为w，h，从而得到iowh个参数。我们可以把参数重新排列成矩阵可以保持不等式的最小L被称为函数f的Lips-chitz常数，记为f Lip。通过定义1，f Lip对于给定距离（通常为L2范数）具有上界输入扰动和输出变化之间的关系的优良性质，因此它被认为是评估神经网络对小扰动的鲁棒性的度量[27，40，1]。然而，在知识蒸馏过程中计算神经网络的精确Lipschitz常数是一个NP难问题[40]。为了解决这个问题，我们提出了一个可行的和有效的方法来近似的李普希兹常数KD。我们首先定义第k层T k的仿射函数：fmk−1fmk，其中fmk−1Rdk−1和fmkRdk分别是第k1层和第k层的特征映射。通过补充附录中的引理1，我们有T k 矩阵谱范数ISSN的正式定义如下：Wx使得该卷积层也可以以与另一个完全连接的卷积层相同的方式被处理。WSNSundaymaxx：x=0x= maxxWx层可以。因此，我们的分析在函数f的这种配置中不失一般性。其中矩阵W的谱范数等价于其最大奇异值。因此，对于线性层（二）DDn函数f：R0−→RL：x，y∈R，f（x）− f（y）2≤ L x − y 2。（四）10678L1我J我我KKYkYkk−1Tk−1一第一模块第L模教师网络...TK1不TKL不小批量TK1STKLS...学生网络第一模块第L模输出层关于Lipschitz连续性B第一模块输入特征图FM T0输出特征图FM1不CLipschitz连续性的提取图1.我们建议的伦敦的概述在A中指出。对于师生骨干，除了传统的知识蒸馏损失外，我们提出的Lipschitz连续蒸馏损失是关键要素。每个模块的输入和输出特征图用于格式化传输矩阵TMk，以近似模块的谱范数，如B中所这些谱范数被组合以通过我们设计的Lipschitz连续性损失函数L Lip来计算网络的Lipschitz常数以用于进一步蒸馏，其在C中所示的高水平上正则化了学生训练。Tk （ fmk−1 ） =fmk ，基于附录中的引理 2 ，其Lipschitz常数由下式给出：T（六）此外，大多数激活函数，如ReLU，Leaky ReLU，Tanh ， Sigmoid 以及 max-pooling ，具有等于 1 的Lipschitz 常数。至于其他常见的神经网络层，如dropout，批量归一化和其他池化方法，它们都具有简单和明确的Lipschitz常数[10]。这种固定的Lipschitz常数属性使我们的推导适用于大多数网络架构，例如ResNet [13]和MobileNet [17]。然后，我们使用不等式（由等式得出）。7在第一个问题是如何计算每个谱范数。用奇异值分解（SVD）计算神经网络权矩阵Wk的谱范数是不可能的.具体地说，对于复杂的网络结构，如卷积层或剩余模块，虽然它们可以按矩阵方式重新排列，但它们的谱范数的计算是不切实际的因此，我们建议使用传输矩阵（TM），以绕过复杂的计算的谱范数Wk。这种近似计算允许可行的计算以提取Lipschitz常数并将其进一步用作损失函数。对于批量大小为N的训练数据，在第（k-1）层的前向处理之后，我们有一批对应的特征图，如[1]）Tk◦Tk+1Lip≤TkLip·Tk+1Lip以导出k−1k−1k−1k−1d×下一篇：f嘴唇：FM=（fm1 ，fm2 ，···，fmn）∈Rk−1N，（8）f≤TLip· 简体中文· TL−1····T唇其中WkFMk−1= FMk，对于每个k ∈ {1，. . . ，L}。L L（7）=T Lip=WSN。关于特征图相似性的研究[3，39]表明，对于训练良好的网络，它们的一批特征图同一层{fmk−1}，i ∈ {1，. . . ，n}具有强相互k=1k=1我线性独立我们形式化特征通过这种方式，我们将教师的Lipschitz常数通过网络中中间层的谱范数序列传递而且，Lipschitz常数的上界也保证了知识被转移。地图位于同一图层ij∈ {1，···，N}，（fmk−1）Tfmk−1≈0，（9）i ∈ {1，···，N}，（fm）fm（十）3.3. 传递矩阵我们进一步归一化特征图以i∈{1，···，N}，fmk−1= fmk−1，使得一批fea-我10679第一模块第一模块不S我给出了Lipschitz con的上界首先，我们设计了一种新的损失法来提取Lipschitz连续体。通过缩小相应的WkSN和WkSN之间的距离，从教师到学生实现了有效性。的i（fmk−1）2真实地图可以用矢量表示来表示（FMk−1）TFMk−1≈I，（11）10680∥ −∥不我Σ- -LLM11L−1i i ii其中I是单位矩阵。利用所有上述等式，我们准备好将用于计算矩阵Wk的谱范数的传输矩阵TMk定义为计算矩阵Wk的谱范数。TMkΣ（FMk−1）TFMkΣTΣ（FMk−1）TFMkΣ的范数算法1使用幂迭代输入：目标矩阵TM，停止条件resstop。输出：矩阵TM的谱范数，TMSN。1：用一个随机向量初始化v0∈Rm2：当res≥res停止时，执行3：vi+1←TMvi简体中文=（WkFMk−1）T（FMk−1）Σ（FMk−1）TWkFMk−1Σ4：res=vi+1vi2第五章： end while6：returnTMSN=vTTMVⅠ=（FMk−1）T（Wk）T（FMk−1）（FMk−1）TWkFMk−1。（十二）当量11和12一起产生结果为TMk≈（FMk−1）T（WkTWk）FMk−1。（十三）定理1. 若矩阵U是正交矩阵，使得UTU=I，其中I是单位矩阵，则UTHU和H的最大特征值是等价的。σ1（UTHU）=σ1（H），（14）一期+1这样，我们就有了一种计算TMs的谱范数的可行方法，它能忠实地逼近网络的Lipschitz常数。3.5.总损失函数通过使用算法1，我们分别获得教师和学生网络的谱范数：TMi对于每个i ∈ {1，. . . ，L}。我们将我们的新的lipschitz连续性损失函数LLip定义为其中σ1（·）是矩阵的最大特征值。基于L−1i i定理1和Eq. 13，我们定义的发射矩阵TMk具有与WkTWk相同的最大特征值，L唇 =（TMTSN−TMSSN）2，（16）βL1我i=1即σ（TMk）=σ（WkTWk）。因此，结合def-其中β是大于1的系数。所以TβL−1−i随着i的增加而减小，因此定义谱范数Wk=σ1（WkWk），我们可以通过计算矩阵Wk的谱范数，TMTβL−1−i增大这样，我们给予更多TMk的最大特征值σ1（TMk）是可解的。对于具有更复杂层的网络，例如通过将块视为从前特征图到后特征图的仿射映射，这种近似适用于逐块而不是逐层地计算谱范数，这使得我们的谱范数计算更有效。为此，我们将残差块的传输矩阵TM定义为不更高层特征的权重，因为它们更接近执行任务的特征。结合交叉熵损失CE和香草知识蒸馏损失KD，我们准备提出我们的新损失函数为λL=2·LLip+LKD+LCE，（17）其中λ用于控制提取Lips-chitz常数的程度。我们使用λ是因为当对TMkΣ（FMf）TFMlΣΣ（FMf）TFMlΣ，（15）其中FM_f和FM_l是残差块的前特征图和后特征图3.4.用幂2L唇，分母部分可以很容易地消除。3.6.从规则化的角度损失函数L关于W的导数：迭代法在上述步骤之后，我们接下来需要计算两个矩阵（教师和学生）的谱范数。L=W=M−λΣ（TMTSN−TMSSN）TMSSN10681然后计算两者之间的损失在-直观的方法是使用SVD来计算谱范数，i=1L−1βL−1−iW我我我这导致过载的计算。重要的是≈M−λΣ（TMTSN−TM SSN）WSSNSVD计算是不可微的，因此不可能来训练深层网络而不是使用SVD，我们UTI-i=1L−1βL−1−iW我我lize幂迭代法[9，46，29]来近似=M−λ（TMTSN−TMSSN）ui（vi）T，如算法1中所呈现的，目标矩阵的谱范数具有小的准确度折衷。i=1βL−1−i1 1（十八）10682SSΣ我我不∥∥×××Wi×σj（Wi）uivi，（19）JJ其中M（LCE+LKD），ui和vi分别是（ResNet）[13]，宽残差网络（WideResNet）[47]，W1 1第一左和右奇异向量SVD我们有Di. 对于Wi，使用深度金字塔残差网络（ Deep Pyramidal ResidualNetworks，简称PyramidNet）不同设置的实验结果如表2所示，其中很明显，我们的方法在所有七种设置中都实现了最先进的性能，无论是深度设置还是深度设置。Sj=1S·J·J以及信道压缩（a，b，c）和不同的体系结构（d，e，f，g）。尤其是在深度组合其中di是Wi的秩，σj（Wi）是第j个最大sin。压缩和信道压缩（a）和（b），学生S S对于奇异值，u，i和vi分别是相应的左向量和奇异向量。由方程式18，第一项M与香草知识蒸馏的损失函数对于第二项，基于Eq.19，它可以被看作是用自适应正则化系数惩罚普通知识蒸馏损失的正则化项≜TMSN−由LONDON训练的网络甚至优于教师网络，这进一步证明了我们的Lipschitz连续性方法作为正则化函数的有效性。总的来说，我们提出的方法始终表现出可比或更好的性能，无论不同的压缩率或其他网络架构类型，这赋予我们的方法与更多的实施灵活性。我们注意到学生网络令人γ λTSβL−1−i，（20）以及高压缩比。因此，我们的结果提出了使用Lipschitz连续性蒸馏的潜力该方法利用教师网络的TMiSN作为先验监督信息来约束学生网络的权值换句话说，我们的方法可以防止学生网络陷入局部极小值。通过这种方式，它可以确保更好地训练学生网络。我们通过在4.4节中设计相应的实验来展示性能，表明我们提出的方法可以防止学生网络过度拟合数据集。4. 实验在本节中，我们对三个计算机视觉任务，图像分类，目标检测和分割进行了实验除了将我们的方法与最先进的方法进行比较之外，我们还设计了一系列消融研究来验证我们提出的技术的有效性并突出正则化属性。所有实验都使用PyTorch [32]实现。4.1. 分类我们选择CIFAR-100 [22]进行分类。这是因为它通常用于比较KD方法，并且其相对较小的尺寸提供了实现教师和学生体系结构的不同组合的灵活性。除了CIFAR-100之外，我们还在ImageNet [6]（一个更大的数据集）上进行了实验，以验证我们的蒸馏方法的稳定性。CIFAR-100[22]是最广泛使用的图像分类数据集，它由50 K训练图像和10 K测试图像组成，大小为32 32，分为100个类。具体来说，我们为教师和学生网络设计了各种架构组合表1总结每个实验的设置、模型大小和压缩比，涉及残差网络等架构将大型网络压缩成具有可接受的精度下降的更资源有效的网络例如，当设置（g）是从教师网络到具有完全不同架构的学生网络的17压缩时在一般情况下，我们所提出的方法可以适用于小网络（参数较少）和大型网络的作品与令人满意的性能。ImageNet[6]是一个大规模的数据集，包含120万张训练图像和50 k张验证图像，分为1,000个类。与其他分类数据集（如CIFAR-100）相比，ImageNet具有更大的多样性，其图像规模更大（平均469 387）。对于所有实验，我们报告了前1和前5的准确度。将图像裁剪为224 224的大小进行训练和验证。学生网络被训练了100个epoch，学习率从0.1乘以0.1每30个时期。为了确保公平的比较，我们使用PyTorch库中的预训练模型作为教师网络。两种组合的网络体系结构，tures解决示范。对于第一个组合，我们选择ResNet152 [13]作为教师网络，ResNet50作为学生网络。作为第二个，为了测试不同网络架构的知识蒸馏能力，我们选择 ResNet50 作为教师网络，MobileNet [17]作为学生网络。结果显示在表3中。与[15，14]等强方法相比，我们的方法仍有很大的改进。特别是，我们的方法使ResNet50优于教师网络ResNet152，这是一个值得注意的成就。此外，关于压缩能力，我们的方法在轻量级架构MobileNet中做出了相当大的改进，其中我们方法的27.64%的错误率优于MobileNet[17]论文中报道的任何网络。=10683表1.CIFAR-100上具有不同网络拓扑结构的七个实验设置设置老师基线KD[16个]FitNets[34个]在[48个]雅可比[35]第三十五届FT[21日]AB[第十五条]OFD[14个]AfD[41个]伦敦（我们的）（一）21.0922.7221.6921.8522.0722.1821.7221.3620.8921.1520.33（b）第（1）款21.0924.8823.4323.9423.8023.7023.4123.1921.9821.7920.71（c）第（1）款21.0927.3226.4726.3026.5626.7125.9126.0224.0824.2123.46（d）其他事项21.0927.6826.7626.3526.6626.6026.2026.0424.4424.6723.78（e）15.5721.0920.9722.1619.2820.5919.0420.4617.8018.2417.54（f）第（1）款15.5722.5821.6823.7919.9323.4919.5320.8918.8919.3218.21（g）15.5727.6826.8226.1026.6426.4326.2925.7024.4924.5323.52表2.表1中7种不同组合在CIFAR-100测试集上的前1个错误率（%）。越低越好。基线表示未蒸馏的结果。对于所有结果，我们使用作者提供的代码或作者报告的结果。每个结果平均5次运行。网络# 参数（比率）方法地图ResNet 50-固态硬盘36.7M老师76.79基线71.61ResNet18-SSD20.0M（54.5%）OFD [14]法国国防部[41]伦敦（我们的）73.0872.7873.82基线67.58MobileNet-SSD650万（18.7%）OFD [14]法国国防部[41]伦敦（我们的）68.5468.6369.09表4.PASCAL VOC2007测试集中的对象检测结果结果以平均精密度（mAP）表示越高越好。表3. ImageNet验证集上学生和教师网络结构的不同组合的前1和前5错误率（百分比）越低越好。4.2. 对象检测我们将我们提出的方法应用于最流行的高速检测器，单次检测器（SSD）[26]。所有模型都使用VOC2007和VOC2012 [7]的训练集进行训练，其中骨干网络使用设置压缩类型教师网络学生网络参数数老师(a)深度WideResNet 28-4 WideResNet 16-4 5.87M(b)通道WideResNet 28-4 WideResNet 28-2 5.87M(c)深度通道WideResNet 28-4 WideResNet 16-2 5.87M(d)不同架构WideResNet 28-4 ResNet 56 5.87M(e)不同架构PyramidNet-200（240）WideResNet 28-4 26.84M(f)不同架构PyramidNet-200（240）PyramidNet-110（84）26.84M(g)不同架构PyramidNet-200（240）ResNet 56 26.84M参数数student2.77M1.47M0.70M0.86M5.87M3.91M0.86M压缩比47.2%25.0%百分之十一点九百分之十四点七网络# 参数（比率）方法Top-1误差Top-5误差ResNet15260.19M老师21.695.95基线23.726.97KD [16]22.856.55[第48话]22.756.35ResNet5025.56M《金融时报》[21]22.806.49(42.5%）AB [15]23.476.94OFD [14]21.655.83法国国防部[41]22.086.30伦敦（我们的）21.125.47ResNet5025.56M老师23.847.14基线31.1311.24KD [16]31.4211.02[第48话]30.4410.67MobileNet4.23M《金融时报》[21]30.1210.50(16.5%）AB [15]31.1111.29OFD [14]28.759.66法国国防部[41]28.619.81伦敦（我们的）27.648.9710684ImageNet数据集进行预训练。所有模型都经过120k次迭代的训练我们设置SSD训练没有蒸馏作为我们的基线和SSD检测器与ResNet50作为教师网络。至于学生网络，我们使用ResNet18或MobileNet的SSD [17]。我们在VOC2007测试集中评估了检测性能。结果示于表4中。这两种经过训练的学生网络都优于其他方法。这意味着我们的方法可以应用于对象检测器。此外，通过比较ResNet18和MobileNet的性能，发现相似结构间的蒸馏质量优于不同结构间的蒸馏质量4.3. 语义分割在本节中，我们对语义分割任务进行了知识提炼。值得注意的是，对于分割的倒数第二个特征图，10685LLL表6.我们方法的消融研究。结果以错误率（%）的形式呈现。越低越好。表5. PASCAL VOC 2012测试集上的语义分割。结果以平均交点对并集（mIoU）表示。越高越好。1008060402000 20 40 60 80 100 120 140 160 180 200时代图2.我们提出的损失可以减轻过拟合。模型，其具有比常见网络架构更高的维度特别是，广泛使用的DeepLabV3+[5]作为语义分割的研究案例。我们使用以ResNet101为骨干的DeepLabV3+作为老师，基于ResNet18[13]和MobileNetV2 [17]的DeepLabV3+作为学生。表5所示的结果提供了明确的证据，证明我们提出的方法可以大大提高ResNet18和MobileNet的性能一般来说，大多数KD研究仅在图像分类任务上进行实验性的在我们的情况下，检测和分割实验验证，我们的方法不仅可以应用于图像分类，但也可以其他计算机视觉任务。无需对模型进行重大修改的灵活性是我们的高层次知识蒸馏的一个优点，因此我们提出的方法具有广泛的潜在应用。4.4. 分析缓解过度拟合。如3.6节所示，我们的Lipschitz蒸馏损失可以看作是一个正则化术语，其约束由教师推断的点周围的搜索空间，以便防止过拟合目标数据集。为了巩固这一理论论证，我们设计了相应的实验。我们利用背景(b)在表1中研究这种正则化现象。结果示于图2中。值得注意的是，当关闭Lipschitz连续性损失模块时，验证集的性能下降，而训练正确率保持在相同的水平。这种过拟合减少现象验证了我们提出的方法通过正则化改进了学生网络训练。烧蚀实验。我们在CIFAR-100中使用表1中的教师和学生架构对我们提出的方法进行了消融研究。通过调整损失函数London中的系数λ（等式10）， 16，17），其中λ=0等于没有Lipschitz连续性作为我们的基线。结果示于表6中。随着λ的增加，性能的改善表明了我们设计的Lipschitz连续性损失的有效性。但是，当伦敦的Lip比率大于20%（平均值）时，伦敦一个训练有素的学生网络应该既有能力调整低级别的特征图，又有能力捕捉高级别的信息。因此，我们认为，过于重视高层次和普遍的信息会失去网络应有的对齐能力。5. 结论研究了神经网络的知识提取和Lipschitz连续性。具体来说，我们提出了一种新的 KD 方法，命名为LONDON，数值计算和传递Lipschitz常数作为知识。与将神经网络视为黑箱的标准KD方法相比，我们的KD方法将神经网络的功能特性捕获为用于训练学生网络的高级知识，这进一步通过扩展KD的表示能力来防止学生网络过拟合数据集。鸣谢。本研究得到了 NSF CNS-1908658 、 NetTS-2109982和Cisco捐赠的部分支持。本文仅反映作者的观点和结论，而不是资助机构。培训_wo_Lip测试_wo_唇培训_Lip测试_唇正确率（%）骨干# 参数（比率）方法MiouResNet10159.3M老师77.39基线71.79ResNet1816.6MOFD [14]73.24(28.0%）法国国防部[41]伦敦（我们的）72.8173.62基线68.44MobileNet5.8MOFD [14]71.36(9.8%）法国国防部[41]伦敦（我们的）71.5671.97λ对0 0.1 0.41.6 3.26.4（一）21.69 21.36 21.5421.1120.3321.87（b）第（1）款23.43 22.04 22.0521.8821.4822.35（c）第（1）款26.47 24.39 23.7723.5623.6224.8710686引用[1] Peter L Bartlett，Dylan J Foster，and Matus J Telgarsky.神经网络的谱归一化边界。NeurIPS，2017。[2] Yoshua Bengio Aaron Courville和Pascal Vincent表象学习：回顾与新的视角。TPAMI，2013年。[3] Dapeng Chen，Zejian Yuan，Jingdong Wang，BadongChen，Gang Hua，and Nanning Zheng.基于多项式核特征映射的样本引导相似性学习用于人员重新识别。IJCV，2017年。[4] Hanting Chen，Yunhe Wang，Chang Xu，Chao Xu，andDacheng Tao.通过特征嵌入学习学生网络。TNNLS，2020年。[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。TPAMI，2018年。[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[7] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.IJCV，2015年。[8] 罗斯·格希克。快速R-CNN。CVPR，2015。[9] Gene H Golub和Henk A Van der Vorst. 20世纪的特征值JCAM，2000年。[10] Ian Goodfellow ， Yoshua Bengio ， Aaron Courville ，Yoshua Bengio. 深度学习2016年。[11] Dongyoon Han，Jiwhan Kim和Junmo Kim深层金字塔残余网络。在CVPR，2017年。[12] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR，2016年。[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[14] Byeongho Heo 、 Jeesoo Kim 、 Sangdoo Yun 、 HyojinPark、No- jun Kwak和Jin Young Choi。对特征提取的全面检修。在ICCV，2019年。[15] Byeongho Heo，Minsik Lee，Sangdoo Yun和Jin YoungChoi。通过隐藏神经元形成的激活边界的蒸馏进行知识转移。在AAAI，2019年。[16] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。NeurIPS，2014。[17] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。NeurIPS，2017。[18] 胡玉鹏，刘猛，苏晓斌，高瓒，聂礼强。通过深度跨模态散列的视频时刻定位。TIP，2021年。[19] Yupeng Hu ， Ligen Nie ， Meng Liu ， Kun Wang ，Yinglong Wanga，and Xiansheng Hua.用于跨模态矩定位的从粗到细的语义对齐。TIP，2021年。[20] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv 和 Yoshua Bengio 。二值化神经网络InNeurIPS，2016.[21] Jangho Kim、SeoungUK Park和Nojun Kwak 。复杂网络：通过因子转移进行网络压缩NeurIPS，2018。[22] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[23] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.大规模的对抗性机器学习。在IC

下载后可阅读完整内容，剩余1页未读，立即下载