关系知识蒸馏：教师模型向学生模型迁移知识的新方法

168 浏览量更新于2023-10-18 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1关系知识蒸馏Wonpyo Park*POSTECH，KakaoCorp.Dongju KimPOSTECH路燕微软研究院赵敏秀http://cvlab.postech.ac.kr/research/RKD/摘要输入知识蒸馏的目的是转移知识从一个模型（教师）到另一个通常较小的模型（学生）。以前的方法可以表示为训练学生模仿由教师表示的单个数据示例的输出激活的形式。我们介绍了一种新的方法，称为关系知识蒸馏（RKD），而不是转移相互关系的数据示例。对于RKD的具体实现，我们提出了距离和角度方面的补偿损失，惩罚关系中的结构差异。在不同任务上的实验表明，该方法提高了受过教育的学生模型，具有显着的利润。特别是对于度量学习，它允许DNN输出112233学生的表现超过老师1. 介绍计算机视觉和人工智能的最新进展在很大程度上是由具有许多层的深度神经网络驱动的，因此当前最先进的模型通常需要高计算成本和推理内存。减轻这种计算负担的一个有希望的方向是将知识从一个简单的模型（教师）转移到一个小的模型（学生）中。为此，存在两个主要问题：（1）“什么构成了学习模型中的知识？'（2）知识蒸馏（或转移）（KD）方法[3，4，11]假设知识是从输入到输出的学习映射，并通过以教师最近，KD已经证明不仅在训练学生模型[1，11，12，27，47]方面非常有效，而且在通过自蒸馏改进教师模型本身[2，9，45]方面也非常有效。在这项工作中，我们从线的角度重新审视KD*这项工作是在Wonpyo Park在MSR实习时完成的图1：关系知识蒸馏。当康-传统的KD将单个输出从教师模型（fT）逐点转移到学生模型（fS），我们的方法将输出的关系逐结构转移。它可以看作是传统KD的推广。直觉结构主义[19]，侧重于符号系统中的结构关系。索绪尔从这个角度来看，一个符号的意义取决于它与系统内其他符号的关系;符号没有独立于上下文的绝对意义。我们工作的中心原则是，构成知识的内容更好地由学习表示的关系表示，而不是由这些表示的个体表示;一个单独的数据示例，例如，图像获得与表示系统中的其它数据示例相关或相反的意义，因此主要信息位于数据嵌入空间中的结构中。在此基础上，我们引入了一种新的知识分配方法，称为关系知识蒸馏（RKD），它转移了输出的结构关系，而不是单个输出本身（图1）。对于其具体实现，我们提出两种RKD损失：第二次和第三次，39673968order）蒸馏损失。RKD可以看作是传统KD的一种推广，由于其与传统KD的互补性，可以与其他方法相结合来提高性能。在度量学习，图像分类和少量学习的实验中，我们的方法显着提高了学生模型的性能通过对三种不同任务的大量实验表明，知识确实存在于关系中，RKD在传递知识方面是有效的。2. 相关工作关于将知识从一种模型转移到另一种模型的研究和开发由来已久。Breiman和Shang [3]首先提出学习单树模型，它近似多树模型的性能，并提供更好的可解释性。Bucilua等人的工作中也出现了类似的神经网络方法。[4]，Ba和Caruana [1]，和Hin-ton等。[11]，主要用于模型压缩。Bucilua等人将神经网络的集合压缩成单个神经网络。Ba和Caruana [1]通过训练浅层神经网络来模仿深层神经网络，并惩罚两个网络之间的logit差异，从而提高了浅层神经网络的准确性。Hinton等人[11]以KD的名义恢复这个想法，训练学生模型，目标是匹配教师模型的softmax分布。最近，许多后续的论文提出了不同的方法KD。罗梅罗等人[27]使用额外的线性投影层提取教师Zagoruyko和Ko- modakis [47]以及Huang和Wang [12]没有模仿教师的输出激活，而是将教师网络的注意力图转移到学生身上，Tarvainen和Valpola [36]引入了一种使用平均权重的类似方法。Sau等人[29]提出了一个基于噪声的KD正则化，而Lopes等人。[17]引入利用教师模型元数据的无数据KD。Xu等[43]提出一个条件对抗网络来学习损失函数ing. Lopez-Paz等人[18]统一两个框架[11，38]，并将其扩展到无监督，半监督和多任务学习场景。Radosavovic等人[26]通过对其应用多个数据变换来从示例中生成多个预测，然后使用预测的集合作为全监督学习的注释。随着对KD的兴趣日益增长，已经提出了用于对象检测[5，6，37]、面部模型压缩[24]以及图像检索和Re-ID [7]的任务特定KD方法。值得注意的是，Chenet al.[7]提出了一种用于度量学习的KD技术，该技术使用秩损失来转移图像之间的相似性。在传递等级关系信息的意义上，它与我们的有一些相似之处。然而，他们的工作仅限于度量学习，而我们介绍了RKD的一般框架，并证明了其适用于各种任务。此外，我们在度量学习上的实验表明，所提出的方法优于[7]，具有显著的余量。3. 我们的方法在本节中，我们首先回顾常规KD并介绍RKD的一般形式然后，将提出两个简单而有效的蒸馏损失作为RKD的实例。记法。给定一个教师模型T和一个学生模型S，我们让f T和f S分别是教师和学生的函数。典型地，模型是深度神经网络，并且原则上可以使用网络的任何层的输出来定义函数f（例如，隐藏或softmax层）。我们用XN表示一组不同数据示例的N元组，例如，X2={（x i，x j）|ii=j}和X3={（xi，x j，x k）|ij k}。3.1. 传统知识蒸馏通常，常规KD方法[1，2，8，11，12，25，27，45，47]通常可以表示为最小化目标函数：Σ。ΣKD的Crowley等人[8]通过分组压缩模型卷积通道的模型和训练它与注意力转移。Polino等人[25]和Mishra和MarrLIKD=xi∈Xl fT（xi），fS（xi），（1）[20]将KD与网络量化相结合，旨在降低权重和激活的位精度。最近的几篇论文[2，9，45]表明，将教师模型提炼为具有相同架构的学生模型，即，自我升华，可以提高学生的其中L是惩罚教师和学生之间的差异的损失函数。例如，Hintonet al.[11]对fT和fS使用pre-softmax输出，并对l使用softmax（具有温度τ）和Kullback-Leibler散度：老师Furlanello等人[9]和Bagherinezhadet al. [2]通过训练学生使用教师的softmax输出作为几代人的基础事实来演示它。Yim等人[45]第四十五章：我的心Σxi∈X..fTKLsoftmax（xi）τ. fS，softmax（xi）τ.（二）然后对学生进行微调我们还表明，RKD强烈受益于自蒸馏。KD也被研究超越监督学习-罗梅罗等人的工作。[27]通过将fT和fS设置为隐藏层的输出，并将l设置为平方欧几里德距离来传播隐藏激活的知识。作为39692示例转移...…模型示例1122……��（��转移��（��模型个体知识蒸馏关系知识蒸馏图2：个人知识蒸馏（IKD）与关系知识蒸馏（RKD）。传统KD（IKD）将教师的个人输出直接传送给学生，而RKD使用关系势函数（·）提取关系信息，并将信息从教师传送给学生。学生的隐藏层输出通常具有比教师的隐藏层输出更小的维度，引入线性映射β来桥接不同的维度：如预期的，关系势函数ψ在RKD中起着至关重要的作用; RKD的有效性和效率取决于潜在函数的选择。对于前-Σ¨<$fT（xi）−βxi∈X.Σ¨2f S（x i）<$.（三）例如，高阶势在捕获高阶结构时可能是强大的，但在计算中更昂贵。在这项工作中，我们提出了两个简单而有效的-同样地，许多其他方法[1，2，8，12，25，45，47]也可以用公式表示为等式1的形式。（一）.本质上，传统的KD将教师的个人输出传递给学生。因此，我们将这类KD方法称为个体KD（IKD）。3.2. 关系知识提炼RKD的目的是在教师的输出演示中使用数据示例的相互关系来传递结构知识。与传统的方法不同，它为每个n元组的数据示例计算一个关系势函数，并通过势函数将信息从教师传递给学生。为了符号简单，让我们定义ti=fT（xi），si=fS（xi）. RKD的目标表示为分别利用实例的成对和三元关系的RKD的有效势函数和相应的损失：距离和角度损失。3.2.1远距蒸馏损失给定一对训练示例，距离势函数ψD测量输出表示空间中两个示例之间的欧几里得距离（t，t）=1D ijµij2其中µ是距离的归一化因子。为了关注其他对之间的相对距离，我们将µ设置为小批量中X2Σ。Σµ=1Σt−t.（六）LRKD=l_i（t1，..，t n），n（s1，.，s n），（4）（x，..，x）∈X N|X2|ij2（xi，xj）∈X21N其中（x1，x2，.，xn）是从XN中抽取的n元组，k是测量给定n元组的关系能量的关系势函数，并且l是惩罚教师和学生之间的差异的损失。RKD训练学生模型形成与教师相同的关系结构的由于势，它能够传递高阶性质的知识，这是不变的低阶性质，即使在教师和学生之间的输出尺寸的差异。RKD可以被看作是IKD的推广，在这个意义上，Eq.（四）由于蒸馏试图匹配教师和学生之间的距离潜力，因此这种小批量距离归一化在教师距离和学生距离，例如，由于输出尺寸的差异。在实验中，我们观察到，归一化在训练中提供了更稳定和更快的收敛。使用在教师和学生两者中测量的距离方向电位，距离方向蒸馏损失定义为上面的话简化为Eq。（1）当关系式为一元（N=1）且势函数为恒等式时。图2示出了IKD和RKD之间的比较。LRKD-D=Σ（xi，xj）∈X2.Σl δD（ti，tj），D（si，sj），（7）…12学生老师…1学生2老师1212397022其中Iδ是胡贝尔损失，其定义为.3.2.4蒸馏目标层lδ（x，y）=1（x-y）2，|x−y|≤ 1，|-1，否则。|−1,otherwise.（八）对于RKD，蒸馏目标函数f可以选择为原则上，教师/学生网络的任何层的输出然而，由于距离/角度方面的损失不跨-距离蒸馏损失通过惩罚它们的输出表示空间之间的距离差来转移示例的关系。与传统的KD不同，它不要求学生直接匹配教师3.2.2角向蒸馏损失给定三个示例，角度关系势测量由输出表示空间中的三个示例形成的角度对于教师的个体输出，在个体输出值本身是关键的情况下单独使用它们是不够的，例如，softmax层用于分类。在这种情况下，它需要与IKD损失或特定任务损失一起使用。在大多数其他情况下，RKD是applicable和有效的，在我们的经验。我们将在以下章节中证明4. 实验我们在三个不同的任务上评估RKD：度量学习、分类和少量学习。贯穿本（t，t，t）=cos=eij，ekj（9）第节中，我们将RKD与距离方向损耗称为一我JKijkRKD-D，角向损失为RKD-A，其中eij=ti−tj ，ekj=tk− tj .两个损失加起来是RKD-DA。当拟议的损失ti −tjtk−tj与训练过程中的其他损失相结合，我们为损失项分配相应的平衡因子我们来-使用在两个方向上测量的角向电位，老师和学生，角度方向的蒸馏损失被定义为将RKD与其他KD方法结合，[27]1、注意力[47]和HKD（Hinton对于度量学习，我们与Dark进行了额外的比较-LRKD-AΣ=（xi，xj，xk）∈X3.Σl δA（ti，tj，tk）， A（si，sj，sk），（十）Rank [7]是专门为度量学习设计的KD方法。为了公平比较，我们使用网格搜索来调整竞争方法的超参数。我们用于实验的代码可在线获得其中1δ是Huber损失。角度蒸馏损失通过惩罚角度差异来转移训练样本嵌入的关系。因为一个角度是比距离更高阶的属性，它可以更有效地传递关系信息，为训练中的学生提供更多的灵活性。在我们的实验中，我们观察到角度损失通常允许更快的收敛和更好的性能。3.2.3RKD培训在训练过程中，多个蒸馏损失函数，包括建议的RKD损失，可以单独使用或与特定于任务的损失函数一起使用，例如，交叉熵分类因此，总体目标具有Ltask+λKD·LKD，（11）其中Ltask是手头任务的特定任务损失，LKD是知识蒸馏损失，λKD是可调的hy。perparameter来平衡损失项。当在训练期间使用多个KD损失时，每个损失都用http://cvlab.postech.ac.kr/research/RKD/网站。4.1. 度量学习我们首先评估所提出的度量学习方法，其中数据示例之间的关系知识在其他任务中是最相关的。度量学习的目的是训练一个嵌入模型，该模型将数据示例投影到流形上，其中两个示例在语义相似的情况下彼此接近，否则相距甚远。由于嵌入模型通常在图像检索中进行评估，因此我们使用CUB-200-2011 [40]，Cars196 [14]和Stanford Online Products [21]数据集的图像检索基准来验证我们的方法，并且我们遵循[21]中建议的训练/测试分割。有关数据集的详细信息，我们请读者参阅相应的论文。对于评估度量，使用召回@K。一旦使用模型嵌入所有测试图像，每个测试图像被用作查询，并且从排除查询的测试集中检索前K个最近邻图像。如果检索到的图像包含与查询相同的类别，则查询的召回被认为是1调用@K计算如下：取整个测试集的平均回忆率。相应的平衡系数。在抽样元组的前-对于所提出的蒸馏损失的例子，我们简单地使用所有可能的元组（即，成对或三重）。1当使用FitNet时，遵循原始论文，我们用两个阶段训练模型：（1）用FitNet损失训练模型，（2）用手头的任务特定损失微调模3971型。3972表1：CUB-200-2011和Cars 196上的召回@1。教师基于ResNet 50 -512。模型-d是指具有d维嵌入的网络。‘O’indicates models trained with(a) CUB-200-2011结果[40]基线（三联[31]）[27]第二十七话注意[47][7]第七话RKD-D我们RKD-ARKD-DAα 2归一化OOOOO/XO/XO/XResNet18-1637.7142.7437.6846.8446.34 /48.0945.59 /48.6045.76 /48.14ResNet18-3244.6248.6045.3753.5352.68 /55.7253.43 /55.1553.58 /54.88ResNet18-6451.5551.9250.8156.3056.92 /58.2756.77 /58.4457.01 /58.68ResNet18-12853.9254.5255.0357.1758.31 /60.3158.41 /60.9259.69 /60.67ResNet50-51261.24(b) [14]第196话基线（三联[31]）[27]第二十七话注意[47][7]第七话RKD-D我们RKD-ARKD-DAα 2归一化OOOOO/XO/XO/XResNet18-1645.3957.4646.4464.0063.23 /66.0261.39 /66.2561.78 /66.04ResNet18-3256.0165.8159.4072.4173.50 /76.1573.23 /75.8973.12 /74.80ResNet18-6464.5370.6767.2476.2078.64 /80.5777.92 /80.3278.48 /80.17ResNet18-12868.7973.1071.9577.0079.72 /81.7080.54 /82.2780/82.50ResNet50-51277.17对于训练，我们遵循 [42] 的协议。我们通过从256×256的图像中随机裁剪224×224的图像并应用随机水平翻转进行数据增强来获得训练样本。在评估期间，我们使用单中心作物。所有模型都是使用Adam优化器训练的为了有效配对，我们遵循FaceNet [31]的批量构建，并在小批量中对每个类别的5个阳性图像进行采样。对于教师模型，使用在ImageNet ILSVRC数据集[28]上预训练的 ResNet50 [10] 我们将网络的层提升到avgpool，并附加一个嵌入大小为512的全连接层，然后进行102归一化。对于学生模型，ResNet18 [10]也是ImageNet预训练的，以类似的方式使用，但具有不同的嵌入大小。教师模型使用三重损失[31]进行训练，这是度量学习中最常见也最有效的三重[31]。当给定锚xa、正xp和负xn时，三重态损失使得锚和负之间的平方欧几里得距离比锚和正之间的平方欧几里得距离大余量m：已知通过将嵌入点之间的距离范围限制为[0，2]来稳定三重丢失的训练请注意，用于嵌入的W2归一化广泛用于深度度量学习[7，13，21，22，34，41]。RKD。我们将RKD-D和RKD-A应用于教师和学生的最终嵌入输出。与三重态损失不同，所提出的RKD损失不受嵌入点之间的距离范围的影响，并且不具有敏感的超参数来优化，诸如标记m和三重态采样参数。为了显示RKD的鲁棒性，我们比较了没有RKD2归一化的RKD和具有RKD2归一化的RKD。对于RKD-DA，我们设置λRKD-D=1和λRKD-A=2。注意，对于RKD损失的度量学习，我们不使用任务损失，即，三重损失，因此模型纯粹由教师的指导训练，注意[47]。根据原始论文，我们将该方法应用于ResNet 的第二，第三和第四块的输出我们设置λTriplet=1，λAttention=50。[27]第二十七话根据原始论文，我们训练一个模型，L三重峰=Σ Σ<$f（x a）− f（x p）<$2− <$f（x a）− f（x n）<$2+ m。分两个阶段;我们首先用FitNet损失初始化一个模型然后对模型进行微调，在我们的例子中，使用Triplet。我们22+（十二）我们将边际m设置为0.2，并对三胞胎使用距离加权采样[42我们在最后的嵌入层上应用2002标准化，使得嵌入矢量具有单位长度，即，f（x）=1。使用W2标准化将该方法应用于ResNet的第二个、第三个和第四个块的输出，以及最终的嵌入。DarkRank[7]是一种用于度量学习的KD方法，可以在数据示例之间传输相似性排名。在[7]中提出的两种损失中，我们使用HardRank损失，因为它在计算上是有效的，并且与另3973在性能上。DarkRank损失应用于教师和学生的最终输出。在训练中，我们使用与本文中建议的三重丢失相同的目标。我们仔细调整DarkRank的超参数以达到最佳：α=3，β=3，λDarkRank=1，λTriplet=1;我们对α（1到3），β（2到4），λDarkRank（1到4）进行网格搜索。在我们的实验中，我们的超参数给出了比[7]中使用的更好的结果。4.1.1蒸馏至较小网络表1显示了CUB-200-2011上具有不同嵌入维度的学生模型的图像检索性能[38]第196话与直接使用Triplet训练的基线模型相比，RKD显着提高了学生网络的性能，也大大超过了DarkRank。嵌入维数越小，Triplet的1次召回率越低，而RKD的1次召回率受嵌入维数的影响较小; RKD-DA的 recall@1 的相对增益在 CUB-200-2011 上从 12.5 、13.8、23.0增加到27.7，在Cars 196上从20.0、24.2、33.5增加到45.5。结果还表明，RKD受益于不进行NH2归一化的训练通过利用更大的嵌入空间。注意，AB-在我们的实验中，由于采用了NH2标准化，所有其他方法的性能都下降了。令人惊讶的是，通过RKD对Cars 196的测试，具有较小骨干和较少嵌入维度的学生甚至优于他们的老师， ResNet50 -512 教师与 82.50ResNet 18 -128学生。4.1.2自蒸馏当我们观察到RKD能够改进其教师的较小学生模型时，我们现在进行自蒸馏实验，其中学生架构与教师架构相同。在这里，我们没有像我们在前面的实验中观察到的那样，对学生应用1002标准化来从效果中受益。通过使用上一代的学生作为新教师，学生接受RKD-DA培训。表2示出了自蒸馏的结果，其中所有的模型始终优于初始教师模型，这是训练与三重损失。特别是CUB-200- 2011和Cars 196的学生模型表现优于初始教师，具有显著的增益。然而，性能并没有改善从第二代在我们的实验。4.1.3与最先进方法的比较我们将RKD的结果与最先进的度量学习方法进行了比较。最近的大多数方法采用GoogLeNet [35]作为主干，而[42]的工作使用ResNet50 [10]的变体，其通道数量有所修改为了进行公平的比较，我们在这两个模型上训练学生模型表2：自蒸馏模型的召回@1。学生模型和教师模型具有相同的体系结构。Gen（n）处的模型由Gen（n-1）处的模型指导。古巴[40]汽车[14]标准操作程序[21]ResNet 50 -512-三重61.2477.1776.58ResNet50-512@Gen165.6885.6577.61ResNet50-512@Gen265.1185.6177.36ResNet50-512@Gen364.2685.2376.96GoogLeNet和ResNet50，并将嵌入大小设置为与其他方法相同。RKD-DA用于训练学生模型。结果总结在表3中，其中我们的方法在CUB-200- 2011上优于所有其他方法，无论骨干网络如何在使用ResNet50的方法中，我们的方法在所有基准数据集上都达到了最佳性能在使用GoogLeNet的人中，我们的方法在Car 196和斯坦福在线产品上实现了第二好的性能，仅次于ABE8[13]。请注意，ABE8 [13]需要为每个分支提供额外的多个注意模块，而我们的是具有单个嵌入层的GoogLeNet。4.1.4讨论RKD表现更好，没有NH2归一化。RKD优于Triplet的一个好处是，学生模型在没有进行N2O2归一化的情况下进行了稳定训练。范数迫使嵌入模型的输出点位于单位超球面上，因此，没有范数的学生模型这允许RKD更好地执行，如表1所示。请注意，Dark- Rank包含三重损失，众所周知，这在没有N2范数的情况下是例如，使用DarkRank训练的ResNet 18 -128在没有202范数的情况下实现了52.92的recall@1（与77.00与196号汽车上的2002学生优于教师。在分类中也报告了类似的效果[2，9，45]。[2，9]的工作解释了来自教师的类分布的软输出可能携带附加信息，例如，跨类别的关系，这不能被编码在地面真理标签的独热向量中。RKD连续目标标签（例如，距离或角度）也可以携带有用的信息，这些信息不能被正确地编码在传统损失中使用的二进制（正/负）地面实况标签中，即，三重损失RKD作为训练域适应。Cars 196和CUB-200-2011数据集最初都是为细粒度分类设计的，由于严重的类内变化和类间相似性，这是具有挑战性的。对于这样的数据集，有效地适应域的特定特征可能是至关重要的;最近的细粒度分类方法专注于定位目标域对象的区分部分[23，44，48]。来衡量3974表3：召回@K与CUB-200-2011、Car 196和Stanford Online产品的最新技术水平的比较。我们根据所使用的骨干网络将方法分为两组。模型-d是指具有d维嵌入的模型。粗体表示每个主干的最佳性能模型，而下划线表示所有模型中的最佳[21]第二十一届中国国际汽车工业展览会[21]K124812481101001000[21]第二十一话47.258.970.280.249.060.372.181.562.179.891.397.4N对[34]-6451.063.374.383.271.179.786.591.667.783.893.097.8[41]第四十一话54.766.376.083.971.481.487.592.170.985.093.598.0[35]第三十五话A-BIER [22]-51257.568.778.386.282.089.093.296.174.286.994.097.8ABE8 [13]-51260.671.579.887.485.290.594.096.176.388.494.898.2RKD-DA-12860.872.181.289.281.788.593.396.374.588.195.298.6RKD-DA-51261.473.081.989.082.389.894.296.675.188.395.298.7[42]第四十二话63.674.483.190.079.686.591.995.172.786.293.898.0ResNet50 [10]RKD-DA-12864.976.785.391.084.991.394.897.277.590.396.499.0表4：CIFAR-100和Tiny ImageNet上的准确度（%）80604020汽车196Cub-200-2011斯坦福犬CIFAR-100图 3 ： Cars 196 、 CUB-200- 2011 、 Stanford Dog 和CIFAR-100测试拆分的召回@1Triplet（教师）和RKD-DA（学生）都接受过Cars 196的培训。虚线的左侧显示训练域上的结果，而右侧显示其他域上的结果。为了适应用RKD损失训练的模型，我们将训练数据域上的数据与不同数据域上的数据进行了比较。图3显示了使用在Cars196. 学生（ RKD ）在不同的域上具有低得多的recall@1，而教师（Triplet）的recall@1保持类似于预训练的特征（初始模型）。这些结果揭示了RKD的一个有趣的效果，即它以牺牲对其他领域的泛化为代价，在训练域上强烈地适应模型。4.2. 图像分类我们还通过比较RKD和IKD方法验证了所提出的方法在图像分类任务上的有效性，[11][12][13][14][15][16][17][18][19] 我们在 CIFAR-100和Tiny ImageNet数据集上进行了实验。CIFAR-100包含32×32大小的图像和100个对象类别，Tiny ImageNet包含64×64大小的图像和200个类别。对于这两个数据集，我们将FitNet和Attention应用于CNN的第二、第三和第四个块的输出，并设置λAttention=50。HKD被应用在教师和学生的最终分类层上，并且我们将HKD的温度τλHKD为16，与[11]相同。RKD-D和RKD-A应用于教师和学生的最后一个池化层，因为它们在分类之前产生最终嵌入。我们设置λRKD-D=25和λRKD-A=50。对于所有的设置，我们使用交叉熵损失在最后的损失。对于教师和学生，我们在最终池化层之后删除全连接层，并附加一个全连接层作为分类器。对于CIFAR-100，我们从零填充的40×40图像中随机裁剪32×32图像我们使用SGD优化模型，小批量大小为128，动量为0。9和重量衰减5×10−4。我们训练网络200个epoch，学习率从 0.1 开始，在60 ，120 ，160epoch时乘以0.2我们对教师模型采用ResNet50，对学生模型采用VGG11 [32]对于Tiny ImageNet，我们应用随机旋转，颜色抖动和水平翻转来增强数据。我们使用SGD优化模型，小批量为128，动量为0.9。我们训练网络300个epoch，学习率从0.1开始，在60，120，160，200，250 epoch时乘以0.2。我们采用ResNet101作为教师模型，ResNet18作为学生模型。表4显示了CIFAR-100和Tiny Im-100的结果RKD-DA三重预训练CIFAR-100 [15][46]第四十六话基线71.2654.45RKD-DRKD-DA72.2772.9754.9756.36香港[11]HKD+RKD-DA74.2674.6657.6558.15[27]第二十七话FitNet+RKD-DA70.8172.9855.5955.54注意[47]关注+RKD-DA72.6873.5355.5156.55老师77.7661.55召回@13975图4：CUB-200-2011和Cars 196数据集的检索结果前八张图片从左到右排列绿色和红色边界框分别表示正图像和负图像。T表示用三重丢失训练的教师，而S是用RKD-DA训练的学生对于这些例子，学生给出的结果比老师好ageNet.在这两个数据集上，RKD-DA与HKD的组合优于所有配置。总体结果表明，所提出的RKD方法是其他KD方法的补充;当RKD与另一KD方法组合时，在大多数情况下模型进一步改进。4.3. 少拍学习最后，我们验证了所提出的方法上的任务，少数拍摄学习，其目的是学习一个分类器，推广到新的看不见的类，只有几个例子，每个新的类。我们在标准基准上进行了少量分类的实验，这些基准是Om- niglot[16]和miniImageNet [39]。我们使用学习嵌入网络的原型网络[33]来评估RKD，以便根据新类的给定示例的距离进行分类。我们遵循Snell等人工作的数据增强和训练过程。[33]和Vinyals等人提出的分裂。[39 ]第39段。由于原型网络建立在仅由4个卷积层组成的浅层网络上，因此我们对学生模型和教师使用相同的架构，即，自我升华，而不是使用更小的学生网络。我们将RKD、FitNet和Attention应用于教师和学生的最终嵌入输出。我们设置λRKD-D=50和λRKD-A=100。当RKD-D和RKD-A加在一起，我们将最终损失除以2。我们设置λAttention=10。对于所有设置，我们在最终损失处添加原型损失。作为[33]中用于少数镜头分类的通用评估协议，我们通过对Omniglot的1000多个随机生成的事件和miniImageNet的600个随机生成的事件进行平均来计算准确度。 Omniglot 结果总结见表 5 ，而miniImageNet结果报告为95%置信区间，见表6。他们表明，我们的方法始终提高学生超过教师。表5：Omniglot的准确度（%）[16]。5路加速1-Shot 5-Shot20路加速1-Shot 5-ShotRKD-DRKD-DA98.5898.6499.6599.6495.4595.5298.7298.67老师98.5599.5695.1198.68表6：miniImageNet上的准确度（%）[39]。1-Shot 5路5-Shot 5-WayRKD-DRKD-DA四十九66 ±0。8450块02 ±0. 8367岁07 ±0. 6768.16 ±0. 67FitNet关注50.38 ±0. 81三十四67 ±0。6568岁08 ±0. 65四十六岁。21±0。70老师四十九1 ±0。8266岁。87 ±0 .01，P <0.05。665. 结论我们已经在不同的任务和基准上证明了所提出的RKD有效地使用数据示例的相互关系来传递知识。特别是对于度量学习，RKD使较小的学生甚至超过了他们的大老师。虽然在这项工作中使用的距离方向和角度方向蒸馏损失证明是简单而有效的，但RKD框架允许我们探索具有超出两种情况的高阶势的各种任务特定的RKD损失。我们认为，RKD框架打开了一扇大门，有效的知识转移与高阶关系的一个有前途的领域。鸣谢：这项工作得到了MSRA合作研究计划以及基础科学研究计划和下一代信息计算开发计划的支持，该计划由韩国科学部ICT资助的韩国国家研究基金会（NRF-2017 R1 E1 A1 A01077999，NRF-2017 M3 C4A7069369）。3976引用[1] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？神经信息处理系统进展。2014. 一、二、三[2] Hessam Bagherinezhad 、 Maxwell Horton 、 MohammadRastegari和Ali Farhadi。标签精炼厂：通过标签进展改进图像基因组分类。arXiv预印本arXiv：1805.02641，2018。一、二、三、六[3] 利奥·布莱曼和农尚。重生树加州大学伯克利分校，伯克利，加利福尼亚州，技术报告，1996年。一、二[4] 克里斯特是一个布西尔，里奇卡鲁阿纳，和阿尔和xandru尼古列斯库-米齐尔。模型压缩。第12届ACMSIGKDD知识发现和数据挖掘国际会议集，2006年。一、二[5] W. Cao，J. Yuan，Z.他，Z。zhang和Z.他外快速深度神经网络，具有知识指导训练和预测感兴趣区域，用于实时视频对象检测。IEEE Access，2018。2[6] 陈国斌，崔元根，项羽，韩东，和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。神经信息处理系统进展。2017. 2[7] Yuntao Chen ， Naiyan Wang ， and Zhaoxiang Zhang.Dark- rank：通过交叉样本相似性转移加速深度度量学习。AAAI人工智能会议，2018年。二、四、五、六[8] 埃利奥特·J·克劳利加文·格雷和阿莫斯·斯托奇月光：用廉价的回旋蒸馏。神经信息处理系统进展，2018年。二、三[9] Tommaso Furlanello 、 Zachary Chase Lipton 、 MichaelTschannen、Laurent Itti和Anima Anandkumar。再生神经网络。第35届国际机器学习会议论文集，ICML ，2018。一、二、六[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR），2016。五、六、七[11] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。一、二、四、七[12] 黄泽浩和王乃艳随你喜欢：通过神经元选择性转移进行知识提取.arXiv预印本arXiv：1707.01219，2017。一、二、三[13] Wonsik Kim、Bhavya Goyal、Kunal Chawla、JungminLee和Keunjoo Kwon。深度度量学习的基于注意力的集成在2018年欧洲计算机视觉会议（ECCV）上。五、六、七[14] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。2013年第四届IEEE3D表示和识别国际研讨会。四、五、六、七[15] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。多伦多大学计算机科学系硕士7[16] Salakhutdinov Ruslan Lake ， Brenden M 和 Joshua BTenenbaum。通过概率程序归纳的人类水平概念学习。Science，350（6266），2015. 8[17] Raphael Gontijo Lopes，Stefano Fenu，and Thad Starner.深度神经网络的无数据知识蒸馏CoRR，abs/1710.07535，2017。2[18] D. 洛佩斯-帕兹湾舒奥尔科普夫湖 Bottou和V. 再见统一蒸馏和特权信息。在2016年国际学习代表会议上2[19] 彼得·雨果·马修斯和彼得·马修斯。结构语言学简史。剑桥大学出版社，2001年。1[20] Asit Mishra和黛比·马尔Apprentice：使用知识蒸馏技术来提高低精度网络的准确性。在2018年的学习代表国际会议上。2[21] Hyun Oh Song ， Yu Xiang ， Stefanie J

下载后可阅读完整内容，剩余1页未读，立即下载