知识蒸馏技术下的教师与学生模型对齐与特征完全对准

18 浏览量更新于2023-10-25 收藏 730KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11933编码器分类器编码器分类器投影机分类器基于教师分类器复用的知识提炼陈德芳1，2，3梅建平4张海林1，2，3王灿1，2，3闫峰1，2，3陈春1，2，31浙江大学2浙江大学上海高等研究院3浙江大学-邦臣联合研究中心4浙江工业大学defchern@zju.edu.cn，jpmei@zjut.edu.cn，{zzzhl，wcan，fengyan，chenc}@ zju.edu.cn摘要知识蒸馏的目的是将一个强大而繁琐的教师模型压缩成一个轻量级的学生模型，而不会牺牲太多的性能。为此，在过去的几年中，已经提出了各种方法，通常具有精心设计的知识表示，这反过来又增加了模型开发和解释的难度。相比之下，我们empi-培训形象培训预培训教师模式学生模型重用cally表明，一个简单的知识蒸馏技术是足以显着缩小师生绩效差距。我们直接从预训练的教师模型中重用判别式分类器用于学生推断，并通过具有单个102损失的特征对齐来训练学生编码器。通过这种方式，学生模型能够实现与教师模型完全相同的性能只要它们提取的特征完全对准。一个额外的投影仪的开发，以帮助学生编码器与教师分类器，这使得我们的技术适用于各种教师和学生architectures匹配。大量的实验表明，我们的技术，nique达到国家的最先进的结果，在适度的成本压缩比由于增加投影仪。1. 介绍给定一个具有大量参数的强大教师模型，知识蒸馏（KD）的目标是帮助另一个参数较少的学生模型获得与较大教师模型相似的泛化能力[4，24]。实现这一目标的一个简单方法是在给定相同输入的情况下对齐它们的logit或类预测[2，24]。由于其概念简单和实用有效性，KD技术在各种应用中取得了巨大成功，例如对象检测[8]，语义分割[32]和变压器的训练[45]。vanilla KD的一个局限性是，*通讯作者图1.我们提出的SimKD的概述。在最终分类器的前一层中采用简单的2损失进行特征对齐。在训练期间，仅更新学生特征编码器和尺寸预训练的教师分类器被重新用于学生推理。原有的教师模式与经过提炼的学生模式之间的差距为了克服这个缺点，在过去的几年中提出了一系列方法[19，48]。他们中的大多数受益于利用来自预先训练的教师模型的额外监督，特别是中间层[1，6，39，44，46，50，53]。除了对齐简单的中间特征[6，39，50]之外，现有的努力通常基于精心设计的知识表示，例如模仿空间注意力图[53]，成对相似性模式[36，37，46]或最大化教师和学生特征之间的互信息[1，44，55]。虽然我们确实看到这些作品在学生表现方面的不断改进，但无论是有效的表示还是良好优化的超参数，都不能确保它们的成功在实践中容易实现。此外，转移知识的多样性阻碍了对学生成绩最终提高的统一和明确的解释。在本文中，我们提出了一个简单的知识蒸馏技术，并证明它可以显着弥合教师和学生模型之间的性能差距，不需要精心的知识表示。我们提出的我们对准11934认为教师模型强大的类预测能力不仅归功于这些表达功能，而且同样重要的是，一个有区别的分类器。基于这一论点，我们通过分类器前一层的特征对齐来训练学生模型，并直接复制教师分类器进行学生推理。通过这种方式，如果我们能够将学生的特征与教师模型的特征完美地对齐，他们的表现差距就会消失。也就是说，特征对齐误差单独解释了学生推理的准确性，这使得我们的知识转移更容易理解。根据我们的实验结果，一个单一的特征对齐损失已经工作得非常好。这样一个简单的损失使我们不必像以前的工作那样仔细调整超参数，以平衡多个损失的影响[1，6，24，39，44，46，50，53]。由于从教师和学生模型提取的特征的尺寸通常彼此不同，因此在学生特征编码器之后添加投影仪这种投影仪通常会导致小于3%的成本修剪比在教师到学生的压缩，但它使我们的技术适用于任意的模型架构。在添加的投影仪加上重用的教师分类器的参数数量小于原始学生分类器的参数数量的少数情况下，修剪比率甚至可以被放大（参见图7）。我们对标准基准数据集进行了广泛的实验，并观察到我们的SimKD始终优于所有最先进的方法与各种师生架构组合的比较。我们还表明，我们的简单技术在不同的情况下，如多教师知识蒸馏和无数据知识蒸馏，以及推广。2. 相关工作知识蒸馏（KD）是一种将知识从强大的教师模型（如多个深度神经网络的集合）压缩到较小的学生模型中的技术[4，19，24，48]。传递的知识最初被认为是给定输入样本的输出的条件分布[24]。从这一观点来看，来自预培训教师模型的预测或软目标在学生表现的提高中起着重要作用。这种技术成功背后的一个共同信念是，这些教师学习的软目标可以捕捉不同类别之间的关系，并在学生培训期间作为有效的规则化[2，7，24，51]。为了使KD对于模型压缩更实用，我们需要进一步抵抗教师到学生压缩中的性能下降[19，48]。从预先训练的教师模型中利用更多信息，特别是中间层，是解决这个问题的一般解决方案。一堆这样的作品如雨后春笋般涌现在过去的几年里，寻求更好的学生表现，统称为特征蒸馏。他们大多提出不同的表示来捕获适当的转移知识，例如粗糙的中间特征图[39]或其变换[1，23，53]，由成对相似性矩阵[36，37，46]编码的样本关系或通过对比学习[44，49，55]建模。最近，一些作品转向设计跨层关联，以充分利用教师模型的中间特征[6，10]。在上述知识表示或改进的转移策略的帮助下，学生模型将使用不仅来自最终层的梯度信息进行训练，即，分类器，但也从那些早期的层。然而，在这些方法中需要仔细调整额外的超参数以平衡不同损失的影响，并且仍然不清楚新引入的监督信号将如何对学生模型的最终性能产生积极影响。在某种程度上，我们重用教师分类器的关键思想与之前关于假设迁移学习（HTL）的研究有关[38]。HTL旨在利用学习的源域分类器来帮助目标域分类器的训练，条件是只有少量标记的目标数据集和没有源数据集是可访问的[15，28，29]。最近的工作进一步摆脱了标记目标数据集的要求，并通过采用伪标记策略将香草HTL扩展到无监督域自适应设置[31]。与此不同的是，我们的目标是减少教师和学生在同一数据集上的表现差距，而不是调整预先训练的模型，以在具有不同分布的另一个数据集上实现良好的表现。此外，我们的SimKD比这项工作简单得多，并且在标准KD设置中仍然取得了令人惊讶的好结果3. 方法3.1. 香草知识蒸馏通常，当前为图像分类任务设计的流行深度神经网络可以被视为具有多个非线性层的特征编码器的堆栈，以及通常包含具有softmax激活函数的单个全连接层的分类器[22，25，33，41，54]。这两个组件都将使用反向传播算法进行端到端的训练。符号描述如下所示。给定来自K类别分类数据集的具有独热标签y的训练样本x，我们将学生模型的倒数第二层中的编码特征表示为fs=Fs（x;θs）∈RCs.该特征随后被传递到具有权重Ws∈RK×Cs的分类器中，以获得logitsgs=Wsfs∈RK以及具有softmax激活的类别预测ps=σ（gs/T）∈RK11935（1）ΣJ联系我们联系我们预培训教师模式预培训教师模式预培训教师模式培训形象培训Encoder编码器学生模型分类器KL培训形象培训Encoder编码器梯度学生模型分类器知识表示公司简介KL培训形象培训学生模型102重复使用Encoder编码器分类器Encoder编码器分类器梯度(a) 香草知识蒸馏(b) 特征提取(c) SimKD图2.三种知识提炼技术的比较。主要的区别在于梯度是如何形式化的以及梯度流的开始位置。(a)Vanilla KD计算班级预测中的梯度，并依赖于该梯度来更新整个学生模型。(b)特征提取通过各种知识表示从中间层收集更多的梯度信息。需要仔细调整其他超参数以获得最佳性能。(c)我们的SimKD计算分类器的前一层中的2损失，并反向传播该梯度，以更新学生特征编码器和维度投影仪。为了简单起见，省略了（a）和（b）中的比较方法的预测和地面实况标签之间的交叉熵损失函数σ（·）和温度T实验（gs/T）p=，相比之下，我们提出了一种简单的知识蒸馏技术，名为SimKD，它摆脱了这些严格的要求，同时仍然实现了最先进的重新设计，IKj=1 exp.gs/T经过广泛的实验。如图2c所示，SimKD的一个关键组成部分是其中Ps/ Gs表示相应向量的第i个元素，即，我们直接借用培训前的教师班，我我并且T是软化效果1的超参数。Vanilla知识蒸馏包括两个损失[24]：一个是传统的交叉熵损失，另一个是具有Kullback-Leibler发散的ps和软目标pt之间的预测对中的对齐损失[27]。s2t s而不是训练一个新的。这消除了计算交叉熵损失的标签信息的需要，并且使得特征对齐损失成为用于生成梯度的唯一来源。总的来说，我们认为教师分类器中包含的歧视性信息很重要，但在很大程度上被过度-LKD=LCE（y，p）+TT=1LKL（p，p）.（二）T>1在KD的文献中。并对它的重要作用作了合理的解释。考虑坐-与交叉熵损失相比，引入的预测对齐损失提供了关于不正确类别的额外信息，以便于学生训练[17，24]。由于在softmax变换后，分配给这些不正确类别的概率往往相当小，因此需要提高该项中的温度T以产生更软的分布，从而传递更多信息[24]。3.2. 简单知识蒸馏近年来，已经提出了各种特征提取方法。这些工作主要是收集和传输来自中间教师-学生层对的额外梯度信息，以更好地训练学生特征编码器（图2b）。然而，它们的成功在很大程度上取决于那些特别设计的知识表示，以产生适当的归纳偏差[3，6]，并仔细选择超参数来平衡不同损失的影响。两者都是劳动密集型和耗时的。也很难断定某种类型的代表在学生培训中所起的实际作用。[1]在本段中，我们只给出了学生模型的符号，但类似的符号也适用于教师模型。在一个模型被要求处理具有不同数据分布的多个任务的情况下，基本实践是冻结或共享一些浅层作为跨不同任务的特征提取器，同时微调最后一层以学习任务特定信息[5，13，18，30]。在这种单模型多任务设置中，现有的工作持有这样的观点，即任务不变的信息可以被共享，而任务特定的信息需要被独立地识别，通常由最终的分类器来识别。对于KD，具有不同能力的教师和学生模型在同一数据集上训练，类似地，我们可以合理地相信，在不同模型之间容易获得的数据中存在一些能力不变的信息，而强大的教师模型可能包含额外的基本能力特定信息，这是简单的学生模型难以获得的。此外，我们假设大多数特定于能力的信息包含在深层中，并期望重用这些层，即使只有最终的分类器也将有助于学生训练。基于这一假设，并得到了多方面的实证支持，我们为学生模型提供了教师分类器进行推理，并强制其提取的特征与以下内容匹配梯度编码器分类器编码器分类器投影机分类器119362P·××(a) [24]第二十四话（b）我们的SimKD。图3.使用t-SNE的CIFAR-100测试图像的可视化结果[47]。我们从100个班级中随机抽取10个教师和学生模型提取的特征分别用深色和浅色描绘最好用彩色观看。2损失函数LSimKD=<$ft− P（fs）<$2，（3）其中投影仪（）被设计成以相对小的成本匹配特征尺寸，同时足够有效以确保精确对准。实际上，这种简单的损失在[39，50]之前就已经被利用过了，但我们实际上是试图揭示重用教师分类器的潜在价值，而不是开发一个复杂的损失函数来进行特征对齐。如图3所示，在SimKD中，从预训练的教师模型（深色）和提取的学生模型（浅色）中提取的特征在同一个类中紧密聚类，并在不同的类中明显分离，这确保了学生特征在后面被重用的教师分类器正确分类。有点令人惊讶的是，教师到学生压缩的性能下降将大大减轻这种简单的技术。除了高推理精度外，这种单损失公式的简单性为我们的SimKD提供了良好的可解释性。请注意，来自预先训练的教师模型的重用通常，重用更多的层会导致更高的学生准确率，但会带来推理负担的增加。4. 实验在本节中，我们进行了大量的实验来证明我们提出的SimKD的有效性。我们首先将其与标准基准数据集上的几种具有代表性的最先进方法进行比较。最后，通过实验证明了“分类器重用”操作在提高学生学习成绩方面的优越性。虽然我们的学生推理需要一个额外的投影仪，实验表明，它的效果修剪率可以控制在一个可接受的水平。最后，我们采用我们的技术，多教师和无数据的知识蒸馏设置。数据集和基线。两个基准图像分类数据集，包括CIFAR-100 [26]和ImageNet[40]进行了一系列的实验。我们使用标准数据增强，并通过通道均值和标准差将所有图像归一化为[22，25，52]。除了vanilla KD [24]之外，还复制了各种方法进行比较，包括FitNet [39]，AT [53]，SP [46]，VID[1]，CRD [44]，SRRL [50]和SemCKD [6]。除了KD本身之外，所有比较的方法都是结合普通KD损失来实现的，即，当量（二）、培训详情。我们遵循以前作品的训练程序[6，44，50]，并报告所有竞争对手在我们随机关联的教师-学生组合上的表现。具体来说，我们采用SGD优化器，0.9所有数据集的Nesterov动量。对于CIFAR-100，总训练时期设置为240，学习率在第150、180和210个时期除以10。初始学习率对于MobileNet/ShuffleNet系列架构设置为0.01小批量大小设置为64，权重衰减设置为510-4。对于ImageNet，初始学习率设置为0.1，然后在总数的第30、60、90位除以10120个训练周期。小批量大小设置为256，权重衰减设置为1 10−4。所有结果均以4次试验的平均值（标准差）报告，但ImageNet上的结果仅在一次试验中报告。在KD损失中的温度T在本文中被设置为4。技术附录中包含了再现性的更详细描述以及更多结果。4.1. 测试准确度表1至表3显示了基于15种网络组合的各种方法的综合性能比较，其中教师和学生模型采用类似或完全不同的架构进行演示从表1和表2中的测试精度比较中，我们可以看到SimKD在CIFAR-100上始终优于所有竞争对手，并且在某些情况下改进非常显著。例如，对于此外，如表1的第四列和第五列所示，给定相同的教师模型表3中不同训练时期的测试精度SimKD在训练中实现了更快的收敛11937学生WRN-40-1ResNet-8x471.92 ±0.1774.12 ±0.2973.09 ±0.3074.42 ±0.05ResNet-11074.37 ±0.17ResNet-116 VGG-8 ResNet-8x4ShuffleNetV274.46 ±0.0976.14 ±0.3270.46 ±0.2973.09 ±0.3072.60 ±0.12[24]第二十四话[39]第三十九话[第53话]SP [46]VID [1]CRD [44]SRL [50]SemCKD [6]74.17 ±0.2276.25 ±0.3472.73± 0.15 75.28±0.18 75.60 ± 0.2174.67 ±0.1874.32 ±0.0873.90 ±0.1775.07 ±0.0376.08 ±0.1376.20 ±0.1772.91 ±0.1875.02 ±0.3175.82 ±0.2274.59 ±0.1774.29 ±0.0776.67 ±0.2876.43 ±0.3976.84± 0.25 71.90± 0.13 75.74±0.09 75.41 ± 0.1074.55 ±0.1074.80 ±0.3374.64 ±0.1475.59 ±0.0775.99 ±0.2676.17 ±0.2275.39 ±0.3476.86 ±0.0976.53 ±0.2473.12± 0.10 74.84±0.08 75.77 ± 0.0876.75 ±0.1476.83 ±0.1373.19 ±0.2377.19 ±0.0973.54 ±0.1975.56 ±0.1375.22 ±0.0773.23 ±0.1675.78 ±0.2776.12 ±0.1877.04 ±0.61老师74.41 ±0.1675.56± 0.27WRN-40-276.23± 0.04 76.62± 0.14 76.69±0.48 75.27 ± 0.1378.08± 0.15 77.82± 0.15 77.90± 0.11 75.76± 0.12ResNet-32x4 ResNet-110x2 ResNet-110x2ResNet-32x475.85 ±0.1676.75± 0.23WRN-40-276.19 ±0.3577.62 ±0.3278.39± 0.27ResNet-32x479.42表1.CIFAR-100上各种知识提取方法的前1名测试准确度（%）学生ShuffleNetV 1 WRN-16-2 ShuffleNetV 2 MobileNetV 2MobileNetV 2x2WRN-40-2ShuffleNetV2x1.571.36±0.25 73.51 ± 0.32 72.60± 0.12 65.43± 0.29 69.06± 0.10 76.35±0.18 74.15 ± 0.22KD [24] 74.30 ±0.16 74.90 ±0.29 76.05± 0.34 69.07± 0.47 72.43± 0.32 77.70±0.13 76.82 ± 0.23FitNet [39] 74.52±0.03 74.70 ± 0.35 76.02± 0.21 68.64± 0.27 73.09± 0.46 77.69±0.23 77.12 ± 0.24AT [53] 75.55± 0.19 75.38± 0.18 76.84±0.19 68.62 ± 0.31 73.08± 0.14 78.45±0.24 77.51 ± 0.31SP [46] 74.69 ±0.32 75.16 ±0.32 76.60± 0.22 68.73± 0.17 72.99± 0.27 78.34±0.08 77.18 ± 0.19VID [1] 74.76 ±0.22 74.85 ±0.35 76.44± 0.32 68.91± 0.33 72.70± 0.22 77.96±0.33 77.11 ± 0.35CRD [44] 75.34 ±0.24 75.65 ±0.08 76.67± 0.27 70.28± 0.24 73.67± 0.26 78.15±0.14 77.66 ± 0.22SRRL [50] 75.18±0.39 75.46 ± 0.13 76.71± 0.27 69.34± 0.16 73.48± 0.36 78.39±0.19 77.55 ± 0.26SemCKD [6] 76.31 ±0.20 75.65 ±0.23 77.67± 0.30 69.88± 0.30 73.98± 0.32 78.74±0.17 79.13 ± 0.41SimKD教师表2.CIFAR-100上各种知识提取方法的前1名测试准确度（%）我们还发现，在 “ResNet-8x 4 WRN-40-2” 和“ShuffleNetV 2 ResNet-110 x2”组合的情况下，使用SimKD训练的学生模型自升华的一个可能解释是，等式（3）中的特征重新表示效应可能有助于学生模型变得更加稳健，从而获得更好的结果[12，35]。4.2. 分类器复用操作分析“分类器重用“操作是我们在上述性能比较中取得为了更好地理解它的关键作用，我们进行了几个实验，78767475.575.074.574.0SimKD（= 1）：78.08KD（= 0）：74.420.2 0.4 0.6 0.8(a) ResNet-8x4 ResNet-32x4SimKD（= 1）：75.56KD（= 0）：74.120.2 0.4 0.6 0.8(c)WRN-40-1 WRN-40-2767574730.2 0.4 0.6 0.8(b) ResNet-8x4 WRN-40-2757473720.2 0.4 0.6 0.8(d)MobileNetV2x2 ResNet-32x4两种可选的策略来处理学生特征编码器和分类器：（1）联合训练，（2）顺序训练。从这两个变种导致的性能下降证实了判别信息在教师分类器的价值此外，重用更深的教师层将进一步提高学生的表现。联合训练。如前所述的功能蒸馏AP-图4.我们训练的学生特征编码器与其相关的分类器联合，然后报告的测试精度的学生模型，通过使用自己的分类器或重用的教师分类器。方法（图2b），我们现在联合训练学生特征编码器及其相关分类器。结果KD（= 0）：75.28SimKD（= 1）：76.75SimKD（= 1）：75.43KD（= 0）：72.43教师分类器学生分类器前1位准确度（%）前1位准确度（%）前1位准确度（%）77.18± 0.26 77.17± 0.32 78.25± 0.24 70.71± 0.41 75.43± 0.26 79.29± 0.11 79.54± 0.26ResNet-32x4ResNet-32x4ResNet-110x2 WRN-40-2ResNet-32x4ResNet-32x4ResNet-32x479.4279.4278.18 76.3179.4279.4279.42前1位准确度（%）11938学生[24]第二十四话[第53话] SP [46]VID [1]CRD [44]SRL [50]SemCKD [6]SimKD老师1/4纪元49.3452.7552.8553.5753.2255.4455.1453.1461.7354.501/2纪元64.9866.6966.6966.3666.6467.2567.3666.8969.2670.55完整时期70.5871.2971.1871.0871.1171.2571.4671.4171.6676.26表3.ImageNet上不同训练时期的Top-1测试准确率（%）比较我们采用ResNet-18作为学生模型。学生顺序SimKD教师WRN-40-174.48± 0.04 75.56± 0.27ResNet-8x451.97± 0.19 78.08± 0.15ResNet-32x4ResNet-11077.63± 0.05 77.82± 0.15ResNet-110x2ResNet-11677.75± 0.03 77.90± 0.11ResNet-110x2VGG-835.72± 1.33 75.76± 0.12ResNet-32x4ResNet-8x445.03± 0.44 76.75± 0.23WRN-40-2ShuffleNetV221.56± 0.31 78.39± 0.27ResNet-32x42.001.751.501.251.000.75 120 150180时代210240准确度（%）学生73.09 ±0.30KD [24] 74.42 ±0.05SimKD78.08±0.15SimKD+78.47±0.08SimKD++78.88±0.05老师79.42表4.从头开始训练新的学生分类器通过训练具有额外KD损失的LJoint=（1−α）LKD+αLSimKD，（4）其中α是超参数。为了全面评估联合培训效果，使用了四种不同的师生组合以及四个均匀间隔的α值。如图4所示，在所有设置中，基于其自己的分类器或重用的教师分类器的学生性能变得远不如SimKD，这表明教师分类器中的判别信息可能不容易以联合训练的方式转移到学生模型中。显著的准确性降低还表明，添加的投影仪本身和特征对准损失不一定改善最终性能，除非我们放弃联合训练并诉诸更有效的策略，即，使用单个特征对准损失进行训练，并重新使用教师分类器进行推理。图4还显示，为了超越vanillaKD的性能，这种双损失方法需要逐个进行超参数调整。连续训练。上述结果表明，拆卸的学生特征编码器和分类器的训练的好处。此外，在这一部分中，我们通过从头开始训练一个新的分类器而不是重用教师分类器来为这种信念提供证据。我们采用表1中的教师-学生组合作为评估的示例。在利用等式（3）执行特征对准之后，我们固定学生特征编码器，即，冻结所提取的特征，并利用常规训练过程训练随机初始化的学生分类器（具有软最大激活的全连接层这与unsu中使用的线性评估协议完全相同图5. top-1测试准确度（%）和负对数似然的比较（学生：ResNet-8x 4，教师：ResNet-32 x4）。学习评价[11，20，21]。这种顺序训练的结果在表4中给出。我们发现，除了虽然我们已经尝试过几次调整初始学习速率，但它在性能上只产生了微小的差异。表4中的结果表明，即使当提取的特征已经对齐时，训练令人满意的学生分类器仍然是一个挑战。一般来说，我们可以通过在分类器训练步骤中更仔细地调整超参数来获得更好的学习性能，但这是一个不平凡的任务。相比之下，直接重用预先训练好的教师分类器已经很好地工作了。详细的培训程序和更多结果见附录。重用更多教师层。我们现在将我们的技术推广到教师模型的更深层被重用于学生推理的情况，并表明学生的表现将进一步提高。我们以ResNet架构为例，在CIAFR-100数据集上进行实验遵循标准设计，ResNet架构由一个卷积层，三个构建块和一个自底向上的全连接层组成[22]。每个构建块都包含相同数量的卷积层，改变这些层数会导致不同的ResNet架构。例如，每个构建块的10层组成了一个32 层的ResNet 模型。然后，除了像我们的SimKD那样重用最后一个分类器之外，还通过重用另外的最后一个或两个构建块引入了两个新的变体，它们分别表示为从图5中，我们可以看到SimKD通过仅重用教师SimKD老师学生KD负对数似然11939精确修剪比精度剪枝度剪枝率（%）Top-1准确度（%）∈∈P·××不分类器及其两个变体进一步实现了预期的更高性能，尽管相关的复杂度也增加了。这些结果支持了我们的假设，即重用深层教师层有利于学生的能力提高，这可能是由于大多数能力-7978771 2 48R82.580.077.575.0754442704038651 2 4 8R其中包含具体信息另一个解释--国家是，重用更深的教师层将使（a）ResNet-32x476.0(a) ResNet-8x4 WRN-40-270较浅教师层的近似更容易实现，从而导致较少的性能下降。在实践中，仅重用最终的教师分类器在性能和参数复杂性之间取得了良好的平衡。4.3. 投影仪分析75.072.570.067.51 2 48R(c)WRN-40-1 WRN-40-27475.5726575.0706074.56874.0551 2 4 8R(d)MobileNetV2x2 ResNet-32x4我们的SimKD中的无参数接下来，我们开始从几个方面深入研究另一个组件-投影仪我们首先提出了它的默认实现，然后表明，它只需要少量的额外参数来实现国家的最先进的性能。最后给出了该投影机的几个烧蚀研究结果。实施. 等式（3）中的投影器（）的目的是完美地匹配特征向量ftRCt和fsRCs。一个简单的实现是使用一个卷积层，具有批量归一化和ReLU激活，它具有CsC t+2 C t参数[50]。然而，由于教师和学生模型之间的大能力差距，这种单层变换可能不足以精确对准因此，我们采用最后的特征图和具有降维因子r的三层瓶颈变换作为替代方案，希望这些将有助于更好地对齐特征。总参数为图6.测试精度和剪枝率之间的权衡。香草KD的修剪率用灰色虚线绘制65432101.0 0.5电话：+86-0512 - 88888888传真：+86-0512 - 88888888修枝成本比率（%）图7.修剪比率成本的直方图。香草KD的比率，因为λ_param_proj+ λ_param_proj可以小于零。图6显示，增加r将提高修剪率，但反过来会导致性能下降。这可能是由于缩小投影仪的瓶颈尺寸将限制其表示能力，从而影响特征对齐的成功Ct（ Cs+ Ct+4）R9C2++2C t.R2（五）然后，我们计算SimKD的最小剪枝率成本时，它在竞争中表现最好的四个-这个公式意味着如果r加倍，则增加的参数将减少到四分之一和二分之一之间，这使得我们能够通过改变r来将参数复杂度控制在可接受的水平内。在技术附录中提供了投影仪的详细结构和分析。影响修剪比例。图6展示了不同降维因子r下top-1测试准确度和剪枝率之间的权衡。我们采用以下等式-修剪率的计算：修剪比率= 1−paramse+ paramproj+表1和表2中的青少年师生组合。图7表明，我们添加的投影仪在大多数情况下（10/14）仅产生小于1%的修剪率成本在某些情况下，如在本文中，我们设置r等于2作为默认值，因为这个值达到了很好的平衡，即，以适度的整形比代价获得最先进的结果。全部结果见附录。消融研究。最后，我们比较了几种实现方式-阿帕拉山=（六）投影仪和损失函数的位置（见附录）用于特征对齐。所有结果均在CIFAR-100上使用“ResNet-8x 4 ResNet-32 x4”组合获得其中，参数m_s_e、参数m_pr_o_j、参数m_t和参数m_tc/sc分别表示学生编码器、投影器、整体教师模型和教师/学生分类器的参数号。其上界接近时，帕拉姆项目 →0，可能高于修剪从表5中可以看出，我们的projec- tor的默认实现（最后一行）实现了最佳性能。其简化对应物导致的准确度下降表明在特征对准中使用相对强大的投影仪的好处。此外，较低的准确度（76.03± 0.05），精确修剪比精度剪枝度前1位准确度（%）前1位准确度（%）计数剪枝率（%）Top-1准确度（%）修剪率（%）修剪率（%）11940投影仪测试损失（1002）准确度（%）1x1Conv 0.345±0.001 75.15 ± 0.271x1Conv-1x1Conv 0.343±0.001 75.71 ± 0.331x1Conv-3x3Conv （DW）-1x1Conv0.306±0.001 77.76 ± 0.121x1Conv-3x3Conv-1x1Conv0.301±0.001 78.08±0.15表5.投影机的比较“1x1/3x3Conv”“DW”表示按深度可分离卷积。在每层之后使用标准批处理归一化和ReLU激活。方法①②学生72.60 ±0.1272.60 ±0.12AVEG75.94 ±0.2076.33 ±0.14AEKD[14]75.99 ±0.1876.17 ±0.43AEKD-F [14]77.24 ±0.3277.08 ±0.28SimKDv77.43±0.21 77.60±0.23SimKD78.59±0.3178.59± 0.05表6.多教师KD的结果我们采用ShuffleNetV2作为学生模型，并在两组预先训练好的教师模型下训练它：①包括三个ResNet-32 x4。②包括两个ResNet-32 x4和一个ResNet-110 x2。0.40）验证了使用最后一个特征图的有效性。由于我们的102损失反映了提取的特征之间的距离，较低的测试损失意味着更接近的对齐，从而更好的测试准确性。这与表5中的结果一致。4.4. 应用一：多教师知识传播然后，我们展示了我们的技术在多教师KD设置中的适用性，其中多个预先训练的教师模型可用于学生训练。比较了两种代表性方法如表6所示，SimKD始终实现最佳性能。此外，我们提供了SimKDv的结果，其中首先使用全连接层投影仪来对齐特征向量，然后合并到相关的教师分类器中。多个教师分类器的权重被平均并重新用于学生推理，这不会产生额外的参数。4.5. 应用二：无数据知识提取无数据知识蒸馏旨在利用预先训练的教师模型，而无需访问其训练数据集，以提高学生的表现。一个流行的范例方法是否需要数据？WRN-40-1 WRN-16-2学生是71. 92±0. 17 73. 51 ± 0. 32[34]无33.60±3.88 45.03 ± 1.73DAFL [9]否45.32±1.46 45.94 ± 1.66CMI [16]否64.80±0.35 65.11 ± 0.43CMI+SimKD否66.78±0.29 67.31±0.89表7.无数据KD的结果。我们采用WRN-40-2作为教师模型，有两个不同的学生模型。首先用生成模型恢复原始数据流形，然后对合成数据集执行知识蒸馏[9，16，34]。我们的SimKD可以很容易地集成到这些现有的方法中，通过替换他们的KD训练步骤作为我们的“重用分类器”操作和相关联的特征对齐。表7显示，在我们的SimKD的帮助下，学生的表现在无数据知识蒸馏应用中也得到了5. 结论在本文中，我们探索了一种简单的知识蒸馏技术，其中预训练的教师分类器被重用于学生推理，学生模型被训练为具有单个的特征对齐的损失。我们设计了几个实验来分析我们的技术的工作原理，并进行了广泛的实验，以证明其优越性超过国家的最先进的方法。我们希望这项研究将成为未来研究的重要基线。6. 局限性和未来工作一个简单的参数重用作为我们的第一个尝试，探索教师分类器的潜在价值当特征尺寸不匹配时，这需要投影仪，从而增加了模型的复杂性.如何开发无投影仪的替代方案需要进一步探讨。另一个限制是我们的技术仅适用于监督知识蒸馏，例如图像分类[24]，密集预测[42]和机器翻译[43]。这也是值得开发一个成功的变种，我们的技术无监督学习的情况。7. 确认本课题得到了浙江大学上海高等研究院星空科学基金（批准号：SN-ZJU-SIAS-001）、国家自然科学基金（批准号：U1866602）和浙江省自然科学基金（批准号：LY 20 F020023）的资助作者要感谢ChunhuaShen和匿名评论者提供的有用意见。11941引用[1] 放大图片作者：Sungsoo Ahn，Shell Xu Hu，Andreas C.作者声明：Daniel D.劳伦斯和戴振文。知识转移的变分信息在IEEE计算机视觉和模式识别会议论文集，第9163-9171页，2019年。一二四五六[2] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？神经信息处理系统进展，第2654-2662页，2014年。一、二[3] 放大图片作者：Yoshua Bengio，Aaron C. Courville和Pascal Vincent。表征学习：回顾与新观点。IEEE传输模式分析马赫内特尔，35（8）：1798-1828，2013. 3[4] 克里斯蒂安·布西卢阿、里奇·卡鲁阿纳和亚历山德鲁·尼古列斯库-米齐尔。模型压缩。在Proceedings of the 12th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining，第535-541页，2006年。一、二[5] 瑞奇·卡鲁阿纳多任务学习。 Machine Learning，28（1）：41-75，1997. 3[6] Defang Chen ， Jian-Ping Mei ， Yuan Zhang ， CanWang，Zhe Wang，Yan Feng，and Chun Chen.跨层蒸馏与语义校准。在AAAI人工智能集，第7028一、二、三、四、五、六[7] 陈德芳，梅建平，王灿，闫峰，陈春。与不同的同行进行在线知识蒸馏。在AAAI人工智能会议论文集，第3430-3437页，2020年。2[8] Guobin Chen，Wonggun Choi，Xiang Yu，Tony X.汉和曼莫汉·钱德拉克利用知识蒸馏学习有效的目标检测模型。神经信息处理系统的进展，第742-751页，2017年。1[9] Hanting Chen ， Yunhe Wang ， Chang Xu ， ZhaohuiYang，Chuanjian Liu，Boxin Shi，Chunjing Xu，ChaoXu，and Qi Tian.学生网络的无数据学习。国际计算机视觉会议，第3513-3521页，2019年。8[10] Pengguang Chen，Shu Liu，Hengshua

下载后可阅读完整内容，剩余1页未读，立即下载