没有合适的资源?快使用搜索试试~ 我知道了~
0Masked Generative Distillation0Zhendong Yang � † 1 , 2 , Zhe Li † 2 , Mingqi Shao 1 , Dachuan Shi 10Zehuan Yuan 2 , and Chun Yuan ‡ 101 清华大学深圳国际研究生院 2 字节跳动公司 { yangzd21,smq21,sdc21 }@mails.tsinghua.edu.cn axel.li@outlook.com yuanzehuan@bytedance.comyuanc@sz.tsinghua.edu.cn0摘要。知识蒸馏已成功应用于各种任务。当前的蒸馏算法通常通过模仿教师的输出来提高学生的性能。本文表明,教师也可以通过指导学生的特征恢复来提高学生的表示能力。从这个角度来看,我们提出了一种称为Masked GenerativeDistillation(MGD)的简单方法:我们屏蔽学生特征的随机像素,并强制其通过一个简单的块生成教师的完整特征。MGD是一种真正通用的基于特征的蒸馏方法,可用于包括图像分类、目标检测、语义分割和实例分割在内的各种任务。我们在不同模型上进行了实验,并且结果表明所有学生都取得了显著的改进。值得注意的是,我们将ResNet-18的ImageNettop-1准确率从69.90%提升到71.69%,将基于ResNet-50骨干的RetinaNet的边界框mAP从37.4提升到41.0,将基于ResNet-50的SOLO的MaskmAP从33.1提升到36.2,将基于ResNet-18的DeepLabV3的mIoU从73.20提升到76.02。我们的代码可在https://github.com/yzd-v/MGD上获取。0关键词:知识蒸馏,图像分类,目标检测,语义分割,实例分割01 引言0深度卷积神经网络(CNN)已广泛应用于各种计算机视觉任务。一般来说,较大的模型性能更好,但推理速度较慢,这使得在有限资源下难以部署。为了克服这个问题,提出了知识蒸馏[18]。根据蒸馏的位置,它可以分为两种类型。第一种是专门为不同任务设计的,例如基于逻辑的蒸馏[18,40]用于分类,基于头部的蒸馏[10,39]用于检测。第二种是基于特征的蒸馏[28,17,4]。由于各种网络之间仅在特征之后的头部或投影器不同,理论上,基于特征的蒸馏方法可以0� 该工作是在Zhendong在字节跳动实习期间完成的。† 平等贡献 ‡ 通讯作者0arXiv:2205.01529v2[cs.CV] 5Jul20220+v:mala2255获取更多论文02 Z. Yang et al.0可以在各种任务中使用。然而,为特定任务设计的蒸馏方法通常无法用于其他任务。例如,OFD[17]和KR[4]对探测器的改进有限。FKD[37]和FGD[35]专为探测器设计,由于缺少连接,无法用于其他任务。以前的基于特征的蒸馏方法通常尽可能地模仿教师的输出,因为教师的特征具有更强的表示能力。然而,我们认为不需要直接模仿教师来提高学生特征的表示能力。用于蒸馏的特征通常是通过深度网络传递的高阶语义信息。特征像素已经在一定程度上包含了相邻像素的信息。因此,如果我们可以通过一个简单的块使用部分像素来恢复教师的完整特征,这些使用的像素的表示能力也可以得到提高。从这个角度来看,我们提出了一种简单高效的基于特征的蒸馏方法,称为MaskedGenerative Distillation(MGD)。如图2所示,我们首先对学生的特征进行随机像素的屏蔽,然后通过一个简单的块生成教师的完整特征。由于每次迭代都使用随机像素,所有像素将在训练过程中被使用,这意味着特征将更加稳健,并且其表示能力将得到提高。在我们的方法中,教师只作为学生恢复特征的指导,不要求学生直接模仿教师。0图1.FPN输出的第一层特征的可视化。教师模型:RetinaNet-ResNeXt101。学生模型:RetinaNet-ResNet50。FGD[35]是一种用于目标检测的蒸馏方法,强制学生模型模仿教师模型的特征。0为了验证我们的假设,即在不直接模仿教师特征的情况下,掩蔽特征生成可以提高学生模型的特征表示能力,我们对学生模型和教师模型的特征注意力进行了可视化。如图1所示,学生模型和教师模型的特征差异很大。与教师模型相比,学生模型的特征背景响应更高。教师模型的mAP也明显高于学生模型,分别为41.0和37.4。使用最先进的蒸馏方法FGD[35]对学生模型进行蒸馏,该方法强制学生模型通过注意力模仿教师模型的特征,学生模型的特征变得更加接近教师模型的特征,mAP大大提高。0+v:mala2255获取更多论文0掩蔽生成蒸馏 30经过MGD训练后,学生模型的特征与教师模型仍然存在显著差异,但学生模型对背景的响应大大减少。令人惊讶的是,学生模型的性能超过了FGD,甚至达到了与教师模型相同的mAP。这也表明,使用MGD进行训练可以提高学生模型的特征表示能力。此外,我们还对图像分类和稠密预测任务进行了大量实验。结果显示,MGD可以为各种任务带来显著的改进,包括图像分类、目标检测、语义分割和实例分割。MGD还可以与其他基于逻辑或基于头部的蒸馏方法结合,以获得更高的性能提升。总之,本文的贡献包括:01.我们引入了一种新的基于特征的知识蒸馏方法,该方法使学生模型使用其掩蔽特征生成教师特征,而不是直接模仿教师特征。02. 我们提出了一种新颖的基于特征的蒸馏方法,即掩蔽生成蒸馏,该方法简单易用,只有两个超参数。03.我们通过在不同数据集上进行大量实验证明了我们方法的有效性。对于图像分类和稠密预测任务,学生模型在使用MGD后取得了显著的改进。02 相关工作02.1 分类的知识蒸馏0知识蒸馏最早由Hinton等人提出[18],其中学生模型通过标签和教师模型最后一层的软标签进行监督。然而,除了逻辑回归之外,更多的蒸馏方法基于特征图。FitNet[28]从中间层中蒸馏语义信息。AT[36]对通道维度上的值进行汇总,并将注意力知识传递给学生模型。OFD[17]提出了边界ReLU,并设计了一种新的距离度量函数进行蒸馏。CRD[30]利用对比学习将知识传递给学生模型。最近,KR[4]构建了一个评论机制,并利用多层次信息进行蒸馏。SRRL[33]将表示学习和分类解耦,利用教师模型的分类器训练学生模型的倒数第二层特征。WSLD[40]从偏差-方差权衡的角度提出了加权软标签进行蒸馏。02.2 稠密预测的知识蒸馏0分类和稠密预测之间存在很大的差异。许多用于分类的蒸馏方法在稠密预测上失败。从理论上讲,基于特征的蒸馏方法对于分类和稠密预测任务都应该有帮助,这也是我们方法的目标。0+v:mala2255获取更多论文04 Z. Yang et al.0目标检测的知识蒸馏。Chen等人[1]首先在检测器的neck和head上计算蒸馏损失。目标检测的蒸馏关键在于在前景和背景之间的极端不平衡情况下如何进行蒸馏。为了避免从背景引入噪声,FGFI[31]利用细粒度掩蔽来蒸馏靠近物体的区域。然而,Defeat[13]指出前景和背景的信息都很重要。GID[10]选择学生和教师在不同区域表现出差异的区域进行蒸馏。FKD[37]使用教师和学生的注意力之和使学生关注可变区域。FGD[35]提出了聚焦蒸馏,强制学生学习教师的关键部分,以及全局蒸馏,补偿缺失的全局信息。0语义分割的知识蒸馏。Liu等人[23]提出了成对和整体蒸馏,强制学生和教师的输出之间具有成对和高阶一致性。He等人[16]将教师网络的输出重新解释为重新表示的潜在域,并从教师网络中捕获长期依赖性。CWD[29]通过归一化每个通道的激活图计算概率图,并最小化Kull-back-Leibler(KL)散度。03方法0不同任务的模型架构差异很大。此外,大多数蒸馏方法都是针对特定任务设计的。然而,基于特征的蒸馏可以应用于分类和密集预测。特征蒸馏的基本方法可以表示为:0Lfea =0C �0k = 10H �0i = 10W 0j = 10� FTk,i,j − falign(FSk,i,j) � 2(1)0其中FT和FS分别表示教师和学生的特征,falign是用于将学生的特征FS与教师的特征FT对齐的适应层。C,H,W表示特征图的形状。这种方法帮助学生直接模仿教师的特征。然而,我们提出了掩蔽生成蒸馏(MGD),其目的是强制学生生成教师的特征而不是模仿它,在分类和密集预测方面为学生带来显著的改进。MGD的架构如图2所示,我们将在本节中具体介绍它。03.1使用掩蔽特征生成0对于基于CNN的模型,深层的特征具有更大的感受野和更好的原始输入图像表示。换句话说,特征0+v:mala2255获取更多论文0掩蔽生成蒸馏50图2.掩蔽生成蒸馏(MGD)的示意图。我们首先随机掩蔽学生的特征。然后我们使用投影层来强制学生使用掩蔽特征生成教师的特征。0地图像素已经在一定程度上包含了相邻像素的信息。因此,我们可以使用部分像素来恢复完整的特征图。我们的方法旨在通过学生的掩蔽特征生成教师的特征,从而帮助学生获得更好的表示。我们用Tl∈RC×H×W和Sl∈RC×H×W(l=1,..,L)表示教师和学生的第l个特征图。首先,我们将第l个随机掩蔽设置为覆盖学生的第l个特征,可以表示为:0Mli,j =0如果Rli,j < λ,则为0,否则为1(2)0其中Rli,j是(0,1)之间的随机数,i,j是特征图的水平和垂直坐标。λ是表示掩蔽比例的超参数。第l个特征图由第l个随机掩蔽覆盖。然后我们使用相应的掩蔽来覆盖学生的特征图,并尝试使用剩余的像素生成教师的特征图,可以表示为:0G � f align (S l) ∙ M l � −→ T l (3)0G(F) = W l 2(ReLU(W l 1(F))) (4)0G表示投影层,包括两个卷积层:W l 1和W l2,一个激活层ReLU。在本文中,我们采用1×1卷积层。0+v:mala2255获取更多论文LCHW(5)06 Z. Yang et al.0对于适应层f align,使用3×3卷积层作为投影层W l 1和W l2。根据这种方法,我们设计了MGD的蒸馏损失L dis:0L dis (S, T) =0l = 10k = 10i = 10j = 10� T l k,i,j − G � f align (S l k,i,j) ∙ M l i,j � � 20其中L是蒸馏的层的总和,C、H、W表示特征图的形状。S和T分别表示学生和教师的特征。03.2总损失0使用提出的MGD的蒸馏损失L dis,我们使用以下总损失训练所有模型:0L all = L original + α ∙ L dis (6)0其中Loriginal是所有任务模型的原始损失,α是平衡损失的超参数。MGD是一种简单而有效的蒸馏方法,可以轻松应用于各种任务。我们的方法的过程总结在算法1中。0算法1掩膜生成蒸馏0输入:教师:T,学生:S,输入:x,标签:y,超参数:α,λ1:使用S获取特征fea S和输入x的输出ˆy 2:使用T获取输入x的特征fea T 3:计算模型的原始损失:Loriginal (ˆy, y) 4:计算公式5中的蒸馏损失:L dis (fea S, fea T) 5:使用L all = Loriginal + α ∙ L dis来更新S 输出:S04主要实验0MGD是一种基于特征的蒸馏方法,可以轻松应用于不同任务的不同模型。在本文中,我们在包括分类、目标检测、语义分割和实例分割在内的各种任务上进行实验。我们对不同任务使用不同的模型和数据集进行实验,所有模型在MGD的作用下都取得了显著的改进。04.1分类0数据集。对于分类任务,我们在ImageNet[11]上评估我们的知识蒸馏方法,该数据集包含1000个物体类别。我们使用120万张图像进行训练,5万张图像用于所有分类实验的测试。我们使用准确率来评估模型。0+v:mala2255获取更多论文0掩膜生成蒸馏70实现细节。对于分类任务,我们在骨干网络的最后一个特征图上计算蒸馏损失。关于此的消融研究在第5.5节中展示。MGD使用超参数α来平衡公式6中的蒸馏损失。另一个超参数λ用于调整公式2中的掩膜比例。我们对所有分类实验使用超参数{α = 7 ×10^(-5),λ =0.5}。我们使用SGD优化器对所有模型进行100个epoch的训练,其中动量为0.9,权重衰减为0.0001。我们将学习率初始化为0.1,并在每30个epoch进行衰减。此设置基于8个GPU。实验使用基于Pytorch[26]的MMClassification[6]和MMRazor[7]进行。0表1.不同蒸馏方法在ImageNet数据集上的结果。T和S分别表示教师和学生。0类型 方法 Top-1 Top-5 方法 Top-1 Top-50ResNet-34(T) 73.62 91.59 ResNet-50(T) 76.55 93.060ResNet-18(S) 69.90 89.43 MobileNet(S) 69.21 89.020Logit KD[18] 70.68 90.16 KD[18] 70.68 90.300WSLD[40] 71.54 90.25 WSLD[40] 72.02 90.700特征0AT[36] 70.59 89.73 AT[36] 70.72 90.030OFD[17] 71.08 90.07 OFD[17] 71.25 90.340RKD[25] 71.34 90.37 RKD[25] 71.32 90.620CRD[30] 71.17 90.13 CRD[30] 71.40 90.420KR[4] 71.61 90.51 KR[4] 72.56 91.000Ours 71.58 90.35 Ours 72.35 90.710特征 + Logit SRRL[33] 71.73 90.60 SRRL[33] 72.49 90.920Ours+WSLD 71.80 90.40 Ours+WSLD 72.59 90.940分类结果。我们使用两种常见的分类蒸馏设置进行实验,包括同质和异质蒸馏。第一种蒸馏设置是从ResNet-34[15]到ResNet-18,另一种设置是从ResNet-50到MobileNet[19]。如表1所示,我们与各种知识蒸馏方法[18, 36, 17, 25, 30, 4, 40,33]进行比较,包括基于特征的方法、基于logit的方法和两者的组合。学生ResNet-18和MobileNet分别通过我们的方法获得了1.68和3.14的Top-1准确率提升。此外,如上所述,MGD只需要在特征图上计算蒸馏损失,并且可以与其他基于logit的图像分类方法结合使用。因此,我们尝试在WSLD[40]中添加基于logit的蒸馏损失。通过这种方式,两个学生的Top-1准确率分别达到了71.80和72.59,分别提高了0.22和0.24。0+v:mala2255获取更多论文8Z. Yang et al.+v:mala2255获取更多论文04.2 目标检测和实例分割0数据集。我们在COCO2017数据集[22]上进行实验,该数据集包含80个目标类别。我们使用120k张训练图像进行训练,5k张验证图像进行测试。模型的性能以平均精度进行评估。0表2. COCO上不同蒸馏方法的目标检测结果。0Teacher Student mAP AP S AP M AP L0RetinaNetResNeXt101(41.0)0RetinaNet-Res50 37.4 20.6 40.7 49.70FKD[37] 39.6 22.7 43.3 52.50CWD[29] 40.8 22.7 44.5 55.30FGD[35] 40.7 22.9 45.0 54.70Ours 41.0 23.4 45.3 55.70CascadeMask RCNNResNeXt101(47.3)0Faster RCNN-Res50 38.4 21.5 42.1 50.30FKD[37] 41.5 23.5 45.0 55.30CWD[29] 41.7 23.3 45.5 55.50FGD[35] 42.0 23.8 46.4 55.50Ours 42.1 23.7 46.4 56.10RepPointsResNeXt101(44.2)0RepPoints-Res50 38.6 22.5 42.2 50.40FKD[37] 40.6 23.4 44.6 53.00CWD[29] 42.0 24.1 46.1 55.00FGD[35] 42.0 24.0 45.7 55.60Ours 42.3 24.4 46.2 55.90实现细节。我们在neck的所有特征图上计算蒸馏损失。对于所有的单阶段模型,我们采用超参数{α=2×10^(-5),λ=0.65},对于所有的两阶段模型,我们采用超参数{α=5×10^(-7),λ=0.45}。我们使用SGD优化器训练所有的模型,其中动量为0.9,权重衰减为0.0001。除非特别说明,我们将模型训练24个epochs。我们使用继承策略[20,35],当学生和教师具有相同的头部结构时,使用教师的neck和head参数初始化学生进行训练。实验使用MMDetection[2]进行。0目标检测和实例分割结果。对于目标检测,我们在三种不同类型的检测器上进行实验,包括两阶段检测器(FasterRCNN[27]),基于锚点的单阶段检测器(RetinaNet[21])和无锚点的单阶段检测器(RepPoints[34])。我们将MGD与三种最新的用于检测器的蒸馏方法[37, 29,35]进行比较。对于实例分割,我们在两个模型SOLO[32]和MaskRCNN[14]上进行实验。如表2和表3所示,我们的方法在目标检测和实例分割方面超过了其他最先进的方法。Masked Generative Distillation9and instance segmentation. The students gain significant AP improvements withMGD, e.g. the ResNet-50 based RetinaNet and SOLO gets 3.6 BoundingboxmAP and 3.1 Mask mAP improvement on COCO dataset, respectively.Table 3. Results of different distillation methods for instance segmentation on COCO.MS means multi-scale training. Here the AP means Mask AP.TeacherStudentsmAP APS APMAPLSOLO-Res1013x,MS(37.1)SOLO-Res50(1x)33.112.236.150.8FGD[35]36.014.539.554.5Ours36.214.239.755.3CascadeMask RCNNResNeXt101(41.1)Mask RCNN-Res50 35.416.638.252.5FGD[35]37.817.140.756.0Ours38.117.141.156.34.3Semantic SegmentationDatasets. For the semantic segmentation task, we evaluate our method onCityScapes dataset[9], which contains 5000 high-quality images (2975, 500, and1525 images for the training, validation, and testing). We evaluate all the modelswith mean Intersection-over-Union (mIoU).Implementation Details. For all the models, we calculate the distillation losson the last feature map from the backbone. We adopt the hyper-parameters{α = 2 × 10−5, λ = 0.75} for all the experiments. We train all the mod-els with SGD optimizer, where the momentum is 0.9 and the weight decay is0.0005. We run all the models on 8 GPUs. The experiments are conducted withMMSegmentation[8].Semantic Segmentation Results. For the semantic segmentation task, weconduct experiments on two settings. In both settings, we use PspNet-Res101[38]as the teacher and train it for 80k iterations with 512×1024 input size. We usePspNet-Res18 and DeepLabV3-Res18[3] as students and train them for 40k iter-ations with 512×1024 input size. As shown in Table 4, our method surpasses thestate-of-the-art distillation method for semantic segmentation. Both the homo-geneous and heterogeneous distillation bring the students significant improve-ments, e.g. the ResNet-18 based PspNet gets 3.78 mIoU improvement. Besides,MGD is a feature-based distillation method and can be combined with otherlogit-based distillation methods. As the results show, the student PspNet andDeepLabV3 get another 0.47 and 0.29 mIoU improvement by adding the logitdistillation loss of the head in CWD[29].+v:mala2255获取更多论文10Z. Yang et al.Table 4. Results of the semantic segmentation task on CityScapes dataset. T and Smean teacher and student, respectively. The results are the average value of three runs.∗ means adding the distillation loss of the head in CWD[29]MethodInput SizemIoUPspNet-Res101(T)512 × 1024 78.34PspNet-Res18(S)512 × 51269.85SKDS[23]512 × 51272.70CWD[29]512 × 51273.53Ours512 × 51273.63Ours∗512 × 51274.10PspNet-Res101(T)512 × 1024 78.34DeepLabV3-Res18(S) 512 × 51273.20SKDS[23]512 × 51273.87CWD[29]512 × 51275.93Ours512 × 51276.02Ours∗512 × 51276.315Analysis5.1Better representation with MGDMGD forces the student to generate the teacher’s complete feature map withits masked feature instead of mimicking it directly. It helps the students get abetter representation of the input image. In this subsection, we study this byusing the student to teach itself. We first train ResNet-18 directly as a teacherand the baseline. Then we use the trained ResNet-18 to distill itself with MGD.For comparison, we also distill the student by forcing the student to mimic theteacher directly. The distillation loss for mimicking is the square of L2 distancebetween the student’s feature map and the teacher’s feature map.As shown in Table 5, the student also gains 1.01 accuracy improvement withMGD even when the teacher is itself. In contrast, the improvement is very limitedwhen forcing the student to mimic the teacher’s feature map directly. The com-parison indicates that the student’s feature map achieves better representationthan the teacher’s after distillation.Furthermore, we visualize the training loss curves for distillation with MGDand mimicking the teacher, which is shown in Figure 3. The difference in thefigure means the square of L2 distance between the last feature map of studentand teacher, which is also the distillation loss for mimicking the teacher. Asthe figure shows, the difference keeps decreasing during mimicking the teacherdirectly and finally the student gets a similar feature to the teacher. However, theimprovement with this method is minimal. In contrast, the difference becomeslarger after training with MGD. Although the student gets a different featurefrom the teacher, it gets higher accuracy, also indicating the student’s featureobtains stronger representation power.0+v:mala2255获取更多论文0掩蔽生成蒸馏110(a) 通过MGD进行蒸馏0(b) 通过模仿教师进行蒸馏0图3.ResNet-18蒸馏ResNet-18的训练损失曲线。差异是指学生和教师最后一个特征图之间的L2距离的平方。这也是模仿教师的蒸馏损失。0表5.在ImageNet上对Rse18-18进行蒸馏的结果。我们直接训练ResNet-18作为教师和学生基线。T和S分别表示教师和学生。0Top-1 Top-50ResNet-18(T,S) 69.90 89.43+模仿特征 70.05 89.41 +MGD 70.9189.8205.2 通过掩蔽随机通道进行蒸馏0对于图像分类,模型通常使用池化层来减少特征图的空间维度。这一层使得模型对通道比空间像素更敏感。因此,在这个子节中,我们尝试通过掩蔽随机通道而不是空间像素来应用MGD进行分类。我们采用掩蔽比例β=0.15和超参数α=7×10^(-5)进行实验。如表6所示,通过掩蔽随机通道而不是空间像素,学生可以获得更好的性能。学生的Res-18和MobileNet分别获得了0.13和0.14的Top-1准确率提升。0表6. 在ImageNet数据集上对随机通道进行掩蔽的结果。0准确率 MGD(空间) MGD(通道)0Res34-18 Top-1 71.58 71.690Top-5 90.35 90.420Res50-mv1 Top-1 72.35 72.490Top-5 90.71 90.940+v:mala2255获取更多论文012 Z. Yang等人05.3 使用不同的教师进行蒸馏0Cho等人[5]表明,对于图像分类的知识蒸馏,准确率更高的教师不一定是更好的教师。这个结论是基于基于logit的蒸馏方法得出的。然而,我们的方法只需要计算特征图上的蒸馏损失。在这个子节中,我们通过使用不同类型的教师来蒸馏相同的学生ResNet-18来研究这个结论,如图4所示。如图4所示,当教师和学生具有相似的架构时,更好的教师对学生的帮助更大,例如,ResNet-18分别与ResNet-18和ResNetV1D-152作为教师时,准确率分别达到70.91和71.8。然而,当教师和学生具有不同的架构时,学生很难生成教师的特征图,蒸馏的改进有限。此外,当架构之间的差异较大时,蒸馏效果更差。例如,尽管Res2Net-101[12]和ConvNeXt-T[24]的准确率分别为79.19和82.05,但它们只给学生带来了1.53和0.88的准确率提升,甚至低于基于ResNet-34的教师(73.62准确率)。图4中的结果表明,当教师和学生具有相似的架构时,更强的教师对基于特征的蒸馏更有利。此外,同质的教师对基于特征的蒸馏比准确率高但架构异构的教师更好。0图4. 使用不同的教师在ImageNet数据集上训练ResNet-18的结果。0+v:mala2255获取更多论文+v:mala2255获取更多论文0掩蔽生成蒸馏1305.4 生成块0MGD使用一个简单的块来恢复特征,称为生成块。在公式4中,我们使用两个3×3的卷积层和一个激活层ReLU来完成这个过程。在这个子节中,我们探索了具有不同组合的生成块的效果,如表7所示。结果显示,当只有一个卷积层时,学生的改进最小。然而,当有三个卷积层时,学生的Top-1准确率变差,但Top-5准确率变好。至于卷积核的大小,5×5的卷积核需要更多的计算资源,而且性能更差。基于结果,我们选择了公式4中的架构作为MGD的架构,其中包括两个卷积层和一个激活层。0表7. 关于生成部分的蒸馏结果。Conv Layers表示卷积层的总和,kernelsize属于卷积层。我们在每两个卷积层之间添加一个ReLU激活层。0卷积层核大小 Top-1 Top-501 3 × 3 71.28 90.30 2 3 × 3 71.5890.35 3 3 × 3 71.49 90.4402 5 × 5 71.32 90.2805.5 不同阶段的蒸馏0我们的方法也可以应用于模型的其他阶段。在本小节中,我们探索在ImageNet上的不同阶段进行蒸馏。我们计算教师和学生对应层的蒸馏损失。如表8所示,蒸馏较浅的层对学生有一定帮助,但帮助有限。而蒸馏包含更多语义信息的较深阶段对学生更有益。此外,早期阶段的特征不直接用于分类。因此,将这些特征与最后阶段的特征一起蒸馏可能会降低学生的准确性。05.6 超参数的敏感性研究0在本文中,我们使用方程6中的α和方程2中的λ来平衡蒸馏损失并调整掩码比例。在本小节中,我们使用ResNet-34对ImageNet数据集上的ResNet-18进行蒸馏,对超参数进行敏感性研究。结果如图5所示。如图5所示,MGD对于用于平衡损失的超参数α不敏感。对于掩码比例λ,准确率为71.41。Top-1Top-5+v:mala2255获取更多论文014 Z. Yang等0表8. Rse34-18在ImageNet上不同阶段的蒸馏结果。0阶段1 70.09 89.40 阶段2 70.2189.38 阶段3 70.37 89.42 阶段471.58 90.350阶段2+3+4 71.47 90.310当λ为0时,表示没有用于生成的掩码部分。当λ<0.5时,学生表现出更高的性能,但当λ过大时,例如0.8,剩余的语义信息太少,无法生成教师的完整特征图,性能提升也会受到影响。0图5. 使用ResNet34-ResNet18进行超参数α和λ的敏感性研究06 结论0在本文中,我们提出了一种新的知识蒸馏方法,它强制学生使用其掩码特征生成教师的特征,而不是直接模仿教师。基于这种方法,我们提出了一种新的知识蒸馏方法,称为Masked GenerativeDistillation(MGD)。学生可以通过MGD获得更强的表示能力。此外,我们的方法仅基于特征图,因此MGD可以轻松应用于各种任务,如图像分类、目标检测、语义分割和实例分割。通过对不同数据集上的各种模型进行广泛实验,证明了我们的方法简单高效。致谢。本工作得到了深圳市科技创新委员会项目资助(编号:JCYJ20190809172201639和WDZC20200820200655001),以及深圳市重点实验室项目资助(编号:ZDSYS20210623092001004)。Masked Generative Distillation15https://github.com/open-mmlab/mmclassification (2020)https://doi.org/10.1109/TPAMI.2019.293875814. He, K., Gkioxari, G., Doll´ar, P., Girshick, R.: Mask r-cnn. In: Proceedings of theIEEE international conference on computer vision. pp. 2961–2969 (2017)+v:mala2255获取更多论文0参考文献01. Chen, G., Choi, W., Yu, X., Han, T., Chandraker, M.: 使用知识蒸馏学习高效的目标检测模型.Advances in neural information processing systems 30 (2017)02. Chen, K., Wang, J., Pang, J., Cao, Y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功