DearKD:一种用于视觉transformer的高效数据知识蒸馏框架

139 浏览量更新于2023-10-25 收藏 12.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

120520DearKD：用于视觉transformer的数据高效早期知识蒸馏0Xianing Chen 1* , Qiong Cao 2† , Yujie Zhong 3 , Jing Zhang 4 , Shenghua Gao 156† , Dacheng Tao 2401 上海科技大学，2 京东探索学院，3 美团公司，4 悉尼大学，5上海智能视觉与成像工程研究中心，6 上海高效节能与定制AI IC工程研究中心0{ chenxn1,gaoshh } @shanghaitech.edu.cn { mathqiong2012,dacheng.tao } @gmail.com0jaszhong@hotmail.com jing.zhang1@sydney.edu.au0摘要0由于其自注意力的强大建模能力，transformer在计算机视觉中取得了成功。然而，transformer的出色性能严重依赖于大量的训练图像。因此，迫切需要一种数据高效的transformer解决方案。在这项工作中，我们提出了一种早期知识蒸馏框架，称为DearKD，以提高transformer所需的数据效率。我们的DearKD是一个两阶段的框架，首先从CNN的早期中间层蒸馏归纳偏差，然后通过无蒸馏训练使transformer充分发挥作用。此外，我们的DearKD可以轻松应用于极端无数据情况，即没有真实图像可用。在这种情况下，我们提出了一种基于DeepInversion的边界保持内散度损失，以进一步缩小与完整数据对应方法之间的性能差距。对ImageNet、部分ImageNet、无数据设置和其他下游任务的大量实验证明了DearKD相对于基线方法和最先进方法的优越性。01. 引言0由于其自注意机制在建模长程依赖方面的强大能力，transformer[4, 14,47]在NLP研究中显示出一种主导趋势。最近，transformer被应用于各种计算机视觉任务，并取得了强大的性能[7, 15,32]。然而，由于缺乏特定的归纳偏差（IB）[12, 15, 46,52]，transformer需要大量的训练数据。归纳偏差可以高度影响学习算法的泛化能力，独立于数据，通过将学习算法推向特定解决方案[16, 17, 35]。0* 本工作是Xianing Chen在京东探索学院实习时完成的。† 通讯作者。0图1.我们DearKD的数据高效性示意图。我们将DearKD在三种不同数量真实训练图像的情况下进行了比较：完整的ImageNet、部分ImageNet和无数据的情况（即没有任何真实图像），并与DeiT和DeiT进行了比较。0与transformer不同，CNN天生具有通过卷积操作中的局部性和权重共享机制获得的强大归纳偏差。因此，由于平移等变性特性[12, 41,42]，CNN具有高效的样本和参数利用率。最近，一些研究人员提出了将卷积操作明确插入到视觉transformer中以引入归纳偏差的方法[11, 18, 30,50-52]。然而，强行修改的结构可能破坏transformer中的内在特性并降低其容量。另一方面的工作[46]利用知识蒸馏（KD）[23]实现了数据高效的transformer。通过蒸馏，可以将教师网络中的暗知识中反映的归纳偏差转移到学生网络中[1]。作为该领域的典型方法，DeiT[46]成功地探索了从CNN到transformer的知识蒸馏的思想，并大大提高了transformer训练的数据效率。然而，DeiT仍然存在两个缺点：120530首先，一些研究[11,51]表明，在网络的早期阶段插入卷积层可以带来最佳性能，而DeiT只是从CNN的分类logits中进行蒸馏，因此使得早期（即浅层）的transformer层难以捕捉归纳偏差。此外，训练过程中的蒸馏隐式地阻碍了transformer学习自己的归纳偏差[12]和更强的表示[11]。为了解决这些问题，我们提出了一个名为数据高效的早期知识蒸馏（DearKD）的两阶段学习框架，以进一步推动训练视觉transformer的数据效率的极限。这里的“早期”一词指的是我们提出的框架中的两个新设计：transformer早期层的知识蒸馏和transformer训练的早期阶段。首先，我们提出从CNN的分类logits和中间层进行蒸馏，这可以为中间transformer层（尤其是早期层）捕捉归纳偏差提供更明确的学习信号。具体来说，我们从[10]中汲取灵感，并设计了一个多头卷积-注意力（MHCA）层，以更好地模拟卷积层而不限制自注意力的表达能力。此外，我们提出了一个对齐模块来解决CNN特征和transformer标记之间的特征不对齐问题。其次，在DearKD训练的第一阶段中才进行蒸馏。我们让transformer在第二阶段学习自己的归纳偏差，以充分利用自注意力的灵活性和强大的表达能力。为了充分发挥DearKD在数据效率方面的优势，我们研究了三种不同数量真实训练图像的情况下的DearKD：完整的ImageNet[13]、部分ImageNet和无数据的情况（即没有任何真实图像）。在没有真实图像可用的极端情况下，可以使用无数据知识蒸馏方法[8, 34,55]来训练网络。在这项工作中，我们通过引入基于DeepInversion的边界保持内散度损失进一步提高了数据无关设置下transformer网络的性能。我们的主要贡献总结如下：0•我们引入了DearKD，一种用于以数据高效的方式训练视觉Transformer的两阶段学习框架。特别是，我们提出了在早期阶段将CNN的中间层的知识蒸馏到Transformer中，这在以前的工作中从未被探索过。0• 我们在三种不同的设置中研究了DearKD，并0提出了一种基于DeepInversion的内散度损失，以大大增加生成的图像的多样性，并进一步改善无数据情况下的Transformer网络。0•在完整的ImageNet数据集上，我们的DearKD在图像分类方面实现了最先进的性能，计算量相似或更少。令人印象深刻的是，仅使用50%的ImageNet数据训练的DearKD可以胜过使用所有数据训练的基线Transformer。最后但并非最不重要的是，基于DeiT-Ti的无数据DearKD在ImageNet上达到了71.2%，仅比其完整的ImageNet对应物低1.0%。02. 相关工作0知识蒸馏。知识蒸馏[23]是一种基本的训练技术，其中学生模型在教师模型或集合的有效信息传递和监督下进行优化。Hinton[23]通过最小化学生和教师网络之间的输出分布统计之间的距离来进行知识蒸馏，以使学生学习包含不同类别之间相似性的暗知识，这些相似性不是由真实标签提供的。为了以高保真度从教师网络中学习知识，[58]进一步利用了注意力的概念来增强学生网络的性能。[20]专注于转移隐藏神经元形成的激活边界。[43]提出了匹配雅可比矩阵的方法。[31]提出了蒸馏结构化知识的方法。此外，[25]提出了一种Transformer蒸馏方法，将大型BERT[14]中编码的大量知识转移到小型学生Transformer网络中。然而，所有这些方法都没有考虑到具有不同架构的两个网络之间的蒸馏问题。此外，在我们的设置中，教师网络的容量较低。视觉Transformer。随着Transformers[47]在自然语言处理中的成功，许多研究[7，15，40，46]表明它们也可以应用于计算机视觉领域。由于它们缺乏归纳偏见，它们确实从大量数据中隐含地学习归纳偏见，并在低数据范围内落后于CNNs[15]。最近，一些研究尝试将CNNs明确引入到视觉Transformer中[9，11，18，30，50-52，60]。然而，它们强制性地修改了Transformer中的结构，破坏了其固有属性。[12]通过隐式地建模局部视觉结构引入了局部归纳偏见，它仍然通过从大量数据中进行训练来学习局部信息。[46]提出了从CNNs到Transformers的知识蒸馏方法，它没有考虑它们固有表示的差异和Transformers固有的归纳偏见。因此，我们提出了用于Transformers的两阶段学习框架，以学习卷积以及它们自己的MHSA(X) = AXW VA = Softmax(QK)(1)v(h) := −α(h)1, −2∆(h)1 , −2∆(h)2rδ :=�∥δ∥2, δ1, δ2�Wqry = Wkey := 0,�Wkey := I(2)MHCA(X) = AXW VA = Softmax(QK + v(h)rij)(3)120540图2. 我们提出方法的流程图。 (a) 卷积归纳偏见知识蒸馏阶段。 (b)Transformer固有归纳偏见学习阶段。0归纳偏见。无数据知识蒸馏。无数据知识蒸馏[33]旨在从繁琐的教师模型中学习学生模型，而无需访问真实世界的数据。现有的方法可以大致分为两类：基于GAN和基于先验的方法。基于GAN的方法[8，34，54，62]通过最大化鉴别器的响应来合成训练样本。基于先验的方法[5]为无数据知识蒸馏提供了另一种视角，其中合成数据被强制满足预定义的先验，例如总方差先验[3，36]和批归一化统计[5，8]。然而，它们都存在模式崩溃的问题[6，44]，因此我们提出了一种用于DeepInversion[55]的边界保持内散度损失来生成多样的样本。03. 数据高效的早期知识蒸馏0在本节中，我们首先回顾VisionTransformers的基础知识，然后介绍我们提出的两阶段学习框架DearKD。预备知识。基于可训练的关联记忆和（键，值）向量对，Vanilla多头自注意力（MHSA）[47]是基于可训练的关联记忆和（键，值）向量对的。具体来说，输入序列X ∈0R T ×d首先通过投影矩阵线性投影为查询（Q）、键（K）和值（V），即（Q，K，V）= � XW Q，XW K，XW V �，其中WQ/K/V ∈ R d ×d表示查询、键和值的投影矩阵。然后，为了提取每个部分之间的语义依赖关系，使用缩放和归一化的Softmax层进行点积注意力。然后，通过注意力对值的序列进行加权。这个自注意力操作重复h次，形成MHSA模块，其中h是头的数量。最后，h个头的输出特征沿着通道维度连接，产生MHSA的输出。0归纳偏差知识蒸馏。[11,51]揭示了网络早期的卷积可以显著提高性能，因为卷积在早期层可以很好地捕捉到局部模式（如纹理）。因此，为了提高数据效率，为transformer的早期层提供明确的归纳偏差指导变得至关重要。然而，在后期阶段，这种指导可能会限制transformer充分发挥其表达能力。为此，我们提出了一个两阶段的知识蒸馏框架DearKD（图2），用于学习transformer的归纳偏差，下面将详细介绍。03.1. DearKD: 阶段I0多头卷积注意力（MHCA）。最近，[10]证明了具有Nh个头和维度为D p ≥3的相对位置编码的多头自注意力层可以通过设置二次编码来表示任何卷积核尺寸为√ N h × √ N h的卷积层。0其中学习到的参数 ∆ ( h ) = � ∆ ( h ) 1 , ∆ ( h ) 2 � 和0α ( h ) 控制每个头的注意力中心和宽度，δ = ( δ 1 , δ 2 )是固定的，表示查询和键像素之间的相对偏移。受[10]的启发，我们提出了一个多头卷积注意力（MHCA）层，通过使用相对位置自注意力[40]，使transformer层能够充当卷积层。具体而言，给定输入X ∈ R T ×d，我们的MHCA层执行多头自注意力如下：Transformers Instrinsic Inductive Biases Learning.Considering that transformers have a larger capacity thanCNNs, we propose to encourage the transformers to learntheir own inductive biases in a second stage. This is a crit-ical step to leverage their flexibility and strong expressivepower fully. To this end, we formulate the objective of stageII as follows:120550图3.对齐器的示意图。通过堆叠reshape、双线性插值、深度卷积、LayerNorm和ReLU层，对齐器将transformer的标记对齐为具有相同卷积特征大小的形式。0其中v ( h )包含一个可学习的参数α ( h)（参见方程（2）），以自适应地学习相对位置嵌入的适当尺度（自适应RPE）。为了防止网络陷入高度关注局部信息的局部最优解，我们在自适应RPE之后添加了一个dropout层。与方程（1）中的MHSA不同，提出的MHCA由两部分组成，即内容部分和位置部分，以融入相对位置信息。前者学习上述非局部语义依赖关系，后者使注意力能够注意到局部细节。早期知识蒸馏。现在我们考虑使用提出的MHCA对卷积归纳偏差进行蒸馏。为了捕捉卷积的归纳偏差，并为中间transformer层提供丰富的空间信息和局部视觉模式，我们提出了在第一阶段从CNN的中间层到transformer的蒸馏。目标如下所示：0Lhidden = MSE(aligner(HS), HT)(4)0其中HS∈Rl×d和HT∈Rh×w×c分别指代学生的内容token和教师网络的特征图。主要困难在于CNN和变压器token的特征图形状不同，因此无法直接在其上应用蒸馏损失。为了解决特征不对齐的问题，我们设计了一个对齐模块，通过堆叠reshape来将内容tokenHS的大小匹配到HT的大小。如图3所示，对齐器包括深度卷积[45]、LayerNorm[2]和ReLU层。值得注意的是，据我们所知，这项工作是首次探索从CNN的中间层到变压器的知识蒸馏。除了模仿中间CNN层的行为外，我们还采用了常用的教师和学生网络logit之间的差异作为知识蒸馏的方法。与在下游任务微调时需要额外训练CNN网络的附加蒸馏token[46]不同，我们直接汇集包含有区分性信息并与CNN的设计原则一致的内容token，避免了这个问题。硬标签蒸馏[46]的目标如下所示：0图4.我们的DearKD每个epoch的平均注意力距离。0其中yt =argmax(logitT)是教师的硬决策。整体损失函数如下所示：0Llogit = LCE(logit, yt)(5)0其中LCE是[CLS] token的交叉熵损失。0L = αLCE + (1 - α)Llogit + βLhidden(6)0变压器内在归纳偏差学习。考虑到变压器比CNN具有更大的容量，我们提出在第二阶段鼓励变压器学习自己的归纳偏差。这是充分利用其灵活性和强大表达能力的关键步骤。为此，我们将第二阶段的目标制定如下：03.2. DearKD: 第二阶段0L = LCE(logit, y)(7)0需要注意的是，第一阶段的相对位置编码保持不变。在这个阶段，网络将学会探索更大的感受野以形成非局部表示。我们计算了DearKD每个epoch的每层的平均注意力距离。结果如图4所示。可以观察到，使用卷积IBs知识蒸馏后，第一阶段的变压器层将专注于建模局部性。在第二阶段训练我们的模型后，模型摆脱了局部性，从而可以自动学习变压器的内在IBs。x = arg minx LCE(x, y) + R(x) + Ldiversity(x, y)(8)R(x) = Rprior(x) + RBN(x)(9)xep =arg minx:C(x)=C(xa)dist(f(xa), f(x))(10)Lep(x) = −dist(f(xa), f(xep))(11)Ltriplet(x) = max(0, distap − distan + margin)(12)120560图5.我们提出的DF-DearKD的流程。04. DF-DearKD: 无真实图像训练0为了充分探索DearKD在数据效率方面的能力，我们在极端情况下进行了研究（即无数据）,在这种情况下，没有真实图像可用。在本节中，我们提出了DF-DearKD，它是DearKD的无数据变体，用于构建一个没有访问任何真实图像的变压器网络。与DearKD相比，DF-DearKD有一个额外的图像生成组件，如图5所示。接下来，我们首先简要回顾了紧密相关的DeepInversion方法[55]，然后介绍了一种新颖的边界保持内离散损失，以进一步增加生成样本的多样性。DeepInversion。假设我们可以访问一个经过训练的卷积分类器作为教师模型。给定一个随机初始化的输入x∈RH×W×C和相应的目标标签y，DeepInversion[55]通过优化来合成图像0其中 L CE ( ∙ ) 是分类的交叉熵损失。R ( ∙ )是图像正则化项，将 x从不真实的图像中引导出来，朝向呈现的图像分布。Ldiversity ( ∙ )是多样性损失，避免重复和冗余的合成图像。具体而言，R包括两个项：先验项 R prior [ 36 ]作用于图像先验和BN正则化项 R BN 正则化特征图分布：0其中 R prior 惩罚总方差和 x 的l2范数。R BN匹配特征统计，即当前批次的通道均值 µ ( x ) 和方差 σ 2 (x ) 与所有级别的BN [ 24]层中缓存的均值和方差相匹配。边界保持内部分歧损失。为了合成多样化的图像，提出了自适应深度反演（ADI）[ 55 ]0（a）DeepInversion0（b）ADI0（c）我们的0图6.提出的边界保持内部分歧损失的概念。给定潜在空间中的一组样本（表示为点），边界保持内部分歧损失在（c）中将最容易的正样本与其他样本分开（表示为同类样本之间的红色箭头），同时保持激活边界（表示为圆）不受影响。0提出了一种竞争机制，鼓励学生根据其学到的知识生成合成图像，并引起学生和教师之间的不一致。然而，它通常会生成困难和模糊的样本。为了解决嵌入空间过度聚类的问题（图6a和6b），类似于模式坍塌问题[6,44]，我们提出了边界保持内部分歧损失，将最容易的正样本与潜在空间中的其他样本分开，同时保持类别边界不受影响。图6c说明了我们提出的损失的主要思想。具体而言，对于每个批次中的锚点图像 x a，最容易的正样本[53]是与锚点图像具有相同标签的最相似的图像：0其中 dist ( f ( x a ) , f ( x )) = ∥ f ( x a ) − f ( x ) ∥ 2衡量潜在空间中两个样本之间的欧氏距离。受到这样的发现的启发，当两个潜在编码接近时，对应的图像是相似的[53]，我们通过最大化最容易的图像对的潜在编码之间的距离来增加类内多样性：0该损失鼓励优化器在整个决策边界内探索潜在空间。然而，这会将一些生成的样本推出决策边界。我们通过强制要求锚点-正样本对至少比锚点-负样本对更接近一个边界值，即dist ap − dist an >margin，来解决这个问题，这与三元组损失[22,48]具有相同的形式：0其中 dist ap = ∥ f ( x a ) − f ( x hp ) ∥ 2 和 dist an =∥ f ( x a ) − f ( x hn ) ∥ 2 衡量锚点之间的距离In this section, we evaluate the effectiveness of our pro-posed DearKD on ImageNet to show that our two-stagelearning framework for Transformers can boost the per-formance of Transformers. First, we provide an ablationstudy for the impact of each choice and analyze of data ef-ficiency for transformers. Then, we compare with state-of-the-arts and investigate its generalization ability on down-stream tasks. Finally, we analyse the results of DF-DearKD.10%40.513.8%50.34.0%54.325%61.16.0%64.32.8%67.150%68.34.0%71.60.7%72.3100%72.22.6%74.50.3%74.8120570分别是年龄和在潜在空间中对应的最难的正负样本图像。而x hp = arg max x : C ( x )= C ( x a ) dist ( f ( x a ) , f ( x ))是最难的正样本，即与锚点图像具有相同标签但相似度最低的图像，x hn = arg max x : C ( x )= C ( x a ) dist ( f ( x a) , f ( x ))是最难的负样本，即与锚点图像具有不同标签但相似度最高的图像。因此，总的提出的内部分歧损失为：0L intra-div ( x ) = α ep L ep ( x ) + α triplet L triplet ( x ) (13)05. 实验05.1. 实现细节0我们的模型基于DeiT[46]，这是ViT的经过超参数优化的版本。我们的模型有三个变体，分别命名为DearKD-Ti，DearKD-S，DearKD-B，与DeiT-Ti，DeiT-S，DeiT-B相同，只是我们的三个变体的头数增加到12，12，16，而向量维度保持不变以增加表示卷积的能力[10，12]。具体而言，我们首先将大小为224的输入图像嵌入到16×16的非重叠补丁中。然后，我们将补丁传播到8个MHCA和4个MHSA块中。由于MHCA中的相对位置嵌入不适用于[CLS]令牌，[CLS]令牌应忽略所有其他令牌的位置，因此我们简单地用零向量填充相对位置嵌入，并将其添加到所有令牌中。在测试或微调期间，我们只使用[CLS]令牌来获取概率分布。请注意，我们的方法可以轻松扩展到任何视觉Transformer模型。根据[46]，我们使用了timm[49]中的预训练RegNetY-16GF作为我们的教师模型，其达到了82.9％的top-1准确率。我们的模型使用AdamW优化器从头开始训练300个epoch，采用余弦学习率衰减。我们在第一阶段用250个epoch优化模型。学习率为0.0005。当我们训练更多epoch的模型时，我们在末尾添加epoch数，例如DearKD-Ti-1000，并使用800个epoch优化第一阶段的模型。使用批量大小为2048。训练期间的图像大小设置为224×224。我们使用Mixup [59]，Cutmix [57]，RandomErasing [63]和Random Augmentation[63]进行数据增强。实验在8个NVIDIA A100 GPU上进行。0MHCA L hiddent distill two-stage Top1 72.3 �72.5 � 74.3 � � 74.1 � � � 74.6 � � � � 74.80表1.在ImageNet分类中评估不同模块的消融研究。使用DeiT-Ti和DearKD-Ti。这里，∙distill'表示我们学习框架的第一阶段。符号�表示我们使用相应的元素。0训练规模 De0DearKD-Ti Top1 Gap Top1 Gap0表2. DearKD和DeiT在ImageNet上的数据效率比较05.2. 消融研究0在这一部分中，我们在提出的DearKD中消除了我们设计中的重要元素。我们使用将注意力头更改为DeiT-Ti作为我们的基线模型，在下面的消融研究中进行训练。所有模型都在ImageNet上进行了300个epoch的训练，并遵循与上述相同的训练设置和数据增强策略。如表1所示，使用我们的两阶段学习框架在其他设置中实现了最佳的74.8％的Top-1准确率。通过添加我们的MHCA，我们的模型达到了72.5％的Top-1准确率，优于具有可比参数的原始DeiT-Ti。这种轻微的改进主要是因为引入了局部性。请注意，我们的DearKD使用汇集的内容令牌作为我们的蒸馏令牌，并且与DeiT-Ti实现了可比的性能0，它添加了额外的蒸馏令牌。因此，我们的模型可以应用于下游任务，而无需预训练的教师模型，而我们的MHCA中的自适应RPE中存储了归纳偏差。由于CNN和Transformer的特征表示之间的差异，添加隐藏阶段的蒸馏损失会降低模型性能。由于我们提出的MHCA，隐藏阶段的蒸馏损失与我们的MHCA一起带来了+2.3％的增益，说明它们的互补性。最后，通过使用引入Transformer内在IB的两阶段学习框架，性能提高到了74.8％的Top-1准确率，证明了学习Transformer内在IB的有效性。CNNsResNet-18 [19]12M22424458.469.8ResNet-50 [19]25M22421226.176.2ResNet-101 [19]45M2242753.677.4ResNet-152 [19]60M2242526.478.3RegNetY-4GF [39]21M22421156.780.0RegNetY-8GF [39]39M2242591.681.7RegNetY-16GF [39]84M2242334.782.9EffiNet-B0 [45]5M22422694.377.1EffiNet-B3 [45]12M3002732.181.6EffiNet-B4 [45]19M3802349.482.9EffiNet-B6 [45]43M528296.984.0EffiNet-B7 [45]66M600255.184.3ViT-B/16 [15]86M384285.977.9ViT-L/16 [15]307M384227.376.5T2T-ViT-7 [56]4M22422638.471.7T2T-ViT-14 [56]22M22421443.981.5T2T-ViT-19 [56]39M2242781.081.9DeiT-Ti [46]5M22422536.572.2DeiT-S [46]22M2242940.479.8DeiT-B [46]86M2242292.381.8DeiT-Ti[46]6M22422529.574.51205805.3. 数据效率分析0为了验证引入的归纳偏差学习框架在提高数据效率和训练效率方面的有效性，我们将我们的DearKD与DeiT、DeiT进行比较，使用10%、25%、50%和100%的ImageNet训练集对它们进行训练。结果如表所示02. 如图所示，DearKD始终优于DeiT基线和DeiT0差距。令人印象深刻的是，仅使用50%的训练数据，DearKD的性能优于使用全部数据的DeiT基线。当使用全部训练数据时，DearKD的准确率比使用全部数据的DeiT基线提高了约2.6%。值得注意的是，随着数据量的减少，我们的DearKD和DeiT之间的差距增大，这表明我们的方法可以促进视觉变换器在低数据范围内的训练，并使其能够以更少的训练数据更高效地学习。05.4. 与完整的ImageNet比较0我们将我们的DearKD与具有相似模型大小的CNN和视觉变换器进行比较，结果如表3所示。从表中可以看出，与其他方法相比，我们的DearKD取得了最佳性能。与CNN相比，我们的DearKD-Ti达到了74.8%的Top-1准确率，优于参数更多的ResNet-18。DearKD-S模型的Top-1准确率为81.5%，与参数大约是其两倍的RegNetY-8GF相当。此外，我们还将其与多个变体的视觉变换器进行比较。我们使用与ViT和DeiT相同的结构，只增加头数，而保持通道维度不变。由于我们精心设计的学习框架，DearKD可以在可忽略的额外参数和计算成本的情况下提升模型的性能。DearKD优于在ViT上添加额外模块以建模局部结构的T2T-ViT。与SwinTransformer相比，参数更少的DearKD也实现了可比较或更好的性能。例如，DearKD-S在Swin-T上实现了更好的性能，同时减少了7M的参数，证明了所提出的MHCA和学习框架的优越性。在下游任务上的泛化性能。为了展示所提出方法的泛化性能，我们将在几个细粒度分类基准上微调DearKD模型。我们将在完整的ImageNet上初始化的模型转移到几个基准任务上：CIFAR-10/100 [ 28 ]，Flowers [ 37]，Cars [ 27 ]和预训练0方法参数大小吞吐量 Top10变换器0[46] 22M 224 2 936.2 81.2 DeiT-B0[46] 87M 224 2 290.9 83.40-1000 [46] 6M 224 2 2529.5 76.6 DeiT-S0-1000 [46] 22M 224 2 936.2 82.6 DeiT-B0-1000 [46] 87M 224 2 290.9 84.20Swin-T [32] 29M 224 2 755.2 81.3 Swin-S [32] 50M224 2 436.9 83.0 Swin-B [32] 88M 224 2 278.1 83.3Swin-B [32] 88M 384 2 84.7 84.20DearKD-Ti 5M 224 2 1416.7 74.8 DearKD-S 22M 2242 570.1 81.5 DearKD-B 86M 224 2 253.7 83.60DearKD-Ti-1000 5M 224 2 1416.7 77.0 DearKD-S-100022M 224 2 570.1 82.8 DearKD-B-1000 86M 224 2 253.784.40表3.ImageNet分类中不同骨干网络的比较。通过使用[49]的GitHub存储库和V100 GPU进行测量，遵循[46]。0按照[15,26]的方法对它们进行处理。结果如表4所示。可以看出，DearKD在大多数数据集上都取得了SOTA的性能。这些结果表明，即使在没有教师模型的情况下，我们的DearKD在微调到下游任务时也具有良好的泛化能力。05.5. DF-DearKD的性能0实现细节。对于训练样本的生成，我们使用了[55]中的多分辨率优化策略。我们首先将输入降采样到分辨率120590方法 Cifar10 Cifar100 Flowers Cars0ViT-B/32 [15] 97.8 86.3 85.4 - ViT-B/16 [15] 98.1 87.189.5 - ViT-L/32 [15] 97.9 87.1 86.4 - ViT-L/16 [15] 97.986.4 89.7 - T2T-ViT-14 [56] 98.3 88.4 - - EffiNet-B5[45] 98.1 91.1 98.5 - DeiT-B [46] 99.1 90.8 98.4 92.1DeiT-B0DearKD-Ti 97.5 85.7 95.1 89.0 DearKD-S 98.4 89.397.4 91.3 DearKD-B 99.2 91.1 98.8 92.70表4. DearKD和SOTA方法在不同下游任务上的泛化能力。0将输入分辨率设置为112×112，并优化2k次。然后，我们将分辨率设置为224×224的输入进行2k次优化。我们使用Adam优化器和余弦学习调度器。每个步骤的学习率分别为0.5和0.01。我们将α TV设置为1e-4，α l2设置为1e-5，αBN设置为5e-2，α ep设置为50，αtriplet设置为0.5。我们将批量大小设置为42，并随机生成每批6个类别。图像像素从均值为0，标准差为1的高斯噪声中随机初始化。我们使用在ImageNet上预训练的timm[49]中的RegNetY-16GF [39]。实验在NVIDIA TITAN XGPU上进行。性能比较。表5显示了使用不同无数据方法获得的学生模型的性能。如表中所示，我们的方法比其他无数据方法的训练效果显著更好。尽管我们的方法在与具有相同数量的真实图像的蒸馏相比下降了1.0％，但结果接近使用原始ImageNet数据集从头开始训练。此外，表5中的最后三行显示了消融实验。倒数第三行表示使用DeepInversion生成的图像进行蒸馏，但没有多样性损失，准确率仅为62.7％。当进一步使用ADI的多样性损失进行训练时，我们观察到准确率提高了7.4％。通过应用我们的内部分歧损失，准确率提高了8.6％。多样性比较。我们通过将我们生成的图像与表6中的其他方法进行LPIPS [29,61]距离比较来展示多样性。我们计算了4000对图像之间的距离。我们随机选择每个类别的4对图像。与其他方法相比，最高分表明我们的方法可以生成多样的图像。尽管我们生成的图像与真实图像之间仍然存在差距，但生成的样本可以成为训练高性能模型的数据来源。0教师网络 ResNet-101 ResNet-101 教师准确率77.37% 77.37% 学生网络 DeiT-Ti DeiT-S0从头开始训练 ImageNet 72.2% 79.8%0在真实图像上蒸馏 ImageNet 74.6% ( 2 . 4% ↑ )81.5% ( 1 . 7% ↑ ) 部分ImageNet 72.2% ( 0 . 0% ↓ )79.1% ( 0 . 7% ↓ )0在生成的样本上蒸馏 DeepInversion 62.7% ( 9 . 5%↓ ) 66.3 ( 13 . 5% ↓ ) ADI 70.1% ( 2 . 1% ↓ ) 73.1 (6 . 7% ↓ ) DF-DearKD 71.2% ( 1 . 0% ↓ ) 74.0 ( 5 .8% ↓ )0表5.知识蒸馏结果，从预训练的ResNet-101分类器到从头开始初始化的ViT在ImageNet数据集上。↑和↓分别表示性能增加和减少。0方法 LPIPS0真实图像 0.7100DeepInversion 0.668ADI 0.687 DF-DearKD0.6930表6.多样性定量比较。我们使用LPIPS指标来衡量生成图像的多样性。较高的LPIPS分数表示生成图像之间的多样性更好。06. 结论0在本文中，我们提出了DearKD，一种早期知识蒸馏框架，以提高训练transformers的数据效率。在第一阶段，我们将归纳偏见从CNN的早期中间层蒸馏到transformer中，而第二阶段允许transformer在没有蒸馏的情况下充分利用其容量进行训练。此外，我们通过引入保持边界的内部散度损失来增强DearKD在极端无数据情况下的性能，以生成多样的训练样本。我们在ImageNet、部分ImageNet、无数据设置和下游任务上进行了实验，并证明DearKD取得了优越的性能。0致谢。本工作得到了2030年重大科技创新“新一代人工智能”重点项目（编号2021ZD0111700），以及中国国家重点研发计划（2018AAA0100704），NSFC61932020，62172279，上海市科委（项目编号20ZR1436000）和上海市教育发展基金会和上海市教育委员会支持的“曙光计划”的支持。Jing Zhang博士得到了ARCFL-170100117的支持。120600参考文献0[1] Samira Abnar, Mostafa Dehghani, and Willem Zuidema.通过知识蒸馏传递归纳偏见.arXiv预印本arXiv:2006.00555，2020年。10[2] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hin- ton.层归一化. arXiv预印本arXiv:

下载后可阅读完整内容，剩余1页未读，立即下载