交叉感应偏置蒸馏的作用简介

190 浏览量更新于2023-10-25 收藏 880KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

16773联合建议：交叉感应偏置蒸馏任苏成1，5高正奇2天宇华3，5薛子慧4田永隆2何盛峰1赵航3，5*1华南理工大学2麻省理工3清华大学4德克萨斯大学奥斯汀分校5上海启智学院摘要视觉转换器的感应偏差更宽松，无法在数据不足的情况下很好地工作因此，引入知识蒸馏来辅助转化人才的培养与以前的作品不同，在本文中，我们深入研究了模型归纳偏差对知识解释的影响卷积和对合）。我们的主要观察结果是，教师的准确性不是学生准确性的主要原因，但教师的归纳偏差更重要。我们证明了具有不同架构归纳偏差的轻量级教师可以用于共同建议具有杰出表现的学生Transformer。其背后的基本原理是，设计有不同归纳偏见的模型往往侧重于不同的模式，而具有不同归纳偏见的教师尽管在同一数据集上接受培训，但仍能获得不同的多样化的知识为数据和化合物提供了更精确和全面的描述，并提高了学生在蒸馏过程中的此外，我们提出了一个令牌的诱导偏差对齐对齐的令牌与其目标教师模型的诱导偏差由于只提供轻量级教师并使用这种交叉归纳偏差蒸馏方法，我们的视觉转换器（称为CiT）优于ImageNet上相同架构的所有以前的视觉转换器（ViT）。此外，我们的小尺寸模型 CiT-SAK 在 ImageNet 上进一步达到了82.7%的Top-1代码可在https://github.com/OliverRensu/co-建议.1. 介绍卷积神经网络（CNN）虽然使计算机视觉领域发生了革命性的变化，但也存在一定的局限性。最近的研究兴趣已经引起了兴趣，* 通讯作者：何胜峰（ hesfe@scut.edu.cn ），赵航（hangzhao@mail.tsinghua.edu.cn）.ImageNet上的Top-1准确度82807674724 6 8 20 22 24 26型号尺寸（M）图1.与DeiT比较在这里，CiT-SA和CiT-SAK表示具有令牌归纳偏差对齐的模型，不具有或具有蒸馏。我们的交叉归纳偏差蒸馏（CiT）优于DeiT，其中只提供轻量级教师。结合令牌电感偏置对齐，我们的方法的性能可以进一步提高。用新的基于自注意力的架构取代卷积层例如，ViT [6]是一个没有卷积层的纯Transformer。然而，变压器的电感偏置比CNN少（例如，平移等方差和局部性），因此当给定的训练数据量不足时会受到影响[6]。在这种情况下，DeiT[30]应用知识蒸馏技术[7，16]来帮助培训视觉转换器。当CNN老师足够强大时，具有这种蒸馏的变压器[30]（即，DeiT）可以在ImageNet上实现与SOTA CNN一样的竞争结果。但DeiT也有其局限性：1）训练后的Transformer受教师CNN的归纳偏差影响过大，反映了教师CNN的分类误差; 2）DeiT要求教师CNN非常大（例如，RegNetY-16 GF），这令人不安地带来了沉重的计算开销（例如，在相同的训练协议下，在ImageNet上训练RegNetY-16 GF所需的训练时间是DeiT-S的四倍）; 3）类戴特DeiT与KDCiT（我们CiT-SCiT-SAKCiT-SADeiT-S-KDDeiT-SCiT-TiDeiT-Ti-KD脱钛前1位准确度（%）16774输出分布面包机通过进一步向令牌中引入感应偏置来进行对准。在我们的实验中，我们证明了通过我们的归纳偏差对齐将归纳偏差引入学生模型确实带来了ImageNet的改进。然而，我们也发现，与直接引入相同的归纳相比卷积Involut ion Transformer w/o KDTransformer w/KD输出分布豹子捷豹捷豹豹子捷豹豹子豹子捷豹老虎盎司猎豹猎豹卷积卷积Transformer w/o KDTransformer w/KD输出分布拖车驾驶室警车van驾驶室拖车警车驾驶室警车警察van无轨电车拖车卷积卷积Transformer w/o KDTransformer w/KD图2.由CNN、INN、未蒸馏的变压器以及从CNN和INN两者蒸馏的Transformer预测的类概率。CNN和INN得出一致（第一行）或互补（第二行和第三行）的结论来纠正Transformer令牌和Distillation令牌具有不同的目标，但共享相同的随机初始化协议。在本文中，我们认为，一个沉重的和高度准确的教师不一定是有效的教学“好”的相反，所涉及的归纳偏见起着主导作用。我们的关键观察是，具有不同归纳偏差的模型倾向于关注不同的模式，尽管它们是在相同的数据集上训练的（见图2）。即，与幼稚的教师组装相比，不同归纳偏见的教师会内在地对所见数据进行互补假设，并从不同的视角关注它们提供了更精确、更互补和更全面的数据描述，这进一步提高了学生在蒸馏过程中的表现。相比之下，具有相似归纳偏见但表现不同的教师（例如，ResNet-18和ResNet-50）在数据描述方面几乎没有差异，并且从它们中提取的学生的性能增益有限。为了比较直接将归纳偏差引入模型和知识蒸馏的影响，我们提出了一种标记对齐技术。具体来说，DeiT中使用了两个令牌，分别从CNN老师和黄金标签学习。然而，这两个令牌共享相同的为了使标记语的表征力接近其对应的教师，使标记语能够真正地向其对应的教师移动，我们提出了标记语的归纳偏向通过我们将教师偏差模型归纳成与教师偏差模型对齐，知识升华有助于学生表现得更接近教师。Therefore, we find that although knowledge distillationcannot “transfer” inductive bias to the student, it helps thestudent to “inherit” more characteristics of the teacher.由于卷积（空间不可知和通道特定）和对合（空间特定和通道不可知）的互补归纳偏差，我们的方法只需要两个超级轻量级教师（CNN和INN）。在提炼阶段，教师的知识相互补充，显著提高了学生Transformer的准确性。我们对这份文件的主要观察如下：• 我们观察到，教师模型的内在归纳偏差比其准确性更重要• 具有不同归纳偏差的CNN和INN倾向于学习互补模式，而视觉Transformer（一种具有较少归纳偏差的更通用架构）可以从两者中继承知识。• 当多个教师具有不同的归纳偏差时，具有较少归纳偏差的学生模型更适合学习各种知识。• 与在Transformer中引入感性偏差相比，知识升华使学生的表现更接近于各种感性偏差的教师。• 我们的交叉感应偏置视觉转换器（CiT）性能优于所有以前的相同架构的视觉转换器，并且只需要超轻量型教师，DeiT-Ti和DeiT-S中的教师参数分别为20%和50%2. 相关作品CNN。卷积算子是在大约三十年前在[19]中首次提出的。它的复兴出现在过去的十年中，当深度CNN（例如， AlexNet [18] ， VGGNet [26] ， ResNet [11] ，EfficientNet [27]）在各种任务中取得了惊人的突破。CNN的卓越性能源于固有特性（也称为归纳偏差）的卷积运算符，如平移等方差[6]和空间不可知[20]。另一方面，它的局部性也使得CNN很难将空间上遥远的概念联系起来，除非我们故意增加内核大小和/或模型深度。面包机面包机透镜卷笔刀帽铅笔帽磨刀器真空铅笔磨刀器头盔面包机头盔透镜16775×变压器 . Transformer 首先在自然语言处理中流行[32]，最近引起了计算机视觉界的关注。[6]中提出的ViT将16个图像块馈送到标准变压器中，实现了与JFT-300 M上的SOTA CNN相当的结果[6]。然而，它的优越性是以极长的训练时间和大量的标记数据为代价的。最重要的是，当提供的数据量不足此外，DETR和VT分别在[1]和[35]中提出DETR [1]在对象检测任务中利用二分匹配损失和基于变换的编码器-解码器结构，而VT [35]将图像表示为语义令牌并在图像分类和语义分割中利用变换器。或者从理论的角度来看，在[3]中已经证明，transformer中使用的自注意机制至少与卷积层一样具有表达力。客栈对合算子是最近在[20，33]中提出的。简而言之，卷积算子是空间不可知的和通道特定的，而对合核在通道之间共享换句话说，与卷积相比，对合获得了精确相反的固有特性。因此，它具有在图像中关联远程空间关系的能力。在[20]中描述了与CNN和变压器相比，他们基于对合的RedNet知识蒸馏。知识蒸馏（KD）首先在[16]中被制定为模型压缩的策略，其中轻量级学生从高能力教师中训练出来[31，36]。具体来说，[16]中的作者通过最小化学生和教师概率预测的KL分歧来实现这一目标。之后，KD在各种任务中发挥作用，如特权学习[21，31]，跨模态学习[17，36]，对抗性学习[15]学习[24]，对比学习[28]和增量学习[23]。与我们的工作相关，[30]中的作者提出通过基于令牌的KD策略来训练变压器。通过从大规模和强大的CNN老师中提取，得到的DeiT [30]可以在ImageNet上表现得与CNN一样好，而之前的ViT [6]则不能。我们的方法优于DeiT提取两个弱教师少得多的参数，更差的准确性，但不同的归纳偏见。3. 该方法3.1. 交叉归纳偏见教师DeiT [30]，其中教师模型是基于单卷积的架构，受到知识的限制表1.卷积和对合模型“A”、“R”、“C”在ImageNet和Out-of-Distribution数据集上的性能“mCE”表示平均校正误差，为了方便起见，我们不使用AlexNet对其进行归一化。模型ImageNet（%）A（%）↑R（%）↑C（mCE）↓卷积ResNet-1868.742.6031.9065.58ResNet-3472.623.4535.1760.26ResNet-5075.572.6035.6159.15ResNet-10177.006.0338.7754.33ResNet-15277.967.7340.7253.18对合红网-2675.195.4933.3361.09红网-3876.886.8834.8058.15红网-5077.727.6435.7256.03红网-10178.359.0336.3054.78红网-15278.549.2436.8453.58的老师。超越教师绩效的一个流行想法是将具有不同初始化的多个教师集合在一起[16]。然而，具有相同结构的教师具有相同的归纳偏见，因此提供了相似的数据视角。当教师具有不同的归纳偏差时，输出分布可能会有明显的变化，因为不同的归纳偏差本质上使模型偏向于不同的模式。如果我们使用top-1精度来评估，则输出分布上的这种变化可能不明显。为了更好地理解，这里我们介绍了分布外数据集[12-14]，这些数据集是通过在ImageNet上应用不同的扰动生成的，例如：自然对抗示例（ImageNet-A）、语义转移（ImageNet-R）、常见图像损坏（ImageNet-C）。如表1所示，当卷积模型（ResNet）和对合模型（Red-Net）在ImageNet上具有类似的精度时，如ResNet-50和RedNet-26或ResNet-101和RedNet-38，但它们的性能在分布外数据集上有所不同这意味着，如果我们把CNN和INN作为教师，CNN教师在ImagNet-R/C上的表现会更好，但在ImagNet-A上的表现会比INN教师差。这一现象也说明卷积模型和对合模型可能关注不同的模式，并将不同的知识驱动到学生模型。换句话说，交叉归纳偏差教师提供的知识可以更精确、更全面地描述数据在我们后面的实验中，我们表明我们的学生将继承教师在分布外数据集上的趋势：我们将类toekn、Conv token和Inv token分别匹配到黄金标签、 RegNet （ CNN 教师）和 RedNet（INN教师）。我们观察到Conv令牌和Inv令牌将分别在分布外的数据集上执行类似于CNN教师和INN教师的操作。1677612∞≤≤人类卷积对合ℒ��公司简介��公司简介��Transformer随机初始化图像块类令牌Conv代币投资代币图3.我们的CiT的示意图。给定一个图像作为输入，人类，卷积模型和对合模型将提供三个相似（但略有不同）的分布来描述图像类。我们的CiT模型继承了ViT的架构，但有两个额外的令牌（即，Conv token和Inv token）分别从卷积和对合老师那里学习。3.2. 令牌感应偏置对齐以前的作品[6，30]使用随机初始化的令牌来学习标签，并从CNN教师中提取。然而，在这方面，两个Kullback-Leibler发散损失（LKL）和一个交叉熵损失（LCE）的关系L=λ0LCE（σ（zsclass），y）随机初始化的令牌具有有限的能力来学习具有非常特定的归纳偏差的卷积老师。01- 02zsconv），σ（τ1zt1）]τ1（一）为了解决这个问题，我们提出了令牌感应偏置对齐-，使令牌明确拥有不同的归纳偏见，使它们能够朝着相应的方向移动。02-02 - 02刘晓波（zsinv），σ（τ2zt2）]，τ2教师具体来说，我们有三种教师：人类（即，黄金标签），卷积老师和对合老师。因此，我们有三个token：Class token，Conv token和Inv token。对于Classtoken，我们简单地应用截断高斯初始化[30]，这使得该token没有归纳偏差。为了将相应的归纳偏差引入剩余的两个令牌中，我们将令牌生成和补丁嵌入相结合。以前的方法简单地将图像分割为不重叠的补丁，并使用线性投影将这些补丁映射到令牌。我们引入卷积干[9，10]和对合干来代替线性投影。然后Conv令牌和Inv令牌分别是卷积和对合词干输出的平均池化输出3.3. 交叉感应偏压蒸馏我们的CiT示意图如图3所示。我们的学习目标表示为加权求和-其中0< τ1，τ2<是超参数控制Softmax函数σ的温度[16]。zsclass、zsconv、zsinv是Classtoken、Conv token和Inv token的输出。zt1和zt2分别表示CNN教师和INN教师的对数这里0λ0、λ1、λ21是平衡三个损失项的重要性4. 实验结果在第4.1节中，我们描述了我们的实现细节，然后在第4.2节中将我们的CiT与ImageNet-1 k上的各种变换器，卷积和基于对合的神经网络进行比较[5]。在本节的其余部分中，将在ImageNet-100上进行实验[34]。我们在第4.3.1节中分析了教师绩效和归纳偏差对学生绩效的影响。然后，我们在 4.3.1 节中解释选择Transformer作为学生而不是CNN和INN的优势。为了证明我们的联合建议策略的效率，我们比较了预测精度16777−- -表2.DeiT [30]和CiT中使用的教师模型的比较DeiT使用更大和更强大的卷积老师，而CiT使用弱和小的对合和卷积老师。模型Param前1名（%）戴特RegNetY-16GF（Conv）84M82.9CiT-TiRegNetY-600M（Conv）6M74.0RedNet-26（Inv）9M76.0CiT-SRegNetY-4GF（Conv）21M79.9RedNet-101（Inv）26M79.0在第4.3.3节中，通过我们的交叉归纳偏差蒸馏和朴素多教师蒸馏训练的模型。最后，我们研究了归纳偏差对齐对ImageNet和Out-of-Distribution数据集的影响，有或没有蒸馏。4.1. 实现细节出于比较的目的，在DeiT [30]之后，我们实现了模型的两个变体：（i）CiT-Ti有两个隐藏层，分别为192和12（每个层有三个关注头），（ii）CiT-S有两个隐藏层，分别为384和12（每个层有六个关注头）。(ii)CiT-SAK与CiT-S相同，除了令牌感应偏置对齐。我们使用 DeiT [30] 中描述的 Auto-Augment 、 Rand-Augment、mixup）。我们的transformers的权重是通过从截断正态分布中采样来随机初始化的。我们使用AdamW [22]作为优化器，学习率等于0.001，权重衰减等于 0.05 。对于蒸馏中的超参数，我们设置λ0=λ1=λ2=1和τ1=τ2=1。在推理过程中，我们检索存储在类标记中的值作为最终输出。4.2. 不同体系结构在本节中，我们比较了ImageNet-1 k上各种基于卷积、对合和transformer的模型的准确性[5]。教师模型在表2中，我们比较了DeiT [30]和我们的CiT中使用的教师模型与DeiT不同，DeiT使用具有84 M参数和82.9%的top-1准确度的强大卷积老师RegNetY-16GF [25]，我们选择具有与学生Transformer相似模型大小的卷积老师和对合老师我们强调，在我们的CiT中使用的教师模型的总体参数仍然比DeiT中的少得多，并且这样的小教师显著加快了整个训练过程。结果我们在表3中报告了几个模型的推理速度，前1精度。与CNN相比，当模型大小很小时（比如大约600万个参数），表3. ImageNet-1 k上不同网络之间的比较[5]。在批量为64的单个RTX 3090上测量吞吐量。CiT-SAK是一种具有令牌对齐和知识提取的模型参数设置Top-1(M)（图像/秒）（%）ResNet-50 [11]25.61349.476.2ResNet-101 [11]44.5799.477.4CNN[25]第二十五话6.11200.575.5[25]第二十五话20.6350.579.4[25]第二十五话39.2220.579.9[20]第二十六话9.21820.973.6Inn[20]第二十话15.51066.878.4[20]第二十话25.6657.479.1[20]第二十话34.0459.379.3ViT-B /16 [6]86166.8877.9VIT-L /16 [6]30754.476.5DeiT-Ti [30]5.03082.972.2译Deit-S [30]221562.079.8DeiT-Ti-KD [30]6.03060.874.5DeiT-S-KD [30]221546.181.2CiT-Ti（我们的）6.03053.075.3CiT-S（我们的）221564.182.0CiT-SAK（我们的）261414.182.7并没有显示出更好的表现。例如，RegNet-600 MF的性能最好，top-1精度等于76。0%，而DeiT-Ti、DeiT-Ti-KD和我们的CiT-Ti分别实现了72.2%（4.1%）、74.5%（1.8%）和75.3%（1.0%）的前1准确度。也就是说，我们的CiT缩小了CNN和变压器在这种情况下的准确性之间当模型大小增加时，我们的CiT的准确性比其他模型增长得更快，我们的CiT-S在2000万个参数时优于所有其他模型。我们的CiT-S的性能比RegNet-4GF提高2.6%，比 RedNet-101提高2.9%。与最近基于变压器的模型ViT[6]（即，与表3中的ViT-L /1和ViT-B /16相比，我们的CiT-S需要少约4倍或15倍的模型参数，同时实现了约4.1%或5.5%的更准确的预测。此外，我们的CiT-S也超过了最新的作品DeiT-KD，尽管DeiT-KD有一个更强大的老师。此外，我们的CiT实现了与DeiT-KD相似的推理速度，甚至略好：CiT-Ti和CiT-S比类似尺寸的相应DeiT-KD提高0.4%和0.8%。总之，额外的卷积和对合令牌几乎在不增加计算成本的情况下提高了studentTransformer的性能4.3. 交叉感应偏压蒸馏在本节中，我们保留与DeiT相同的Transformer，并在ImageNet-100上执行所有实验。学生老师16778ResNet （ CNN ） asTeacherRegNet（ CNN ） asTeacherRedNet （INN ）asTeacher50年代150年代纪元100150年代第50第100纪元100150年代88 8987 88表4.不同学生的表现来自于对合和卷积教师。当提供基于对合和基于卷积的教师时，Transformer-Ti变为CiT-Ti。8685848368707274767880828486教师准确率（%）（一）8786858481828384858687888990教师准确率（%）（b）第（1）款图4.在ImageNet-100上从不同教师中提取的Transformer-Ti的预测准确性（a）以ResNet-18、RegNetY-600 M和RedNet-26为教师，在不同的培训时期，教师的绩效差距（b）横向观察显示，即使教师的准确性提高，学生然而，纵向观点表明，具有相同准确性但属于不同类型的教师CNN或INN）可以产生不同精度的学生。4.3.1教师的表现和归纳偏见。本节深入探讨了教师的表现和归纳偏见的影响时，提炼为了说明这一点，我们进行了一个实验，当学生从不同类型的教师中提取时，学生我们考虑三种类型的教师：基于卷积的ResNet和RegNet，以及基于卷积的RedNet。我们选择CiT-Ti作为学生。在蒸馏期间，提供CNN老师或INN老师（但不是两者），因此在该实验中，CiT-Ti中的三个令牌中的一个将被丢弃从现在开始，这种退化的CiT-Ti将被称为Transformer-Ti。结果报告于图4中。如图4所示，如果教师模型共享类似的架构（即，在（a）和（b）中水平观察），即使教师表现提高，学生模型也保持类似的表现。例如，在图4（a）中，增加训练时期导致教师模型的性能改进。额外训练100个epoch可以帮助RegNet-200 M教师提高9%，但学生Transformer的性能几乎没有变化。类似的观察可以推广到ResNet-18和RedNet-26教师。在图4（b）中，虽然从RegNet-200 M到RegNet-600 M，性能增加了6.5%这一观察结果意味着教师模型的准确性并不是决定学生在这种情况下表现的也就是说，我们正在接近饱和：当教师模型的精度足够大时，教师精度的提高不会导致学生模型的提高。混合器-钛Mixer-Ti混合器-TiCC80.581.680.9C混合器-钛C82.3变压器-钛Transformer-TiCC81.886.585.0CTransformer-Ti(Ours)C88.0或者，图4的垂直视图意味着我们可以求助于不同类型的老师例如，当一个教师有类似的表现，但属于不同的类型（如。，ResNet-18和RedNet-26，图4（a）中训练了150个epoch，ResNet-50和RedNet-50在图4（b）中），经过提炼的学生可以拥有相对不同的表现。我们的假设是，不同类型的教师有不同的归纳偏见。即使在相同的数据集上训练，它们也往往会收获不同的知识。在提炼过程中，一些知识可能更容易被学生模型理解和继承，而另一些知识则不然。此外，就学生的表现而言，教师模型的固有知识似乎比其准确性更重要。4.3.2学生表现和归纳偏差。在向学生提取交叉归纳知识时，学生需要有很少的归纳偏见，以避免过度倾向于某个老师。此外，学生模型需要有足够的能力和模型能力，以向其教师学习。基于这两个考虑，我们选择ResNet-10，Transformer-Ti和Mixer-Ti [29]作为测试目的的学生，ResNet-18 ，RedNet-26作为教师。ResNet-10比Transformer-Ti具有更强的归纳偏差，这种归纳偏差与ResNet-18相似，并与RedNet-26相冲突。结果报告于表4。我们的实验结果表明，从两个教师中提取的ResNet-10与从单个基于卷积的ResNet-18中提取的性能相似。相比之下，Transformer-Ti可以从两个老师那里学习，并且比从一个老师那里学习获得更高的性能（88%）。我们认为内在原因是，ResNet（CNN）饰演TeacherRegNet（CNN）asTeacher RedNet（INN）ResNet-34ResNet-18ResNet-50RegNetY-200MRegNetY-400MRegNetY-600M红网-38红网-26红网-50学生老师Top-1学生准确率（%）学生准确率（%）ResNet-18RegNet-26（%）ResNet-10ResNet-10ResNet-10CC81.583.082.6CResNet-10C83.416779表5.输出KL发散。较小的值表示较大的相似性。学生ResNet-18红网-26前1名（%）ResNet-100.2610.27483.4混合器-钛0.3580.31382.3CiT-Ti转换令牌0.2550.29087.1CiT-Ti投资代币0.2540.15487.7Transformer具有很少的感应偏差，注意力层不仅可以执行卷积[4]，而且与对合[20]有密切的关系。这就引出了一个自然的问题：一个MLP拥有最少的归纳偏见，选择它作为学生怎么样？为此，我们将最近的Mixer模型[29]，一种纯多层感知器（MLP）结构纳入比较。为了比较的公平性，本文中使用的Mixer-Ti有12层，隐藏维数为192。如表4所示，这表明在没有任何蒸馏的情况下，混合器-Ti和变压器-Ti具有相似的性能。然而，在从教师那里提取知识之后，Transformer-Ti比Mixer获得了更多的改进这证明了选择Transformer作为学生的有效性。如果我们计算学生和教师输出之间的KL分歧，那么Mixer-Ti通过蒸馏获得的收益不如Trans- former多的原因如表5所示，Mixer-Ti中的KL发散度的所有值都比其他值大得多。这意味着当Mixer-Ti的模型大小被限制为与其对应的Transformer相同时，Mixer-Ti不具有向老师学习的能力。相反，与其他学生相比，CiT-Ti更像教师。毫不奇怪，卷积令牌和对合令牌分别更倾向于卷积和对合老师，因为我们在公式（1）中的损失函数提倡它们模仿相应的老师。4.3.3幼稚的多元和交叉归纳偏见教师。在本节中，我们通过将交叉归纳偏差蒸馏与朴素多教师蒸馏进行比较来验证其有效性我们有三位老师：（i）ResNet-18和ResNet-50都是基于卷积的模型。它们具有相似的电感偏置，但由于模型大小不同而具有不同的性能。RedNet-26是一个基于对合的模型，但与ResNet-50的性能相似。结果示于表6中。当Transformer-Ti从单个教师中提取时，无论教师类型如何，其性能增益都是显着的具体来说，在从基于卷积的 ResNet-18 中提取后， Transformer-Ti 可以在ImageNet-100上实现约86.5%的top- 1准确度，而在从表6.各种模型在ImageNet-100上的性能。复选标记C表示指定类型的教师。CC表示具有不同初始化的两个架构相同的教师。学生老师Top-1ResNet-18ResNet-50红网-26（%）ResNet-1885.1ResNet-5089.0红网-2689.2变压器-钛81.8变压器-钛Transformer-TiTransformer-TiTransformer-TiCCCCCCC86.586.685.087.287.0变压器-钛（我们的）CC88.0基于对合的RedNet-26，其性能增益相对适中：达到85.0%的top-1准确率。当一个老师被进一步允许在蒸馏，有趣的现象发生。如果两个教师都是基于卷积的（也就是说，教师组合[8]），进一步的绩效改善有限（例如从86.5%到87.0%或87.2%）。相比之下，如果我们选择额外的老师作为基于对合的RedNet-26，Transformer-Ti的性能上升到88.0%。这证明提供两种不同类型的教师是4.3.4多个蒸馏令牌的有效性在传统的知识蒸馏[16]中，一个输出令牌用于同时拟合真实标签和教师然而，这两个目标有时是相互冲突的[2]。如等式（1）所示，我们使用不同的标记来捕获不同教师提供的不同知识。具体而言，类、卷积和对合令牌分别从真实标签、卷积教师和对合教师学习。为了评估三个令牌的有效性，我们将学习到的Transformer的准确性与仅通过一个或两个令牌训练的准确性进行比较。结果报告于表7中。当标记的数量为1时，从两个具有不同归纳偏差的教师中提取可以带来相当大的改进，而仅从一个教师中提取几乎没有积极的结果。对于相同的教师，仅仅通过从一个令牌增加到三个，我们的方法实现了4.5%的准确率提高。4.4. 令牌感应偏置对齐的消融在本节中，我们将在 ImageNet-1 k 和 Out-of-Distribution数据集上评估我们的令牌归纳偏差感应偏置注入。我们的目标是调整感性偏见16780表7.各种模型在ImageNet-100上的性能。复选标记C表示指定类型的教师。表9.Transformer在分布外数据集上具有和不具有知识验证和感应偏差对齐的性能模型ImageNet↑ A↑ R↑ C↓表8.ImageNet-1 k上的感应偏置注入性能复选标记C表示注入到Transformer中的一种电感偏置。卷积对合Transformer-SC79.8Transformer-SC81.581.4Transformer-S（我们的）CC81.8教师和相应的token之间的对比，我们发现单纯的注入归纳偏差也会带来显著的改善。如表8所示，如果我们注入对合或卷积，性能将分别提高1.7%和1.6%。当我们同时注入两种电感偏置时，我们很高兴地发现它们是兼容和互补的，可以进一步提高性能。分发外数据集上的令牌。归纳偏差是模型中预先设定的一组假设，在不修改模型的情况下，很难通过知识蒸馏来判断然而，与简单地向模型中注入一些归纳偏差相比，我们提取的学生中的根据表1的结果，当模型在ImageNet上具有相似的性能时，与对合相比，卷积在ImageNet-R和C上的性能更好，但在ImageNet-A上的性能更差如表9所示，当我们简单地将归纳偏差注入到令牌中时，这些令牌固有教师的归纳偏差，但不同的令牌共享相同的学习目标（Random w/o KD和Alignw/o KD），这种修改确实带来了一些差异，但过于有限。当情境进入知识蒸馏（Random w/o KD和Randomw/KD）时，学生模型中没有注入归纳偏差，但由于知识的不同，学生模型的表现与教师非常相似，而不是简单地注入归纳偏差。具体来说，卷积老师在ImageNet-R上的表现优于对合老师和C，但在ImageNet-A上更糟。在我们的研究中的令牌固有的特性和Conv令牌上ImageNet-R和C比Inv令牌的性能更好，但在ImageNet-A差。最后，当知识提取和标记归纳偏差对齐结合在一起时（随机w/o KD和对齐w/ KD），我们的学生最好地继承了教师的特征5. 结论本文从具有不同归纳偏差的教师网络中提取出一种交叉归纳偏差变换器（CiT）与从卷积教师中提取数据相比，交叉归纳偏差教师提供了不同的数据视角，避免了学生对单个教师的过度偏见。在我们的实验中，我们发现，教师的归纳偏见比教师的表现在知识蒸馏中起着更关键的作用。此外，我们深入研究了学生模型的归纳偏差，并在模仿教师和Transformer的能力，显示了它在这两个方面的优越性相比，混合器和ResNet。最后，我们评估了标记对齐的有效性，并证明了蒸馏帮助学生表现得更接近教师，蒸馏帮助学生表现最好的标记对齐。局限性。我们需要独立训练我们的两个轻量级老师，尽管总的训练时间仍然比DeiT中的重型老师少得多。从理论上讲，我们的方法是兼容更多的交叉归纳偏见教师。我们将在未来的工作中探索更多合适的教师，而不是CNN和谢谢。本课题得到了国家自然科学基金（ No.61972162） ; 广东省国际科技合作项目（ No.2021A0505030009 ） ; 广东省自然科学基金（编号2021A1515012625）;广州市基础与应用研究项目（第三期） 202102021074 ） ; 和 CCF- 腾讯开放研究基金（RAGR 20210114）。学生老师Top-1模型令牌ResNet-18红网-26（%）模型归纳偏置前1名（%）随机Conv代币79.8018.3642.3541.36不含KD投资代币79.8018.3542.3541.35随机Conv代币81.4316.1845.0839.58w/KD投资代币81.8918.8044.4340.95变压器-钛Transformer-Ti111CC81.881.980.7C变压器-钛1C83.5对齐Conv代币81.7224.8941.8838.54不含KD投资代币81.7424.8841.7638.56变压器-钛（我们的）3CC88.0对齐Conv代币82.1123.5847.4138.11w/KD投资代币82.5125.1546.8138.0416781引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV，第213-229页，2020中。3[2] 张贤卓和巴拉斯·哈里哈兰论知识升华的功效。在ICCV，第4794-4802页，2019年。7[3] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意力和卷积层之间的关系。arXiv预印本arXiv：1911.03584，2019。3[4] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意力和卷积层之间的关系。在ICLR，2020年。7[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞ImageNet：一个大规模的分层图像数据库。CVPR，2009。四、五[6] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。一、二、三、四、五[7] TommasoFurlanello 、 ZacharyLipton 、 MichaelTschannen、Laurent Itti和Anima Anandkumar。重生的神经网络在ICML中，第1607-1616页。PMLR，2018。1[8] TommasoFurlanello 、 ZacharyLipton 、 MichaelTschannen、Laurent Itti和Anima Anandkumar。重生的神经网络在ICML中，第1607-1616页。PMLR，2018。7[9] 本·格雷厄姆、阿拉丁·埃尔-努比、雨果·图夫龙、皮埃尔·斯托克、阿曼德·朱林、埃尔韦·伊·古和马蒂亚斯·杜兹。Levit：一个穿着convnet衣服的视觉Transformer，用于更快的推理。arXiv预印本arXiv：2104.01136，2021。4[10] Jianyuan Guo，Kai Han，Han Wu，Chang Xu，YehuiTang，Chunjing Xu，and

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

交叉感应偏置蒸馏的作用简介

用于医学图像分割的非配对交叉模态导出蒸馏（CMEDL）_Unpaired cross-modality educed disti

成员隐私的知识交叉蒸馏_Knowledge Cross-Distillation for Membership Privacy

知识蒸馏一点蒸馏、多点蒸馏

3000字描述模型压缩知识蒸馏中的离线蒸馏、在线蒸馏和自蒸馏

在减压蒸馏过程中如果出现蒸馏速度过慢或无法蒸馏，应该怎么办

yolov8如何进行蒸馏

如何理解知识蒸馏中的蒸馏

知识蒸馏重点改进方向

知识蒸馏与信息蒸馏有什么区别

5. 知识蒸馏分类知识蒸馏是对模型的能力进行迁移，根据迁移的方法不同可以简单分为基于目标蒸馏（也称为Soft-target蒸馏或Logits方法蒸馏）和基于特征蒸馏的算法两个大的方向。

模型蒸馏和知识蒸馏一样吗

只是蒸馏中文教程有哪些

知识蒸馏课程设计说明书

yolov8+自蒸馏

yoloV5知识蒸馏

cwd知识蒸馏温度设置

开源的知识蒸馏代码库

yolov5 知识蒸馏

适合与知识蒸馏结合的模块

中间特征图的知识蒸馏

最新资源