学生定制知识蒸馏：弥合学生与教师之间的鸿沟

18 浏览量更新于2023-10-13 收藏 991KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5057学生定制知识蒸馏：弥合学生与教师之间的鸿沟Yi Wang MideaGroupwangyi55@midea.com摘要知识蒸馏（KD）将暗知识从笨重的网络（教师）转移到轻量级的（学生）网络，并期望学生在没有教师知识的情况下实现比训练更有希望的性能。然而，一个反直觉的论点是，由于能力不匹配，更好的教师并不能培养出更好的学生。为此，我们提出了一种新的自适应知识蒸馏方法，以补充传统的方法。该方法从梯度相似性的角度考察了教师和学生之间的能力不匹配，称为学生定制知识蒸馏（SCKD）。我们制定的知识，边缘蒸馏作为一个多任务的学习问题，使教师转移知识的学生，只有当学生可以受益于学习这些知识。我们vali-日期我们的方法在多个数据集上与各种教师-学生配置的图像分类，对象检测和语义分割。1. 介绍深度神经网络已经在各种应用中取得了最先进的结果，例如计算机视觉[20]，语音识别[1]和自然语言处理[6，30]。虽然已经确定引入更多的计算成本通常会提高模型的性能，但是大模型在计算上太昂贵而不能部署在仅有限的计算资源可用的设备（诸如移动设备和嵌入式设备）上。已经出现了模型压缩技术来解决这些问题，并且知识蒸馏[12]已被证明是在这些技术中获得小模型而没有显著性能损失的有前途的方法。它的工作原理是鼓励一个轻量级的学生模型模仿一个累赘的教师模型学习的行为。为了知识升华的成功，一些重新-图1：最佳彩色视图。上图：梯度空间中不同迭代下知识蒸馏和学生损失的梯度相似性。中：先前的方法。两个网络之间的知识蒸馏过程在不同的迭代中是平稳的。底部：我们的方法自动决定打开或关闭知识蒸馏损失基于其对应的相对梯度方向学生损失。研究者关注的焦点是师生关系。这些作品挑战了一个共同的直觉，即更好的教师会产生更好的学生。Mirzadeh等人 [24]发现，学生从一个更大的老师那里提炼出来，一个有更多参数和更高准确性的老师5058会比那些从一个小老师。Choet. al. [2]也发现了同样的现象，当在ImageNet这样的大规模、具有挑战性的数据集上训练时，这种现象甚至更加严重。这两项研究都得出结论，学生和教师同时，其他工作也表明，相同的教师模型[9，36]甚至比学生模型表现更差的教师[34，25，35]可以用作教师模型来进行知识蒸馏，这引起了自蒸馏方法[ 5，38，39]。虽然TAKD [24]提出了使用教师助理，这是一个较小的教师，作为一个媒体，以顺利的知识转移过程之间的大教师和小学生。ESKD [2]提出了知识提炼过程中的提前停止策略然而，这些方法需要手动调谐。当学生模型发生变化时，这些方法需要仔细选择教师辅助模型或适当的提前停止标准，以平衡教师知识带来的积极和消极影响之间的权衡在本文中，我们从教师和学生之间的梯度相似性的角度来解决这个问题，在KD训练过程中。我们首先通过检查网络表示的相似性来分析能力不匹配在训练阶段不会连续发生。在此基础上，提出了一种基于目标学生模型的自适应知识提取方法，即学生定制知识提取（ StudentCustomizedKnowledgeDistilation ，SCKD）。因此，SCKD对不同的学生模型执行不同的知识蒸馏策略，并理想地分配最佳的知识转移过程。图1示出了SCKD和现有方法的比较。我们的框架对知识的数量、知识类型（即，单个教师、多个教师或自蒸馏），以及执行蒸馏的位置（即，在中间表示或输出空间上）。它可以插入到任何现有的知识传授框架，并提高学生的表现im-animation。此外，我们的方法适用于各种视觉任务，包括图像识别，对象检测和语义分割。我们的贡献总结如下：• 我们提出了一个自适应的知识蒸馏，命名为学生定制的知识蒸馏（SCKD）方法。SCKD可以基于目标学生模型自动调整KD过程，这是通过计算梯度相似度来实现的。教师流失与学生流失的均衡性• 与传统的知识提取方法相比，SCKD在各种视觉任务上表现出明显的优势，并通过插入现有的知识提取框架，显示出即时的性能改善2. 相关工作近年来引入了各种知识蒸馏方法[29，10]，包括转移输出概率分布（基于输出的知识）[12，33]，中间特征表示（基于特征的知识）[26]及其变体[32]。这些著作关注的是要提取什么知识。另一行研究集中在如何提取知识（即，自蒸馏）。Mobahi等人 [25]从理论上证明了在无限宽设置下，自蒸馏放大了正则化[15]。同时，Yuan等人 [34]实证表明，弱教师可以提高学生的成绩，其行为类似于标签平滑。Ji等人 [17]和Jang等人 [16]认为，中间特征提取的固定链接是次优的。他们提出了另一种方法，分别采用元学习和注意特征来寻找基于特征的知识蒸馏的最佳链接和特征匹配策略。一些工作研究了多教师KD方法的知识转移过程，例如多个异质教师[28]或同质教师[7，23]。与我们相关最多的著作是对师生关系的探讨。优秀的教师并不能造就优秀的学生是一个反直觉的论点，Cho等人 [2]和Mirzadeh等人 [24]首先观察到这一点，他们通过一系列实证分析假设并证明这是由于教师和学生之间的能力不匹配造成的。基于此假设，他们提供了解决此问题的解决方案：Cho等人[2]认为，知识蒸馏过程可以使用早期停止策略进行训练。Mirzadeh等人。 [24]提出了教师辅助知识蒸馏（TAKD），这是教师蒸馏学生的较小视野。这受到BAN [24]的启发，其中要求教师通过多代人逐步这些先前的工作揭示了教师-学生关系;然而，他们的解决方案需要手动调整教师助理模型或提前停止标准-当学生模型改变时，这些设置需要刷新。相反，我们的方法可以针对不同的学生模型自动调整训练策略5059H·LN得双曲余切值.）（1）LLLnLnLll=1l=1图2：最佳彩色视图SCKD概述在每次迭代中，蒸馏损失的连接，无论是特征蒸馏损失还是logits蒸馏损失，都类似地由梯度确定。3. 方法3.1. 预赛我们在这一小节中正式介绍符号和记号我们举例说明两种类型的知识蒸馏（KD）方法：输出知识KD和特征知识KD。给定教师模型T和学生模型S，我们将两个网络的输出定义为pT和pS。然后KD鼓励学生模型的输出通过最小化以下内容来模仿教师模型的输出两个学习特征的相似性。原则上，映射函数和距离度量可以是任意的。通常，在多个阶段中利用特征知识;例如，要提取的ResNet [11] 中可能有四个中间特征，而 MobileNet[13，27]中可能有五个中间特征。以前的研究[17，16]表明，不同阶段的知识的重要性不同。因此，我们将特征知识分解为更细粒度的阶段特征知识，其可以写为：目标：L LSTLfeat=D（rT（fT），rS（fS））（3）其中p是产出，（）是衡量师生产出分布差异的损失，常用的损失是Kullback-Leibler散度[12]。α〇是控制输出KD损失的超参数;为了符号一致性，我们添加子参数。这里的脚本表示这是知识蒸馏框架中的第0个超参数除了输出知识蒸馏之外，许多方法已经研究了在中间表示上蒸馏特征知识[26]。令f T和f S分别表示教师和学生模型的特征图。因此，特征知识提取的目标可以写为：Lfeat= D（F））②S （fS），r不（f不）=D（rS、F不其中，L是用于传递教师的知识的阶段的总数，rT和rT是阶段1处的映射函数，并且fT和fS分别是阶段1处的教师和学生模型的特征图。我们以单独的格式编写映射函数和特征映射，以强调这些映射函数的权重在大多数情况下并不共享。此外，通常具有需要提取的多个特征因此，我们将损失函数扩展到多特征知识优化目标：Lfeat=αnDn（FT，FS）（4）n=1其中F是特征知识，rT和rS是用于对齐两个模型的特征图的大小的映射函数，fT和fS是教师和学生的特征图，并且D（·）是测量相似性的距离度量其中，N是特征知识的总数，αη是控制第η个损失函数对梯度的贡献的超参数，并且Dn是用于第n个特征知识。Lout=α0 H（p5060NLL≤≤LnLn因此，整个知识蒸馏框架的最终优化目标可以写为如下：LKD=Lout+Lfeat+LS=α0H（pS，pT）+ΣαnDn（FT，FS）+H（pS，y）n=1（五）学生学生其中S是由地面真值标签y监督的学生损失。在本文的其余部分，我们认为S是学生注意，我们可以仅通过将相应的超参数设置为0来使最终对象包含输出知识或特征知识。3.2. 师生能力错位的再思考已有文献[2，24]认为，好的教师并不能造就好的学生，因为学生无法模仿教师，这是由于教师和学生之间的能力不匹配造成的。我们假设在KD训练阶段，容量不匹配间歇性地而不是连续地发生。换句话说，在某些迭代中，学生无法模仿老师学生学生学生学生由于能力差距。因此，它给学生带来中性甚至负面的影响。另一方面，学生确实在大部分时间里从知识的升华中受益。我们评估我们的假设CIFAR100。首先，我们开发了一个标准来衡量“能力不匹配”。在KD中，学生被鼓励模仿老师的行为。因此，一个完美的KD方法应该在教师和学生的相同输入下产生相同的表示。因此，神经网络表示的相似性我们使用中心核对齐（CKA）[18]，这是一种已被证明在测量神经网络相似性方面有效的技术。我们选择ResNet34作为我们的预训练教师模型，ResNet18作为学生模型。我们在第三阶段和第四阶段执行标准特征知识蒸馏[26]。第四阶段有三层，第三阶段有六层图3示出了教师和学生之间在第三阶段的六个层中的表征相似性。我们选择在八十年代比较十次不同迭代的网络表示对于CKA得分图，我们主要关注对角线上的得分，这表明网络中相同位置处卷积层的表示相似性我们观察到教师和学生之间的一些卷积层对的表示获得高CKA分数，其中CKA 50，而一些卷积层对获得非常低的CKA分数（CKA 30）。这表明容量失配1）在不同层之间不一致。在同一次迭代中，图 3 ： ResNet18 和 ResNet34 在 CIFAR100 上的 CKA 评分。第四阶段的CKA评分较高，但第三阶段的评分较低。2)每次训练迭代都不同。在一些迭代中，CKA分数很高，而在一些迭代中，CKA分数非常低。因此，我们得出结论，重要的是要控制KD过程中，通过确定哪些知识在什么阶段是学生可以受益于教师。3.3. 多任务学习中的知识提炼为了防止在学生的能力不匹配时将教师的知识提取受多任务学习（MTL）成功的启发，我们将知识蒸馏框架表述为一个MTL问题，每个任务对应于每个蒸馏损失。与传统的MTL目标不同，在传统的MTL目标中，模型被鼓励在所有类型的任务上尽最大努力，在我们的设置中，我们只需要因此，我们可以比较初级损失和其他蒸馏损失之间的梯度相似性，并在训练期间为学生暂停任何负迁移。具体地，等式5呈现了当老师老师老师老师老师老师5061∈--出来Nγ= 0∇−L壮举nn从教师到学生提取知识，其中优化目标在整个训练过程中不变相反，天真的方法，我们提出了基于梯度的自适应知识蒸馏的学生模型的基础上。SCKD不是在学生训练阶段固定KD，而是因此，我们的方法在KD期间控制知识蒸馏过程，使得防止由错配容量引起的任何负转移假设γm是打开或关闭目标KD损失的门，关于第m次迭代和γm0，1。在每一次迭代中，选择一个小批量来训练该模型然后，我们可以将SCKD损失公式化为：优化步骤否则，我们将包括类似于传统知识蒸馏方法的KD损失。进一步地，我们需要研究余弦相似度和容量失配之间是否存在正相关。为了验证我们的假设，我们对梯度余弦相似性和CKA得分进行Pearson相关性检验，以检查这两个因素之间是否存在统计学上显著的线性在第三阶段的第一层，我们收集教师和学生之间的CKA得分，并记录过去十个时期的梯度余弦相似度。我们的结果显示Pearson's R等于0.6，这表明CKA和梯度余弦之间的线性相关性同样具有统计学显著性。这为我们在训练阶段控制KD过程提供了一个很好的手段它也可以直观地解释。从启发式上讲，当一个特定的知识损失M mLSCKDm=γout Lout+γfeat Lfeat+ LS=γm α0H（pS，pT）+Σγm，n αnDn（FT，FS）n=1（六）教师在优化中使用，学生选择遵循该知识的方向，因为教师总是在目标数据集上进行预训练，因此在梯度空间中领先于学生。然而，方向教师+ H（pS，y）其中m表示当前训练迭代。在每一次迭代中，我们检查教师的某些知识（无论是基于阶段特征的知识还是基于输出的知识）是否向学生负转移如果检测到负迁移，我们在这一轮消除该知识;否则，我们包括该知识以有助于优化过程。的学生，尤其是当学生无法掌握教师的信息化知识。因此，我们可以从梯度相似性的角度来操纵KD过程。在算法1中示出了Pytorch风格的伪代码。算法1学生定制知识蒸馏的训练要求：定义教师模型T，学生模型S，列表KD损失[LKD]=[（γ0，Lkd），. . . ，（γ n，Lkd）]。SCKD的概述见图2。我们注意到我们的方法封装了早期停止[2]，这可以是初始化所有0nγ= 1，γ ∈（γ1，. . . ，γ n）。这是通过在初始阶段将所有KD门平凡地设置为1并且在预定义的停止点将所有KD门设置为0来实现的。3.4. 基于梯度相似度的自适应知识提取一般来说，可以利用可以反映KD训练过程中教师和学生之间的行为差异的任何算法来控制从教师到学生的知识转移。我们的方法受到[8]的启发，我们引入类似地使用梯度余弦来测量每个KD损失和学生主要损失之间的梯度方向。初始化T和预训练T的δ，预训练后固定δ初始化S的θ和所有蒸馏模块。对于t= 1，. . . ，T do获取当前小批量的数据x和目标y清除所有参数的渐变，optimizer.zero grad（）计算θLS。L总计=LS。对γi，Lkdi在[LKD]中计算θLkdi若cos（θLS，θLkdi）≥则我端endLtotal+=γiLkdi具体来说，我们计算学生的pri-监督，以及每一个知识的梯度计算梯度，更新权重，总.backward（）边缘蒸馏损失θLkdi，或者基于特征的kn或者 wl-端optimizer.step（）.边缘或基于输出的知识。 θ是权重通过某些损失函数的第通过计算cos（θS，θkdi）得到梯度余弦相似度。如果cos（）大于或等于某个阈值，则我们认为这种KD损失对student具有负传递，从而在当前情况下消除这种KD损失其中θLkdi是第i个KD损失的梯度。在我们所有的实验中，除非另有说明，否则我们通常设置= 0。当设置为0时，任何与student损失正交或偏离student损失的KD损失将从L5062模型方法前1位的访问率（%）模型方法前1位的访问率（%）NOKD69.56BLKD71.02ResNet18TAKD71.10ESKD71.21SCKD71.73NOKD70.3BLKD70.7ResNet18TAKD70.9ESKD70.7SCKD71.3NOKD72.79BLKD74.95ResNet50TAKD75.25ESKD75.09SCKD75.64NOKD70.9BLKD71.8MobileNetV2TAKD71.9ESKD72.0SCKD72.4表1：CIFAR100模型性能与各种知识蒸馏框架的比较，以缩小教师和学生之间的能力差距。优化当前小批量。4. 实验在本节中，我们在三个视觉任务上评估我们提出的方法：图像识别、目标检测和语义分割。4.1. 图像识别4.1.1基于输出的知识表2：ImageNet上模型性能的比较。代表知识蒸馏的提前停止。从表1中CIFAR100的结果，我们可以观察到我们的方法优于基线KD。此外，我们的方法始终取得优于TAKD和ESKD两种师生配置的性能。我们的方法似乎享受教师和学生之间的巨大能力差距。使用三种卷积神经网络进行图像分类实验，包括ResNet [11]，MobileNetV 2 [27]，ShuffleNetV 2 [22]在CI-FAR 100 [19]和ImageNet [4]上进行在CIFAR实验中，每个模型由SGD优化器训练300个epoch，批量大小为128。在ImageNet实验中，每个模型由SGD优化器训练90个epoch，批量大小为256。我们调查七- 在此基础上，本文提出了一种新的师生网络结构，包括相同的网络结构（ResNet 101-ResNet 18）和不同的网络结构（ ResNet 101-MobileNetV 2 ， ResNet 101-ShuffleNetV 2）。此外，对于同一师生对，我们还进行了不同学生能力（ResNet 101-ResNet 50，ResNet101-ResNet 18）的实验。根据Hinton等人 [12]，将所有实验的温度设定为1。对于本节中的所有实验，我们将超参数设置为0.9。由于我们的方法旨在解决教师和学生之间的能力差距，我们将我们的方法与1)NOKD ，表示没有知识蒸馏，从头开始训练。2)BLKD，表示基线知识蒸馏。它是用基于Hinton等人[12]的知识蒸馏方法进行天真训练的。3)TAKD [24]利用教师助理来缓解学生的学习曲线，并使学生获得比KD单纯培训更好的表现。4)ESKD [2]，我们进一步在大规模数据集ImageNet上进行实验。表2显示ImageNet上的实验结果与CIFAR 100上的一致，其中我们的方法在各种教师-学生配置上优于所有三种方法。此外，在相同的网络架构（ResNet 101-ResNet 18）上，我们的方法和基线之间的性能差距甚至更大，这表明我们提出的方法的鲁棒性。我们假设我们的性能增益来自于选择聪明地转移知识而不是在给定停止点的情况下粗暴地停止所有知识转移（例如，ESKD）。我们还认为构建一个较小的中间网络是一种妥协，它4.1.2基于特征的知识由于上述实验是在简单的知识蒸馏场景上进行的由于我们的方法不存在任何新的蒸馏损失，并且很容易插入任何现有的框架中，因此我们选择TOFD [37]作为我们的KD框架，并基于TOFD应用我们的方法。TOFD是一种面向任务的知识提取方法，它是一种最先进的知识分解方法，由三个知识提取模块组成NOKD69.4BLKD70.2ShuffleNetV2TAKD70.4ESKD70.5SCKD71.35063模型骨干方法FPS地图AP50AP75APSAPMAPL基线30.5734.655.037.119.336.945.9Faster RCNNResNet18FBODSCKD30.5730.5737.037.557.257.639.740.219.920.939.742.650.350.8基线23.3033.451.835.116.935.644.9RetinaNetResNet18FBODSCKD23.3023.3035.936.554.456.138.038.917.918.239.139.649.449.8表3：关于MS COCO对象检测的模型性能的比较。我们基于FBOD框架对两阶段检测器（Faster RCNN）和一阶段检测器（RetinaNet）进行了评估。模型基线KD FitNet DML SD TOFDSCKDResNet1877.0978.3478.5778.72 78.7282.9284.16SENet1877.2778.4378.8279.72 78.5884.4485.49ShuffleNetV272.3872.8674.3672.66 72.7276.6877.58表4：在具有不同知识蒸馏框架的CIFAR100上的模型性能的比较在一个实施例中，特征调整层包括信息损失和正交损失，正交损失被应用在特征调整大小层上以防止信息损失调整大小。TOFD包含了输出蒸馏损失和多特征蒸馏损失，在TOFD框架的基础上采用了SCKD。我们遵循TOFD中的实验设置进行公平比较，并在CIFAR100上使用多个学生网络架构（ResNet，SENet [14]和ShuffleNetV2）评估我们的方法。表4示出了在ImageNet上的TOFD的实验结果。我们观察到，我们的方法不断提高TOFD框架。例如，使用ResNet 18 ，我们将 TOFD 提高了 1.24% ，使用ShuffleNetV 2，我们将TOFD的性能提高了0.90%，使用SENet 18，改进是显著的。结果表明，SCKD优于所有最先进的KD方法，这表明我们提出的方法的优越性4.2. 目标检测我们以前的研究表明，SCKD工程的图像分类任务。我们进一步研究了SCKD对下游任务的有效性。我们在MS COCO对象检测上评估SCKD。我们基于基于特征的对象检测器（FBOD）进行实验[36]。FBOD是用于对象检测的最先进的知识蒸馏方法。它包括三种类型的教师特征知识模块：注意转移模块、注意屏蔽模块、非局部模块。我们遵循与FBOD [36]相同的实验设置，并基于FBOD的框架执行SCKD训练算法。在表3中，我们呈现了RetinaNet-ResNet 18和Faster RCNN-ResNet 18上的实验结果。正如我们所看到的，对于一级检测器和两级检测器，SCKD的性能优于FBOD，在更快的RCNN上具有超过0.5%的AP在RetinaNet上为0.6%AP。请注意，在FBOD的论文中，作者通过实验实证地支持了“更好的老师使更好的学生”的论点。然而，我们的方法仍然提高了性能超过FBOD，这表明所提出的基于梯度相似性的自适应知识蒸馏的有效性。4.3. 语义分割除了将SCKD应用于图像分类和对象检测之外，我们还对语义分割进行了实验，这是一项具有挑战性的密集预测视觉任务。我们的模型是基于IFVD [31]构建的，IFVD是一种用于语义分割的最先进的KD方法，由三个知识蒸馏损失组成。详细信息可以在原始文件中找到[31]。我们的实验是在CityScapes [3]上进行的，CityScapes是一个流行的语义分割基准。我们通过相同的解码器架构PSPNet对各种师生配置进行测试培训计划遵循IFVD的正式实施，并且我们不改变任何超参数以进行公平比较。表5总结了CityScapes上SCKD的性能。为了比较，我们报告了验证mIoU和测试mIoU。我们的方法在所有设置中比基线方法和IFVD具有更好的性能。这是预期的，因为任务比图像分类更具挑战性。我们还发现，SCKD表现更好的教师-学生，其中有一个大的模型容量差距，如ResNet 101-ResNet 18（0.5）。我们假设SCKD耗尽了IFVD框架5064†‡方法valmIoU（%）检测mIoU（%）参数（M）FLOPs（G）PSPNet-ResNet18 ‡（1.0个）57.5056.00SKD [21]IFVD [31]63.2066.6362.1065.7213.07125.8我们67.2566.30PSPNet-ResNet 18插件（0. 第五章）55.4054.10SKD [21]IFVD [31]61.6063.3560.5063.683.2731.53我们65.1064.92PSPNet-EfficientNetB058.3758.06SKD [21]IFVD [31]62.9064.7361.8062.524.197.97我们65.1763.08表5：Cityscapes上的性能。表示使用ImageNet进行了预训练。的表明列车是从零开始的 (0.5)表示半信道号的（1.0）与表示全信道号的（1.0）进行比较。DeepLabV 3-ResNet 18中的结果使用作者发布的官方代码重新实现。教师网络是PSPNet-ResNet 101，我们的方法是建立在IFVD。4.4. 消融研究和敏感性研究虽然我们已经看到SCKD在现有知识蒸馏框架上的性能增强，但需要进一步分析“更好的老师使学生更好”的论点我们训练一个普通的CNN，使用批量归一化，跳过连接和ReLU激活作为学生。它是由CIFAR10和CIFAR100上的4、6、8和10层大型教师进行如图4所示和所预期的，通过增加学生层数，学生性能增益最初增加，然后由于常规KD的容量失配而降低另一方面，学生成绩的提高与学生规模呈正相关。这表明我们的方法确实使大模型成为更好的教师。图4：最佳彩色视图。关于好老师造就好学生的消融研究。随着教师规模的增加（准确率相应增加），常规KD使学生最差，SCKD使学生更好。余弦相似度阈值的敏感性研究Ⅺ.的阈值1.2 1.1 1.0 0.9 0.8前一位的增长（%）75.2 75.1 75.4 75.0 74.9表6：在具有不同知识蒸馏框架的CIFAR100上的模型性能的比较。余弦相似度阈值确定何时消除当前迭代中的KD损失。直观地，具有逆梯度方向（当0>0时）或正交梯度方向（当0= 0时）的任何KD损失可以被认为是我们研究了这个超参数的敏感性研究。结果示于表6中。我们的结论是，我们的方法做敏感的超参数，如果它被设置为其他值。因此，我们可以启发式地将设置为零并实现令人满意的性能。请注意，最坏结果的准确性仍然可以与基线方法进行比较，如表1所示，我们认为这表明了实时控制知识蒸馏过程的必要性5. 结论在本文中，我们提出了一个自适应的知识提取方法，以弥合学生和教师之间的能力差距。我们从学生损失和蒸馏损失之间的梯度相似性的角度来研究容量不匹配。然后，我们制定知识蒸馏多任务学习问题。因此，我们的方法可以自动找到KD训练策略的基础上的目标学生模型。我们验证了我们的方法对三个视觉任务的有效性5065引用[1] Dzmitry Bahdanau，Jan Chorowski，Dmitriy Serdyuk，Phile-mon Brakel，and Yoshua Bengio.端到端基于注意力的大词汇量语音识别。在2016年IEEE声学、语音和信号处理国际会议，第4945-4949页。IEEE，2016.[2] 张贤卓和巴拉斯·哈里哈兰疗效知识的升华。在IEEE/CVF计算机视觉国际会议论文集，第4794- 4802页[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[5] 邓翔和张忠飞。回顾学习。 arXiv 预印本 arXiv ：2012.13098，2020。[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[7] Shangchen Du，Shan You，Xiaojie Li，Jianlong Wu，Fei Wang，Chen Qian，and Changshui Zhang.同意或不同意：梯度空间中的自适应集成知识提取。神经信息处理系统的进展，33，2020。[8] Yunshu Du ， Wojciech M Czarnecki ， Siddhant MJayakumar，Mehrdad Farajtabar，Razvan Pascanu，andBalaji Lakshmi-narayanan.使用梯度相似性调整辅助损耗。arXiv预印本arXiv：1812.02224，2018。[9] TommasoFurlanello 、 ZacharyLipton 、 MichaelTschannen、Laurent Itti和Anima Anandkumar。再生神经网络。国际机器学习会议，第1607-1616页。PMLR，2018。[10] Jianping Gou，Baosheng Yu，Stephen J Maybank，andDacheng Tao.知识提炼：一个调查。国际计算机视觉杂志，129（6）：1789[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[12] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。[13] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[14] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[15] 亚瑟·杰科特，弗兰克·加布里埃尔，克莱门特·洪格勒。Neu- ral tangent kernel：神经网络中的收敛性和泛化。In S.Bengio，H.Wallach，H.拉罗谢尔湾Grau-man，N.Cesa-Bianchi和R. Garnett，编者，《神经信息处理系统进展》，第31卷。Curran Associates，Inc. 2018年。[16] Yunhun Jang ， Hankook Lee ， Sung Ju Hwang ， andJinwoo Shin.学习什么和在哪里转移。国际机器学习，第3030PMLR，2019年。[17] Mingi Ji，Byeongho Heo，Sungrae Park.显示、参加并提取：通过基于注意力的特征匹配进行知识蒸馏。arXiv预印本arXiv：2102.02973，2021。[18] Simon Kornblith，Mohammad Norouzi，Honglak Lee，and Geoffrey Hinton.神经网络表示的相似性再访。国际机器学习会议，第3519-3529页。PMLR，2019年。[19] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展，25：1097[21] Yifan Liu ， Ke Chen ， Chris Liu ， Zengchang Qin ，Zhenbo Luo，and Jingdong Wang.结构化知识提炼用于语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第2604-2613页[22] 马宁宁，张翔宇，郑海涛，孙健。Shufflenet v2：高效CNN 架构设计实用指南在欧洲计算机视觉会议（ECCV）的会议记录中，第116-131页[23] Andrey Malinin，Bruno Mlodozeniec，and Mark Gales.系综分布蒸馏arXiv 预印本arXiv：1905.00076，2019。[24] Seyed Iman Mirzadeh，Mehrdad Farajtabar，Ang Li，NirLevine，Akihiro Matsukawa，and Hassan Ghasemzadeh.通过教师辅助提高知识的升华.在AAAI人工智能会议论文集，第34卷，第5191-5198页[25] Hossein Mobahi ， Mehrdad Farajtabar ， and Peter LBartlett.自蒸馏放大了希尔伯特空间中的正则化。arXiv预印本arXiv：2002.05715，2020。[26] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets：薄而深的网的提示。arXiv预印本arXiv：1412.6550，2014。[27] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集，第4510-4520页[28] Chengchao Shen ， Mengqi Xue ， Xinchao Wang ， JieSong，Li Sun，and Mingli Song.通过自适应知识融合从异质教师定制学生网络。在IEEE/CVF计算机视觉国际会议集，第3504-3513页5066[29] Yonglong Tian，Dilip Krishnan，and Phillip Isola.对比表征蒸馏法。在2019年国际学习代表大会上[30] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， LukaszKaiser，and Il- lia Polosukhin.注意力是你所需要的。arXiv预印本arXiv：1706.03762，2017。[31] Yukang Wang，Wei Zhou，Tao Jiang，Xiang Bai，andYongchao Xu.用于语义分割的类内特征变化蒸馏欧洲计算机视觉会议，第346-362页Springer，2020年。[32] Chenglin Yang，Lingxi Xie，Chi Su，and Alan L Yuille.快照蒸馏：一代师生优化。在IEEE/CVF计算机视觉和模式识别会议论文集，第2859- 2868页[33] Junho Yim，Donggyu Joo，Jihoon Bae，and Junmo Kim.知识升华的礼物：快速优化、网络最小化和迁移学习。在IEEE计算机视觉和模式识别会议集，第4133-4141页[34] Li Yuan，Francis EH Tay，Guilin Li，Tao Wang，andJiashi Feng.通过标签平滑正则化重新审视知识蒸馏。在IEEE/CVF计算机视觉和模式识别会议集，第3903- 3911页[35] Sukmin Yun ， Jongjin Park ， Kimin Lee ， and JinwooShin.通过自我知识蒸馏来规范类预测。在IEEE/CVF计算机视觉和模式识别会议论文集，第13876- 13885页[36] Linfeng Zhang和Kaisheng Ma。通过基于特征的知识提取改进对象检测：精确高效的探测器。2021年，在国际学术会议上发表[37] Linfeng Zhang，Yukang Shi，Zuoqiang Shi，KaishengMa ， and Chenglong Bao. 面向任务的特征提取。Advances in Neural Information Processing Systems，33，2020。[38] 张林峰，宋杰波，高安妮，陈经纬，包成龙，马凯生做你自己的老师：通过自蒸馏提高卷积神经

下载后可阅读完整内容，剩余1页未读，立即下载