使用多个教师助理的密集知识蒸馏方法解决学生网络的不良学习问题

179 浏览量更新于2023-10-13 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9395使用多个教师助理的密集引导知识蒸馏Wonchul Son，Jaemin Na，Junyong Choi，WonjunHwang Ajou大学，大韩{dnjscjf92，osial46，chldusxkr，wjhwang} @ ajou.ac.kr摘要随着深度神经网络的成功，指导小型学生网络从大型教师网络学习的知识然而，当学生和教师模型大小显著不同时，很少有研究来解决学生网络的不良学习问题。在本文中，我们提出了一个密集的指导知识蒸馏使用多个教师助理，逐渐减少模型的大小，有效地弥合教师和学生网络之间的巨大差距。为了刺激学生网络的更有效学习，我们迭代地将每个教师助理引导到每个其他较小的教师助理。具体地，当在下一步骤教导较小的教师助理时，使用来自第一步骤的现有较大的教师助理以及教师网络。此外，我们设计的随机教学，对于每个小批量，教师或教师助理随机下降。这作为一个正则化，以提高效率的教学的学生网络。因此，学生总是可以从多个来源学习突出的提炼知识。我们使用CIFAR-10，CIFAR-100和Ima-geNet验证了所提出的方法用于分类任务的有效性。我们还通过ResNet、WideResNet和VGG等各种骨干架构实现了显著的性能提升。11. 介绍虽然基于深度学习的方法[11，16，10，2]，例如，卷积神经网络（CNN）已经在准确性方面取得了非常令人印象深刻的结果，已经有许多试验[9，15，34，14]将它们应用于许多应用，例如分类，检测和分割。在这些尝试中，知识蒸馏（KD）[14，28]将教师模型的知识（例如，更深或更宽的网络）以软探针的形式。1我们的代码可在https://github.com/wonchulSon/DGKD上获得。图1.教师和学生网络之间的巨大差距的问题定义。(a)通常，在KD处的层之间的差异大约是1.8倍，但是（b）我们对大于5倍的层差异的挑战性问题感兴趣。为了解决这个问题，已经提出了TAKD [23]。然而，（c）TAKD具有基本限制，诸如误差雪崩问题。假设当较高级别的教师助理（TA）教导较低级别的TA时，一个接一个地每当教导更多的助教时，错误情况继续增加。同时，在（d）中，所提出的密集引导的知识提取可以相对地免于这种错误雪崩问题，因为它不单独在每个级别教导助教。能力（例如，logits）以提高较少参数化的学生模型（例如，较浅的网络）。具体而言，教师网络的软logits可以比基于学生网络本身的类标签的softmax更有效地训练学生网络已经提出了关于KD方法的许多研究[14，28，40，36，42，33，3最近，已经有基于集成的尝试[4，41，38，22]来训练基于许多同龄人或学生的学生网络，而不考虑单个教师网络，这稍微缺乏考虑-9396因此，这对于教导学生的集合分类器的多样性是有利的，特别是当教师和学生之间的差距很大时，如图1（a）和（b）。在[5，18]中，有研究表明，教师并不总是必须聪明，才能让学生有效地学习。当学生的能力太低而不能成功模仿教师的知识时，KD就不可能成功。最近，为了克服这个问题，引入了使用中等大小的辅助模型的基于TA的知识蒸馏（TAKD）[23]，在师生规模差距较大的情况下，实现了有效的绩效提升然而，还需要进一步的研究来确定使用中型助理模型串联是否是弥合教师和学生之间差距的最有效的KD方法。例如，TAKD倾向于导致错误雪崩问题，如图1（c）所示它顺序地训练多个TA模型，通过减少他们自己的辅助模型的能力如果在特定TA模型学习期间发生错误，则该TA模型将示教包含相同错误的下一级辅助模型从那时起，每次训练TA时，误差逐渐滚雪球，如图1（c）所示。这种错误雪崩问题成为一个障碍，以提高学生模型在本文中，我们提出了一种新的密集引导知识蒸馏（DGKD）使用多个TA的学生模型的有效学习，尽管大尺寸的差距之间的教师和学生模型。如图1（d）所示，与TAKD不同，当学习目标学生的模型大小逐渐减小的TA时，知识不仅从较高级别的TA中提取，而且从包括教师在内的所有先前学习的较高级别的TA中引导。因此，受训者通过考虑多个训练者之间的关系（例如，教师和助教）具有互补的特点。该方法可以有效地缓解错误雪崩问题这在很大程度上是因为以前用于模型教学的提炼知识在TAKD中消失了，但是所提出的方法密集地将整个提炼知识引导到目标网络。最后，我们越接近学生学习，我们的教育者就越多，例如，助教和老师。因此，最终的学生模型可以获得更多的机会，取得更好的成绩。对于学生模型的随机学习，我们在学生训练期间随机从训练器中删除一小部分指导知识，这是从[31，17]中得到的启发最后，学生网络由训练器教导，训练器对于每次迭代稍微不同;这作为一种正则化来解决过度拟合的问题，当一个简单的学生从一个复杂的教师群体。本文的主要贡献如下：• 我们提出了一个DGKD，密集地指导每个TA网络与更高级别的TA以及教师，它有助于减轻错误雪崩的问题，其发生的概率增加的TA的数量的增加。• 我们修改了一个随机DGKD学习算法，以有效地从教师和多个TA训练学生网络• 我们证明了显着的精度提高所提出的方法通过广泛的实验，各种数据集和网络架构上的知名KD方法。2. 相关工作知识升华：知识蒸馏是模型压缩领域的一个热门研究课题[9，37]。我们可以从教师网络中提取提炼的知识，并将其转移到学生网络中以模仿教师网络。知识蒸馏[14]的基本概念是将更深或更大模型的知识压缩到单个计算有效的神经网络中。在此基础上，对知识提炼进行了广泛的研究。Remero等人[28]介绍了一个隐藏的激活输出和Zagoruyko等人的转移。[40]提出将注意力信息作为知识进行传递。Yim等人。[36]将从教师网络中提取的知识定义为求解过程（FSP）的流程，其计算为来自两个选定层的特征映射之间的内积最近，Tung et al.[33]介绍了学生网络的相似性保持知识蒸馏引导训练，使得在教师网络中产生相似激活的输入对在学生网络中产生相似激活。Zhang等人[41]提出了自我升华，其中学生网络自己从更深到更浅的层次训练知识，因此不需要教师网络。因为不需要训练预先训练的教师模型，所以可以减少训练学生模型相反，Shen等人。[29]认为学生网络可以从教师网络的集合中有效地学习知识;他们提出了使用基于对抗的学习策略，具有块式训练损失。对于在线蒸馏框架，Zhang et al.[42]建议同伴学生通过每对学生之间的交叉熵损失相互学习。Chen et al. [4]还建议使用peers，其中多个学生模型基于辅助peers和一个组长来训练每个学生模型。9397Guo等人[8]提出了基于协作学习的在线知识蒸馏，在没有教师的情况下训练学生，其中知识在协作训练期间在任意学生之间转移最近也有人试图摆脱传统的方法。Xu等人。[35]表明，对比学习作为一种自我监督任务有助于从教师网络中获得更全面的知识。Yuan等人。[38]使用少样本解决了传统知识蒸馏方法的耗时训练过程，其中教师模型被压缩，学生-教师模型与附加层对齐并合并教师和学生之间的能力差距：关于一个好老师是否总是教好学生，有着截然不同的观点。Cho和Hariha-ran [5]发现，当学生模型容量太低而无法模仿教师模型时，知识蒸馏不能成功;他们提出了一种方法来缓解这一问题，即尽早停止教师培训，以恢复更适合学生模型的解决方案。[ 7 ]如：[7]如：[18]还构建了一个逐步模仿的教师学习序列，以教师的优化路径对学生进行监督。从类似的角度来看，Mirzadeh et al.[23]坚持认为，当教师和学生之间的容量差距较大时，学生网络性能可能会下降，并引入了多步知识蒸馏，采用中间TA来弥合教师和学生网络之间的差距。他们表明，更多的蒸馏步骤使一个更好的学生，多达三个步骤。然而，考虑到资源限制，他们补充说，即使是一个步骤也可能是有效的。我们所提出的方法不同于现有的方法，因为我们密集地指导学生网络使用从教师到学生的道路上产生的请注意，我们的方法并不简单地依赖于一个单一的模型来教学生，而是使用所有的模型，逐渐成为相似的教师3. 利用教师助理进行3.1. 背景知识蒸馏的关键概念[14]是训练学生网络来模仿教师网络的输出。为了实现这一目标，全连接层输出logits被用作网络的知识损失罚款如下：LKD=τ2KL（yS，yT），（1）其中τ是控制信号软化的温度参数。zS和zT分别指教师和学生的logit，每个网络用蒸馏损失，从方程（1）中，学习原始监督信号、交叉熵损失LCE需要添加标签y如下：L CE= H （ softmax （ z S ）， y ）。（2）结果，常规的最终损失函数KD与平衡参数λ一起写成如下：L=（1 −λ）L CE+ λL KD。（三）3.2. 该方法当教师表现良好时，知识传授的主要目的基本上是试图引导学生的知识接近教师的水平。然而，当学生和教师之间的差距在权重参数的大小或层数方面很大时，最好的教师并不总是正确地指导学生[5]。为了解决这个问题，TAKD [23]提出了使用中等规模的网络，如TA来弥合教师和学生之间的巨大差距。TAKD通过从教师到学生依次部署助教来提高学生的学习效率。然而，助教比学生聪明，但比老师差;由于助教的知识有限，这最终成为学生进一步学习的障碍最后，为了教好学生，我们需要一个聪明的老师，但矛盾的是，大多数好的老师网络都有很多参数，这同时也造成了与学生的网络差距密集引导的知识蒸馏：在本文中，为了克服这一矛盾，并实现更好的浅层学生网络的性能，我们提出了密集引导的知识蒸馏使用多个TA的顺序训练。如图2所示，我们利用从中等规模的助教和教师那里提炼出来的知识此外，这种紧密相连的蒸馏形式也用于助教教学.请注意，在设计KD的拟议训练框架时，基本思想来自DenseNet [16]，DenseNet是用于分类任务的密集连接的残差网络架构。我们可以在辅助模型和学生之间使用几个蒸馏损失。为了便于理解，如果有两个TA模型A1和A2与教师模型T，则每个TA的损失可以写为：Kullback-Leibler（KL）散度的LKDLA1=LT-A1，LA2=LT-A 2+LA 1-A 2，（四）9398联系我们Σ×图2.所提出方法的概述。我们的密集指导知识蒸馏使用多个教师助理网络能够训练一个小规模的学生网络从一个大规模的教师网络有效地通过多个教师助理网络。其中下标处的右箭头表示示教方向。学生LS=LT-S+LA-S+LA-S，（5）图3. 随机DGKD方法的概念。当有n个助教和教师网络时，学生网络由他们提炼。根据生存概率，他们中的一些人可能会在每次培训迭代中从一组教师中随机退出。17]，随机削减许多TA和学生之间的知识连接的每个样本或小批量，我们命名为随机DGKD我们的方法。使用随机策略的学习基于简单的直觉。我们有多个辅助模型用于教学具有大间隙的浅学生网络，这将由于TA集合以及教师的复杂logit分布而导致过拟合问题。在培训过程中，教师的知识联系需要不定期地改变，因此我们随机选择了从复杂的教师和教师助理模型中提炼出的知识组合。该过程充当正则化函数，并且其缓解了过拟合问题。如果教师和教师助理的人数增加，12可以相对地使学习过程简单。在那里，我们使用从两个助教和一个老师那里提炼出来的知识来指导学生网络。等式（5）可以以与等式（3）相同的形式表示如下：LS=（1−λ1）LCES+λ1LKDT →S+为此，我们设置bi0，1作为伯努利随机变量，并且在KD学习期间bi=1是作用的，并且bi=0是不作用的。 Bernoulli 随机变量的生存概率记为 pi=Pr（bi=1）。最终，通过用bi·LKDi 替换LKDi来更新等式（7）。在（1 −λ2）LCES+λ2LKD A1→S+（六）在本文中，我们使用一个简单的丢弃规则，如图所示-ure3.知识掉落的可能性从（1 −λ3）L CES + λ3L KDA2→S。如果有n个辅助模型，为了简单起见，假设λ保持相同的值，则总损失的一般形式推导如下：nL S=（n+1）（1−λ）L CES + λ（L KDT →S+LKDAi→S）.i=1（七）我们提取互补的知识，从每个辅助网络，以前已经学会了，并教学生网络与所有教师助理模型的知识相因此，学生网络试图模仿从较大的教师网络到较小的TA网络的各种logit分布，从而即使在具有大的差距的情况下也能提高学生网络的学习效率随机DGKD：为了利用所提出的DGKD进行有效学习，我们采用随机学习策略[31，教师到最后一个助教，并且它仅在教授学生时应用，因为最后一个学生具有最足够的在实验部分，我们对不同的生存概率进行了更详细的4. 实验环境数据集：为了公平比较，我们使用CIFAR [20]和ImageNet [6]数据集评估KD方法，这些数据集被广泛用作图像分类的基准。CIFAR数据集包括大小为32 -32的RGB图像，具有50，000个训练图像和10，000个测试图像。有两种数据集，CIFAR-10和CIFAR-100，分别有10和100个类。ImageNet数据集包含来自1，000个类的1，281，167个图像用于训练和50，000个图像用于验证。网络：我们使用各种不同的方法9399→→→→→→→ →→表1.与使用普通CNN的所有蒸馏步骤的准确度比较（例如，教师T10，助教A8，A6，A4，学生S2）。用 * 方法表示的数字来自相应的论文。步骤TAKD*东莞科达教师（10层）56.1956.15学生（2层）41.0941.06T10→A8T10→A8→A6T10→A8 →A6 →A4T10→A8 →A6 →A4 →S256.7557.5352.8745.1456.7260.1557.6348.92网络：普通CNN和ResNet [11]，WideResNet（WRN）[39]和VGG [30]。在本文中，基线架构是一个普通的CNN，它是一个类似VGG的网络。根据TAKD的实验方案，我们使用一个普通的CNN架构，具有基于10层的教师模型，具有8层、6层、4层的TA模型，以及基于2层的学生模型。为了进行详细的比较，我们使用9，7，5和3层的辅助模型，通过删除层10，8，6和4的最后一个卷积层。实施详情：我们通过预处理、优化、训练计划和学习率等设置实现设置，使用PyTorch [25]。我们首先使用随机裁剪和随机水平翻转。我们对ResNet，WRN和VGG进行了归一化，除了TAKD所做的普通CNN。我们使用的初始学习率为0.1，随机梯度下降（SGD）优化与nesterov动量0.9，和重量衰减1 e-4为160个历元。对于普通CNN，我们在所有时期都保持相同的学习率，但对于ResNet，WRN和VGG，我们在时期80和120将学习率除以0.1。为了获得最佳性能，我们使用超参数优化工具包2，其使用与TAKD所做的相同的超参数和种子设置随机DGKD的生存概率p被添加到平衡参数λ和温度参数τ。我们报告了所有实验的分类任务的性能。5. 结果和讨论5.1. 消融术研究：与TAKD的比较在本节中，我们进行了全面的消融研究，通过直接将其与TAKD进行比较来证明所提出方法的优越性。基本上，我们重新训练整个网络，并遵循与[23]相同的实验协议。表1和表2表明，在所有情况下，我们的方法DGKD与TAKD相比获得了更好的结果。例如，如表1所示，在CIFAR-100上使用普通CNN网络的学生模型显示3.78%性能优于TAKD的T10→A8→2微软表2.使用ResNet的所有蒸馏步骤的准确度比较（例如，教师T26，助教A20，A14，学生S8）。用 * 方法表示的数字来自相应的论文。步骤TAKD*东莞科达教师（26层）92.4892.44学生（8层）86.6186.56T26→A 20T26→A 20→A 14T26→A20 →A14 →S8-91.2388.0192.5792.1589.02一个6一个4同样，对于CIFAR- 10上的ResNet，如表2所示，T26一个20一名14S8路径，并验证了其他步骤的稳定改进.特别是当只有一个TA时，比如T10A8表1中的A6路径和T26A20对于表2中的14条路径，我们通过我们的方法确认了良好的改进。请注意，TAKD通过助教弥合了教师和学生之间的巨大差距，这是这种情况下的一个很好的选择这在很大程度上是因为它可以发挥积极的作用，作为一个桥梁，转移黑暗的知识顺序。同时，它可以起到负面作用的错误积累，如错误雪崩。在极端情况下，如果仅存在一个TA，则无法克服TA即使学生可以从标签中学习，由于其低容量，它也不能自己克服这个错误我们使用大规模数据集ImageNet [6]进行了另一个比较实验，如表3所示。在这个实验中，我们使用了一个基于34层的教师，一个基于18层的学生，以及一个使用ResNet的具有26层的TA。我们的方法比Hinton的KD实现了超过1%的准确性[32][35 ][36][37][38][39因此，我们可以得出结论，我们的方法有效地工作，无论数据库。5.2. 消融术研究：分类器集成我们在表4中给出了关于集成分类器的实验结果。第一集合由四个不同的基于10层的教师独立地从头开始制作，并且第二集合由基于10层的教师T10、基于8层的教师T8、基于6层的教师T6和基于4层的教师T4构建。请注意，这些教师是独立培训的。这两个集合都取得了比KD更好的结果[14]，但它们未能克服教师和学生模型之间的巨大差距。另一方面，包括我们在内的基于TA的方法成功地解决了这个问题。从这个结果可以推断，对于一个KD中教师和学生模型之间的巨大差距，简单的集成方法并不是一个好的解决方案9400→→→∩→ → →→表3.ImageNet上的Top-1准确率（%）教师网络是基于34层的ResNet（T34），学生网络是基于18层的ResNet（S18）。为了简单起见，我们只使用单个TA，使用基于26层的ResNet（A26老师学生CC[27日]SP[33个]在线KD[21日]KD[14个]在[第四十届]CRD[32个]SSKD[35]第三十五届TAKD[23日]东莞科达Top-173.369.7569.9670.6270.5570.6670.771.3871.6271.3771.73Top-591.4289.0789.1789.889.5989.889090.4990.6790.2790.82表4.在CIFAR-100上使用普通CNN的集成方法的比较结果。图5. 在CIFAR-10上使用ResNet的（a）T26A20的KD，（b）A20S14的TAKD，和（c）我们的A20S14的DGKD的t-SNE可视化。查看红色框中的类分布，我们可以看到（b）TAKD和（c）DGKD的不同错误累积率表5.通过中间添加TA，在CIFAR- 100数据集上使用普通CNN的广泛蒸馏路径;n是所使用的TA的数量步骤nTAKD东莞科达教师（10层）-56.19学生（2层）-41.09T10→A6 →S2T10→A8 →A6 →A4 →S21344.5745.1445.8548.92T10→A9 →A8 →A7 →A6→A5 →A4 →A3 →S2744.0749.56图4. 错误雪崩问题。错误重叠率指示当我们有教师T10、学生S2和三个TA（例如，A8、A6和A4）。其中Ei是CIFAR-100上的第i个普通CNN模型的误差示例。任务5.3. TAKD的误差雪崩问题一个错误雪崩问题的例子是简单地解释，在图1（c）。在TAKD的情况下，学生可以只从上级TA独立学习; TA还从顺序地跟随蒸馏路径的上TA学习。因此，如果上TA模型将不正确的知识转移到下一个模型，则该不正确的知识会沿着TAKD的顺序蒸馏路径不断累积。我们进行了一个实验以检查使用全蒸馏路径的两个相邻模型之间的误差重叠率T10A8一个6一个4S2），如图4所示，并观察到TAKD的错误重叠率在所有情况下都远高于DGKD。特别是我们可以看到，越靠近学生，TAKD和DGKD之间的错误重叠率从这一观点出发，我们得出结论，教师和助教可以帮助学生避免错误雪崩的问题，通过所提出的方法。我们还通过图5中的t-SNE可视化验证了这个问题，从图中可以看出，从TA到学生网络的错误累积比从教师到TA网络的错误累积在这种情况下，部署在底部的学生模型将由于错误雪崩问题而遭受累积错误。学生有机会从交叉熵监督损失中学习，但这对解决错误雪崩问题不是很有帮助，因为基于2层的学生对监督信号的学习能力不足以克服这个问题。因此，当教师和学生之间存在较大差距时，基于TAKD顺序部署的TA可能是不充分的解决方案。由于基本限制，很难期望KD的最佳性能改进然而，我们的DGKD教学生从教师到助教的同时，这种错误雪崩的问题可以得到适当的缓解。方法精度教师（10层）56.15学生（2层）41.06[14]第十四话42.56使用三个TA的TAKD [23]45.14使用四个T10的42.57使用T10、T8、T6和T4进行合奏43.25东莞科达48.929401→ →→→ →→→→→→ →→→ →→→ → →→→ → →→图6. 各种TAKD蒸馏路径和相应的结果。在CIFAR-100中，不同的蒸馏路径导致不同的精度，但是由于误差雪崩问题，基于多个TA的更深路径并不总是保证最佳性能图7. 随机DGKD 具有T10的普通CNN的性能A8一个6一个4S2由不同的生存概率在CIFAR-100的情况下。5.4. 知识蒸馏路径我们还研究了[23]提出的完整蒸馏路径对于KD是最佳的断言如图6所示，最深模型（例如， T10A8A6A4S2）路径是最好的，如[ 23 ]所述;然而，具有两个TA（例如， T10A8A4S2和T10A8A6S2）显示出比具有一个TA的模型（例如 T10A6S2）由红色虚线表示。在这方面，我们可以推断，TAKD并不总是提高性能，即使有多个TA。我们试图确定TAKD是否可以达到最佳的精度，即使当蒸馏路径延伸到最大。如表5所示，当中间添加所有 n=7/44.07% ）显示出比其他模型（例如，n=3/45.14%和n=1/44.57%）。在这方面，我们可以肯定，表6.基于随机学习的DGKD（p=0. 75）使用具有路径T10的基于2层的普通CNN学生的比较结果A8一个 6一个 4S2，以及一个基于8层的ResNetstudent，路径为T26一个20一名14CIFAR- 10上的S8。模型数据集TAKD我们东莞科达随机东莞科达PlainCNNResNetCIFAR-100CIFAR-1045.1488.0148.9289.0250.1589.66在这种情况下会出现错误雪崩问题。结果，当路径越来越深时，错误雪崩问题可能变得比预期的更糟。然而，使用所提出的DGKD，当蒸馏路径变得更深时，准确度逐渐提高，范围从n=l到n=7;完整蒸馏路径（例如， n=7）达到最好的准确度49.56%。请注意，随着路径长度的增加，我们的DGKD方法的性能与TAKD不同，并且与TAKD相比，它在准确性上高出约5%总之，通过调整我们提出的DGKD方法，它使用所有更高的路径模型教师和TA在一起，低容量的学生可以克服错误雪崩问题与适当的教练。5.5. 随机DGKD我们提出了基于随机学习的DGKD进一步提高学生的表现。具体地，我们的随机DGKD直接受到辍学概念的启发。如果存在n个TA，则学生可以从包括教师的n+1个知识语料库学习。我们根据生存概率p随机删除学生和培训师（教师和助教）之间的联系。为了找出存活概率的趋势，我们进行了图7中所示的实验。当生存概率为p = 0时。75，学生表现出最好的准确性。注意，存活概率p为0.75至0.5的随机DGKD显示出比p = l但在p=0时的普通DGKD更好的准确性。25，准确率略低于vanilla DGKD，因为我们在这个实验中只有四个知识连接，并且在失去从训练器数量中学习适当知识的机会方面下降了三个结果。在这方面，我们得出结论，生存概率p=0。当我们有三个TA和一个老师用于随机DGKD时，75表6示出了TAKD之间的性能比较DGKD和随机DGKD。正如预期的那样，随机DGKD在其他网络和数据集上表现出最佳性能。具体地，使用基于2层的普通CNN学生网络的所提出的随机DGKD实现了比原始DGKD好1.23%的结果和比原始DGKD好5.01%的结果。9402××表7.在CIFAR-10上使用ResNet与众所周知的KD方法进行比较。我们使用26层的ResNet作为教师模型，它教授两种不同的学生模型，例如，8个基于层的ResNet和14个基于层的ResNet。对于TAKD和我们的DGKD，我们分别使用知识蒸馏路径T26 → A20→ A14 → S8和T26 → A20 → S14。学生[14]第十四话[第28话]AT [40]FSP [36]BSS [12][第42话]TAKD [23]我们ResNet8ResNet1486.0289.1186.6689.7586.7389.8286.8689.8487.0789.9287.3290.3487.7190.5488.0191.2389.6692.34表8.与先前发表的在CIFAR-100上使用WRN、ResNet和VGG的KD方法的比较。粗体数字是最好的准确度，带下划线的数字是第二好的。老师学生WRN40×2WRN16×2ResNet56ResNet20VGG13VGG8老师学生76.4673.6473.4469.6375.3870.68[14]第十四话74.9270.6672.98[第28话]75.7571.6073.54AT [40]75.2871.7873.62SP [33]75.3471.4873.44VID [1]74.7971.7173.96RKD [24]75.4071.4873.72PKT [26]76.0171.4473.37中文（简体）68.8971.4974.27《金融时报》[19]75.1571.5273.42CRD [32]76.0471.6874.06SSKD [35]76.0471.4975.33TAKD [23]75.0470.7773.67我们76.2471.9274.40结果比CIFAR-100上的TAKD更差这种改进在CIFAR-10上基于8层的ResNet学生上是相同的。由此，我们可以得出结论，所提出的方法在教师和学生网络之间存在较大差距的情况下成功地工作。5.6. 与最新方法的比较为了验证所提出的方法的通用性，我们将其性能与众所周知的KD方法[14，28，40，36，12，42，23]进行了比较。如表7中所总结的，所提出的DGKD实现了与众所周知的KD方法（诸如KD [14]、FitNet [28]、AT[13]、FSP [36]、BSS [12]、Mutual [42]和FSP [36]）相比的最佳性能。TAKD [23]分别在CIFAR-10的8层和14层的基于ResNet的学生模型上。对于与各种骨干架构（例如，WRN[39]、ResNet [11]和VGG [30]）的比较结果，表8示出了我们提出的方法相对于现有技术的KD方法有利地执行具体地，作为教师的基于402层的WRN、基于56层的ResNet和基于13层的VGG，以及对应的学生分别是基于162层的WRN、基于20层的ResNet和基于8层的VGG。在本实验中，我们也使用不同数量的教师助理模型进行实验。9403→→→ → →→不同的网络。详细地，我们使用以下已知蒸馏路径： T40×2→A34×2→A28×2→A22×2S16×2 用于WRN，T56一名44一台32S20为ResNet和T13A11VGG的S8。如Ta所示-表8，当老师和学生网络很大（例如，从WRN 40 -2到WRN 16 -2和从ResNet 56到ResNet 20），我们的方法在现有技术的方法中显示出最好的准确性，但是当差异不大时（例如，从VGG13到VGG8），我们的方法显示出第二好的准确性。实验结果表明，该方法不仅在师生差距较大的情况下表现出最好的性能，而且与一般的KD方法相比也表现出最好的性能。6. 结论在本文中，我们提出了一个密集指导的知识蒸馏使用多个助手，以提高性能的学生与低能力的教师相比。经验上，我们发现，随着辅助知识提取路径的加深，容易出现错误雪崩问题。当有多个助手时，如果上一个助手将错误的答案转移到下一个助手，并且它继续递归，则由于其容量低，学生可能难以避免错误雪崩问题。因此，我们提出了一种新的方法，利用教师和整个助手的知识，为学生提供更多的机会，学习正确的我们的实验表明，我们提出的方法可以发挥关键作用，在解决错误雪崩问题。此外，为了有效的学生学习，我们通过随机放弃教师或辅助知识来适应随机学习角色。使用这种策略，我们提出的方法实现了国家的最先进的众所周知的蒸馏方法。我们相信，我们提出的方法可以促进规划蒸馏路径更深，更深地使用多个TA，这提高了低容量的学生网络在现实世界中的应用的性能。鸣谢：这项工作部分得到了韩国政府（MSIT）资助的IITP资助（No.2021-0-00951，基于云的Au-slip驾驶AI学习软件的开发），部分得到了MSIT（人工智能创新中心）资助的IITP资助（2021-0-02068），部分得到了BK 21 FOUR计划（NRF 5199991014091）的支持。9404引用[1] S. Ahn，S.X.，Hu，黄毛菊A.Damianous，N.D. 劳伦斯和Z.戴.知识转移的变分信息蒸馏。 IEEE会议关于计算机视觉和模式识别，2019年6月。8[2] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器 - 解码器架构。 IEEETransactionsonPatternAnalysisandMachineIntelligence，39（12）：2481 - 2495，Dec. 2017. 1[3] J. - H. 裴氏D.Yeo，J.Yim，N.-S. 金，CS. Pyo和J.Kim.图像分类的师生框架中基于流的知识转移。IEEE Trans.on Image Processing，29：5698-5710，Apr. 2020. 1[4] D. Chen，J. Mei，C. Wang，Y. Feng，和C.尘与不同的同行进行在线知识蒸馏。第34届AAAI会议人工智能，2020年2月。一、二[5] J. Cho和B哈里哈兰论知识蒸馏的功效IEEE国际会议，第4794-4802页，Oct. 2019. 二、三[6] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。IEEE会议计算机视觉和模式识别2009年6月。四、五[7] T. Furlanello，Z. C. 利普顿M. 查嫩湖 Itti，还有A. Anandkumar再生神经网络国际会议关于机器学习，2018年7月。3[8] Q. Guo，X. Wang，Y. Wu，Z. Yu，D. Liang，X. 虎和P. 罗通过协作学习进行在线知识提炼IEEE计算机视觉和模式识别会议，第4320-4328页，2006年6月。2020. 3[9] S.汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。国际会议关于学习表示，2016年5月。一、二[10] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。IEEE国际会议计算机视觉，2017年10月。1[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议，第770-778页，2009年6月。2016. 一、五、八[12] B. Heo，M.李，S。Yun和J.Choi.通过支持对抗样本改进知识提取。第33届AAAI大会人工智能，第3771-3778页，2月。2019年。8[13] B. Heo，M.李，S。Yun和J.Choi.通过隐藏神经元形成的激活边界的蒸馏进行知识转移。第34届AAAI会议《人工智能》，第3779-3787页，2010年1月2019. 8[14] G. Hinton，O. Yinyals和J. Dean.提炼神经网络中的知识.arXiv预印本arXiv：1503.02531，2015年3月。一二三五六八[15] A. G. Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017年4月。1[16] G. Huang，Z.柳湖，加-地van der Maaten和K.温伯格密集连接的卷积网络。IEEE会议计算机视觉和模式识别，第2261- 2269页，7月。2017.第1、3条[17] G. Huang，Y.黄氏Y.太阳，Z. Liu，L. Sedra和K. Q.温伯格深度随机的深度网络。欧洲会议中计算机视觉，9月。2016. 二、四[18] X.金湾，澳-地彭，Y. Wu，Y. Liu，J. Liu，D. Liang，J.Yan，and X.胡基于路径约束优化的知识提取。IEEE国际会议计算机视觉2019年10月。二、三[19] J.金，S. Park和N.夸复杂网络释义：通过因子转移进行网络压缩。神经信息处理系统进展，第27602018年12月。8[20] A.克里热夫斯基从微小的图像中学习多层特征。Tech.Rep，2009年4月。4[21] X.兰，X. zhu和S.龚通过即时本地集成进行知识蒸馏。神经信息处理系统的进展，第7528-7538页，12月。2018. 五、六[22] A.马里宁湾Mlodozeniec和M.盖尔斯系综分布蒸馏。国际会议关于学习代表，2020年4月。1[23] S. I. Mirzadeh，M. Farajtabar，A. Li，N. Levine，A.Mat-sukawa，和H.加森扎德通过教师助理提高知识水平。第34届AAAI会议人工智能，第5191-5198页，2009年2月。2020. 一二三五六七八[24] W.帕克D。金，Y。Lu和M.小周关系知识的升华。IEEE计算机视觉和模式识别会议，2019年6月。8[25] A. Paszke，S.格罗斯，S。Chintala，et. al. Pytorch中的自动差分。NIPS Autodiff研讨会，2017年。5[26] D. 帕塔克 P·卡恩布尔 J·多纳休 T. Darrell和A.埃夫罗斯上下文编码器：通过图像修复进行特征学习。IEEE计算机视觉与模式识别会议，2016年6月。8[27] B. 彭、X。Jin，J.Liu，L.Li，Y.Wu，Y.Liu，S.周和Z. 张某知识提炼的相关同余法IEEE国际会议计算机视觉，10月2019年。五、六[28] A. 罗梅罗，北巴拉斯，S。卡胡A.查桑角Gatta，还有Y.本吉奥。Fitnets：薄而深的网的提示。国际会议关于学习表征，2015年。一、二、八[29] Z.沈，Z.他，还有X。雪Meal：通过对抗学习实现多模型集成。第33届AAAI大会关于人工智能，2019年2月。2[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。五、八[31] N. Srivastava、G.Hinton，A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout：A simple way to prevent neur-ral networks from overfitting. Journal of Machine LearningResearch，15（56）：1929-1958，2014. 二、四[32] Y. Tian，中国粘蝇D. K

下载后可阅读完整内容，剩余1页未读，立即下载