自蒸馏框架：一种高效的无需修改模型结构的知识蒸馏方法

174 浏览量更新于2023-10-25 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11943最后一个小批的自蒸馏用于稠度正则化沈一清1*†，徐立武2*，杨宇哲2，李亚倩2，郭艳东21上海交通大学，2OPPO研究院shenyq@sjtu.edu.cn，{xuliwu，liyaqian}@ oppo.com，ippllewis@gmail.com，yandong. live.com摘要知识蒸馏（KD）作为一种强大的正则化策略，通过利用学习的样本级软目标来提高泛化能力，显示出光明的前景。然而，在现有KD中采用复杂的预先训练的教师网络或同伴学生的集合既耗时又计算成本高。各种自KD方法已被提出来实现更高的蒸馏效率。然而，它们要么需要额外的网络体系结构修改，要么难以并行化。为了应对这些挑战，我们提出了一个高效可靠的自蒸馏框架，命名为自蒸馏自最小巴奇（DLB）。具体地说，我们通过约束每个小批量的一半与前一次迭代一致来重新安排顺序采样与此同时，剩下的一半将与即将到来的迭代相吻合。然后，前半个小批量蒸馏在先前迭代中生成的飞行软目标。我们提出的机制指导训练的稳定性和一致性，从而对标签噪声具有鲁棒性。此外，我们的方法很容易实现，而不占用额外的运行时系统或需要修改模型结构。三个分类基准的实验结果表明，我们的方法可以始终优于国家的最先进的自蒸馏方法与不同的网络架构。此外，我们的方法通过获得额外的性能改进，显示出与增强策略的强大兼容性。该代码可从https：github.comMeta-knowledge-Lab/DLB.1. 介绍知识蒸馏（KD），首先由Bucilua等人介绍。[2]，后来由Hinton等人推广。[10 ]第10段。大量的研究已经证明了KD在各种学习任务中的作用，以提高概括能力。例如，在网络压缩的情况下，两阶段的离线KD被广泛用于传输*同等贡献。‡通讯作者。†本工作是在OPPO研究院实习期间完成的暗知识从繁琐的预训练模型到从教师的中间特征图[ 21 ]、逻辑[ 10 ]、注意力图[ 40 ]或辅助输出[ 43 ]学习的轻学生模型然而，训练高容量的教师网络严重依赖于大型计算源和运行内存。为了减轻静态教师的耗时，引入了在线蒸馏[44]，其中一组同龄学生相互学习。在线KD与离线KD相比，性能得到了相当的提高，但计算效率更高.因此，这条线随后被许多后续作品延伸到一个更有能力的自我合奏教师[3，8，14，33]。KD的其他应用包括半监督学习、领域自适应、迁移学习等[18，26，28]。本文的主要范围集中在KD范式本身。传统的KD方法，无论是在线还是离线，都取得了令人满意的经验性能[24]。然而，现有的KD方法存在知识转移效率低的障碍[35]。此外，高计算和运行内存成本限制了它们在终端设备（如移动电话、数码相机）上的部署[4]。为了应对这些限制，自我知识蒸馏已经越来越受欢迎，这使得学生模型能够从自身中提取知识。缺乏一个复杂的预先培训的教师和一个合奏的同龄学生在自我KD有助于边际提高培训效率。自我KD的一个流行的公式，如成为你自己的老师（BYOT），需要大量的网络架构修改，这在很大程度上增加了他们推广到各种网络结构的难度[19，32，43]。在另一条线中，历史信息，包括先前的训练日志或模型快照，被用来构建虚拟教师，用于额外的监督信号作为自我激励。最初，重生网络（BAN）顺序地提取具有与其上一代相同参数的网络[7]。通过快照实现的进步是从先前的小生成中获取次要信息，即，一个世代内的几个时代[36]。此次虚拟教师更新频率进一步119441标签更新频率-2时代1-1-12 1新纪元1-≥21-1批表1.在计算成本和平滑粒度方面与最新技术进行比较。我们将我们的方法与标签平滑正则化[27]，无教师知识蒸馏（Tf-KDself，Tf-KD reg）[37]，类式自我知识蒸馏（CS-KD）[39]，渐进式自我知识蒸馏（PS-KD）[12]，记忆重放知识蒸馏（Mr-KD）[30]，数据失真引导的自我知识蒸馏（DDGSD）[35]进行比较，做你自己的老师（BYOT）。特性LSRTf-KDselfTf-KD注册CS-KDPS-KDMr-KDDDGSDBYOT我们样本级平滑✗✓✓✓✓✓✓✓✓没有受过培训的教师✓✗✓✓✓✓✓✓✓无架构修改✓✓✓✓✓✓✓✗✓每个批次的每批1121112221≥222111在渐进式自我知识蒸馏[12]和反思学习[5]方面提高到时代水平然而，以前的KD方法具有以下需要解决的挫折。首先，丢弃来自最后一次迭代的最即时的信息。此外，存储过去模型的快照会消耗额外的运行内存成本，并随后增加并行化的难度[36]。最后，每次后向分段的梯度计算与每批数据的两次前向处理相关联，导致计算冗余和计算效率低。为了解决现有自蒸馏方法存在的这些问题，我们提出了一种简单而有效的自蒸馏方法，称为自蒸馏（DLB）。与现有的自KD方法相比，DLB在计算上是高效的，并且通过仅存储在最后小批量备份中生成的软目标来节省运行内存，从而导致其部署和并行化的简单性。数据实例的每个前向过程与一次反向传播过程相关联，从而减轻计算冗余。表1总结了与最新技术水平相比的主要差异。DLB产生用于自蒸馏的动态样本级平滑标签。利用最后一次迭代的软预测，我们的方法为每个训练样本提供了最即时的蒸馏。DLB的成功归因于从最直接的历史生成的软目标中提炼出训练的一致性和稳定性。更具体地说，目标网络在训练阶段的每个小批次中扮演教师和学生的双重作为教师，它提供了软目标，以便在下一次迭代中进行正则化。作为一个学生，它提取从最后一次迭代中生成的平滑标签，并最小化监督学习目标，例如。交叉熵损失我们在三个基准数据集上实证说明了我们的方法的综合有效性，即 CIFAR-10 [13]， CIFAR-100 [13]，TinyImageNet。我们的ap-方法是任务不可知的和模型不可知的，即，而不需要模型拓扑修改。我们选择六个代表性的骨干CNN进行评估，包括ResNet-18 ， ResNet-110 [9] ， VGG-16 ， VGG-19 [25] ，DenseNet [11]，WideResNet [41]。实验结果表明，我们的DLB可以不断提高泛化能力。我们还测试了DLB对损坏数据的鲁棒性。DLB对受损数据的训练一致性和稳定性提高了泛化能力。主要贡献有三方面。• 本文提出了一种简单而有效的基于自知识蒸馏的一致性由于没有网络架构修改，阳离子，我们的方法需要很少的额外的计算成本，以及运行时的内存来实现。利用最新的更新，从最后一次它的eration，我们的DLB是很容易实现的并行化。值得注意的是，所提出的方法也是模型不可知和任务不可知的。• 在三个流行的分类基准上的综合实验结果说明了在不同模型上的一致的通用化改进我们还实证证明了DLB与各种增强策略的兼容性• 我们系统地分析了我们的方法对训练动态的影响。具体地，其正则化效果的成功归因于通过利用动态样本级平滑标签来引导训练一致性。一致性效应在标签损坏设置下被进一步放大，对标签噪声表现出较强的鲁棒性。这些实证发现可能为理解知识蒸馏的效果提供一个新的方向。2. 相关作品知识提炼。知识蒸馏（KD）的目标是从高能力教师模型中转移11945Bi=1i=1i=1B {}B { } D图1.我们的DLB的整体架构。我们为小批量数据样本、随机增强和在第t次迭代中索引的可训练参数编写t，θt，θt一个轻量级的学生网络[2，10]。尽管其竞争性的性能提高泛化，预训练一个复杂的教师模型需要额外的训练时间和计算成本。形成经济蒸馏的另一种方式称为相互学习，也称为在线蒸馏，其中学生的集合相互学习[44]。这个想法被许多以下作品推广[3，14，33]。但是，对等学习中的优化涉及多个网络，这需要额外的存储器来存储所有参数。自我知识蒸馏。为了提高知识转移的效率和有效性，提出了自知识蒸馏（SKD），以利用来自自身的知识，而不涉及额外的网络[31]。有三种常用的方法来构建SKD模型，即，1)基于数据失真的自蒸馏[15，35]，2）使用历史信息作为虚拟教师，3）在辅助头上蒸馏[17，43]。然而，第一个稍微依赖于增强效率。第二个错误将错过最后一个mini-batch的最新更新。最后一种需要大量的网络架构修改，这增加了其部署的难度。蒸馏作为正则化。K D 被广泛用于许多任务，如模型压缩，半监督学习，域自适应等[18，26，28]。然而，KD成功的理论分析仍然是一个问题。两批样品的类别相同[39]。渐进式自我知识蒸馏（PS-KD），更类似于我们的工作，逐步从上一个时代提炼过去的知识，以软化当前时代的硬目标[12]。内存重放知识蒸馏（Mr-KD）通过存储一系列被遗弃的网络备份以进行蒸馏来扩展PS-KD[30]。但是，实现PS-KD或Mr-KD都需要额外的GPU内存将历史模型参数或整个过去的预测存储在磁盘上。对于大型模型（如深度WRN [41]），前一种策略的计算成本很高，而后一种策略在训练大型数据集（如ImageNet [23]）时效率低下。上述缺点导致训练效率低，以及在诸如移动电话、数码相机等终端设备上的实现困难[4]，这限制了它们用于正则化的应用。另一方面，在这些方法中缺少来自最后几个小批次的许多最新信息。为了解决这些不足，我们提出了一个新的自蒸馏框架DLB，这将在下面的部分进行详细介绍。3. 方法3.1. 初步在这项工作中，我们专注于监督分类任务的案例研究。为了清楚地表示，我们写一个K-类很大的挑战最近，袁等。将成功标记的数据集归因为D={（xi，y i）}N ，其中N是总数KD的正则化效应，提供样本级的训练实例数。在每一个小批次中，从LSR的角度看软目标[37]。它揭示了将KD应用于正则化域的巨大前景在这条线上，类明智的自我知识蒸馏（CS-KD）的设计是通过疏散预测之间的一致性，具有n个采样=（xi，yi）n被数据畸变ψ增大，以导出畸变图像ψ=（ψ（xi），yi）n。然后，它们被馈送到目标神经网络hθ以优化交叉熵损失函数，定义如下11946..1LCEii.LBn~我~我−×nn×我我~我n~LLB=.τ·D KL.p−pΣ。（四）我n=H y，p.（一）ni=1形式上，对于类别k∈[K]，softmax分类器中的预测分布pi=（pi（1），···，pi（K））被公式化为：p（k）=exp（f k（xi; θ）/τ），（2）迭代更新CE。而来自t的预测由温度τ平滑，然后存储用于第t次迭代中的正则化。一批平滑标签的存储需要非常少的额外存储器成本，这因此更有效。最后，总损失函数由下式表示：L=LCE+α·LLB，（5）IKj=1 exp（fj（xi;θ）/τ）其中α是平衡两项的系数总之其中fk表示来自由θ参数化的主干编码器的logit的第k个分量。温度在等式中，τ通常设置为1。（二）、为了提高生成能力，香草知识蒸馏[10]我们将每个小批的一半约束为与前一次迭代一致，而将其余的一半约束为与下一次迭代一致。然后，前半个小批量提取在前一次迭代中生成的动态软目标。算法1中总结了整个训练过程。Kullback-Leibler（KL）发散损失在每一个小批量中，LKD=1。τ2·DKL.~pτpτ，（3）i=1算法1用于DLB的伪码。输入：平衡系数α输入：蒸馏温度τ要求：数据加载器示例批次如图1一曰： last logits= None #初始化其中，pτ、pτ是软化预测，参数化为2：for（x，gt labels）in data loaderdo我我温度τ，分别来自学生和教师。一更高的温度导致更均匀的分布，导致与标签平滑类似的正则化效果[27，37]。与以前的工作相比，其中复杂网络被预先训练以生成pτ，我们的工作使用来自最后一批的历史信息来有效地生成pτ作为用于正则化的更即时的平滑标签。3.2. 最后一批所提出的自蒸馏的整个训练过程在图1中可视化。而不是采用一个复杂的预先训练的教师模型，以提供样本平滑的标签，我们提出的框架利用备份信息，从最后一个小批量，以产生软目标。它导致训练一致性的正则化为了清楚地表示，我们表示原始批次的在第t次迭代中采样的数据为Bt={（xt，y t）}n ，以及3：n=gtlabels.size（0）#批量大小4：logits= model.forward（x）5：损失=CELoss（logits，gt标签）6：如果最后logits！那就没有了7：软目标=Softmax（最后对数/τ）8：pred=Softmax（logits[：n/2]/τ）9：损耗+=α *LBLoss（预测，软目标）*τ210：如果结束11：loss.backward（）#更新参数12：lastlogits=logits[n]//2：].detach（）#无梯度13：结束4. 实验4.1. 数据集和设置数据集。我们采用了三个多类分类网络参数为θ我i i=1pτ用于全面性能评估的基准数据集t. 形式上，我们用在当量（3）通过恒等网络在t1迭代时生成的软化标签pτ，t−1，即f由θ t−1参数化。因此，我们引入了额外的最后一批一致性DLB的正则化损失如下：12τ，t1τ，ti ii=1评估CIFAR-10/CIFAR-100包含来自10/ 100类的32 32像素的60，000个RGB自然图像的总数[13]。每个类包括5，000/ 500个训练样本和1，000/ 100个测试样本。我们遵循了以前作品中广泛使用的预处理[9，41]。更准确地说，训练样本通过去噪进行归一化，并在每一侧填充4个零值像素。随机裁剪32 ×32区域，而不是在第t次迭代中存储整个θt−1，[12]在过去的作品中，它是运行时的，理论消耗，我们完成了所有pτ，t−1的计算填充图像或其水平翻转。 TinyImageNet是ILSVRC-2012的子集，由200个类组成。每个类包括500个训练样本和50个测试样本。单位：t−1日我迭代我们采用一个数据采样器来获得Bt大小为64× 64。所有的训练图像都是随机的，和Bt−1同时在第t−1次迭代中实现。Bt−1和Bt在第t−1次的预测在标准化之后裁剪并调整大小为32仅对测试图像进行归一化。11947××表2.在CIFAR-10、CIFAR- 100和TinyImageNet上与标签平滑正则化和最先进的自蒸馏方法的性能比较，我们计算了三次运行的平均值和偏差。最好的和第二好的表现分别以红色和绿色突出显示。数据集方法VGG-16VGG-19ResNet-32ResNet-110公司简介DenseNet-40-12基线6.03±0.225.91±0.405.92±0.156.12±0.076.22±0.205.90±0.046.04±0.106.05±0.065.91±0.016.25±0.186.38±0.116.07±0.576.54±0.106.73±0.176.32±0.016.60±0.056.88±0.155.96±0.065.21±0.245.60±0.174.92±0.085.48±0.186.12±0.055.09±0.685.47±0.084.76±0.065.33±0.134.79±0.014.89±0.194.99±0.017.09±0.287.47±0.277.03±0.147.38±0.167.85±0.176.77±0.28LSRTf-KDselfCIFAR-10Tf-KD注册CS-KDPS-KDDLB5.38±0.015.58±0.085.85±0.024.85±0.114.46±0.016.57±0.02(0.65↑）(0.46↑）(0.70↑）(0.37↑）(1.01↑）(0.53↑）基线26.37±0.1925.81±0.0225.94±0.1125.85±0.3025.81±0.4325.95±0.7427.16±0.4226.75±0.4527.46±0.8226.82±0.5926.65±0.4926.36±0.7628.26±0.1828.21±0.1326.09±0.2428.29±0.0729.21±0.2127.49±0.7523.64±0.2523.32±0.1627.02±0.0123.54±0.0423.41±0.2822.85±0.6522.42±0.2322.17±0.0121.88±0.3422.28±0.0521.75±0.2621.26±0.1128.31±0.3529.07±0.0128.40±0.0928.92±0.0429.65±0.5128.48±0.53LSRTf-KDselfCIFAR-100Tf-KD注册CS-KDPS-KDDLB23.88±0.0624.53±0.1326.00±0.0321.82±0.1920.79±0.3327.48±0.21(2.50↑）(2.63↑）(2.26↑）(1.83↑）(1.63↑）(0.83↑）基线48.83±0.3347.95±0.3246.76±0.1048.31±0.0646.95±0.1548.39±0.2350.02±0.1248.86±0.7847.25±0.0649.54±0.1647.89±0.1349.77±0.2350.38±0.3852.75±0.6949.48±0.1650.97±0.0253.99±0.0350.28±0.1743.20±0.5642.18±0.5741.31±0.0141.88±0.9143.06±0.2242.22±0.7243.72±0.2843.51±0.1341.13±0.1142.85±0.0742.04±0.4243.37±0.0150.94±0.5651.01±0.1650.78±0.0151.47±0.1054.93±0.2551.57±0.05LSRTf-KDselfTinyImageNetTf-KD注册CS-KDPS-KDDLB45.66±0.0146.68±0.0948.66±0.0740.39±0.0141.03±0.0250.13±0.01(3.17↑）(3.35↑）(1.72↑）(2.81↑）(2.69↑）(0.81↑）实现方式的所有实验都在具有32Gb存储器的一个NVIDIA Tesla V100GPU上进行。本文提出的DLB方法和比较的方法均在Pytorch 1.6.0和Python3.7.0环境下实现。训练方案的超参数遵循一致的设置以进行公平的比较。CIFAR-100/10：我们遵循以前作品中的设置[29，34]。具体来说，每个骨干网络都训练了240个epoch，批量大小为64。初始学习率被设置为0.05，并且在第150、180和210个时期衰减10%。我们采用随机梯度下降（SGD）Nesterov动量为0.9的优化器，其中权重衰减率设置为510−4。TinyImageNet：我们也遵循了以前作品中的设置[42]。具体地，我们将最大epoch数设置为200，批次大小设置为128。初始学习率设置为0.2，在第100、150个历元时，cayed系数为10%。SGD优化器中的权重衰减率和动量被设置为110- 4和0.9。我们调整了温度τ为3，DLB中的系数α为1，在下一小节中探索超参数。的DLB中的温度设置遵循了大量工作的建议[44]，我们没有手动调整它。我们使用测试集上的前1错误率（%）作为评估指标。为了重现性，我们在所有实验中将随机种子固定在95我们还测量了三次运行的平均值和相关标准差重要的是，为了在计算成本方面进行公平比较，所提出的方法（DLB）在总训练交互/时期的一半上进行评估，而不是比较的方法。虽然我们的方法通过复制最后一个mini-batch的一半来实现双倍的batch大小，但它不会带来额外的计算成本，并且总训练迭代次数减半主干架构。我们采用了六种代表性架构[3，33]进行评估，即Vgg-16，Vgg-19 [25]，ResNet-32，ResNet-110[9]，WRN 20 -8 [41]，DenseNet-40-12 [11].比较方法。在基线中使用硬标签直接训练目标网络。我们还比较了所提出的方法与标签平滑正则化，11948±联系我们表3.与CIFAR-10/ 100上基于增广的正则化方法（包括CutOut [6]，CutMix [38]和DDGSD [35]）的性能兼容性我们计算了平均前1错误率（%），三次运行的标准差，以“avg std”的形式书写每个类别中的最佳结果以粗体突出显示。数据集方法VGG-16VGG-19ResNet-32ResNet-110公司简介DenseNet-40-12基线6.03±0.226.04±0.106.54±0.105.21±0.245.47±0.087.09±0.28+DLB5.38±0.015.58±0.085.85±0.024.85±0.114.46±0.016.57±0.02+开孔4.93±0.045.10±0.055.91±0.124.64±0.144.88±0.116.68±0.11+CutOut+ DLBC104.48±0.034.46±0.405.18±0.053.78±0.094.12±0.095.54±0.04+CutMix5.29±0.045.41±0.035.96±0.284.82±0.104.89±0.316.76±0.17+CutMix+ DLB5.20±0.135.21±0.015.22±0.664.41±0.254.29±0.205.28±0.06+DDGSD5.65±0.145.79±0.085.96±0.044.77±0.044.72±0.136.83±0.21+DDGSD+ DLB5.31±0.075.52±0.055.75±0.254.45±0.594.14±0.035.74±0.23基线26.37±0.1927.16±0.4228.26±0.1823.64±0.2522.42±0.2328.31±0.35+DLB23.88±0.0624.53±0.1326.00±0.0321.82±0.1920.79±0.3327.48±0.21+开孔25.76±0.1626.19±0.6927.72±0.0222.09±0.1821.14±0.3728.58±0.47+CutOut+ DLBC10023.02±0.0823.62±0.1725.93±0.2820.27±0.3320.30±0.0127.04±0.43+CutMix24.07±1.0225.67±0.0427.31±0.4221.42±0.120.57±0.2728.27±0.42+CutMix+ DLB23.48±0.2924.06±0.0125.77±0.6420.93±0.0420.10±0.1126.82±0.12+DDGSD24.36±0.0424.69±0.0126.32±0.2322.55±0.1720.83±0.0827.69±0.32+DDGSD+ DLB23.81±0.1124.20±0.2825.98±0.0421.18±0.4220.28±0.0127.25±0.28(a) （b）CIFAR-10图2.标签噪声训练的性能。(a)CIFAR-100。(b)CIFAR-10。该线示出了在噪声标签的不同百分比（pp0、 10%、 20%、 30%、40%、 50%、 60%。条形图说明了我们的方法与基线相比的改进。知识蒸馏（LSR）[27]和自我知识蒸馏规则化方法，包括无教师知识蒸馏（Tf-KDself，Tf-KDreg）[37]，类式自我知识蒸馏（CS-KD）[39]，渐进式自我知识蒸馏（PS-KD）[12]。上述方法集中于logit水平的正则化。数据失真引导的自我认知蒸馏（DDGSD）是一种基于数据扩充的蒸馏方法[35]，已将其与DLB进行了比较和兼容性测试。我们删除了DDGSD [35]中的功能级超视，即MMD丢失，以获得公平的兼容性。由于DDGSD是一种基于增强的方法，我们探索了DLB和11949联系我们∈--(a) Vgg-16（b）Vgg-19（c）WRM（d）DenseNet（e）Vgg-16（f）Vgg-19（g）WRM（h）DenseNet图3.Vgg-16，Vgg-19，WRN，DenseNet在损坏数据上的训练性能（a）-（d）关于数据损坏率的结果p∈ {0. 1，0。3，0。5};（e）-（h）关于数据损坏率p ∈ {0. 2，0。四，零。6}。DDGSD。在比较的方法中涉及的所有额外的超参数都保留为它们的原始设置。4.2. 分类结果如表2所示，我们的方法（表示为DLB）一致地改善了各种骨干（基线）上的性能。更具体地说，DLB实现的平均错误率改善范围为CIFR-100的0.83%至2.50%，CIFAR-10的0.37%至1.01%，以及TinyImageNet上的0.81%至3.17。实验结果表明，DLB算法可以有效地提高分类任务的泛化能力.此外，DLB优于最先进的方法，实现了最低top-1错误。每组中最好和第二好的表现分别以红色和绿色突出显示。(a)温度（b）α图4.DLB中的超参数对CIFAR- 100到ResNet-32和Vgg-16的影响。（a）温度τ的影响1， 2， 3， 4， 5， 10， 20，α=1。 (b)平衡的影响系数α0. 1，0。2，0。五一0，2。0，5。0，10。0与固定的temperature- ature 3.在各对照实验中表现最好的是用红色标出。我们可以观察到CIFAR-10上的DLB比WRN 20 -8的现有技术成功了0.30%;而CIFAR- 100为0.47%。这些改进是由于自蒸馏正则化从最后一个小批量。我们注意到DLB显著优于Tf-KD [37]和PS-KD [12]。它展示了DLB推广CNN的性能优势。此外，来自最后一个小批次的相同教师提供动态更新的平滑标签，其比预先训练的教师或最后一个时期备份更好地适应训练过程。因此，DLB可以有效地作为一种通用的正则化来正常训练神经网络。4.3. 与增强垫块的以前的工作声称数据增强和扩展提供了正交改进[22]。为了评估DLB与基于数据增强的正则化的兼容性，我们将我们的方法与CIFAR-10/ 100上的CutMix[38]，CutOut [6]和DDGSD [35切出。CutOut在训练样本中随机掩蔽一个正方形区域[6]，我们将孔的数量设置为1，孔的大小设置为16。DLB与CutOut的结合是直接的.如表3所示，DLB可以在CIFAR-10上将CutOut逐步提高0.45%至1.14%，在CIFAR-100上提高0.84%至2.74%。性能增强略高于基线上的性能增强。这表明DLB与CutOut一起工作。CutMix。CutMix在一个小批量中随机剪切和粘贴补丁以进行正则化，在这里我们遵循addi-11950--联系我们常规超参数设置作为其原始工作[38]，即，β = 1 forbeta distribution and augmentation proba- bility p = 0. 5.CutMix在CIFAR-10和CIFAR-100上分别将基线改善了约0.52%和1.48%。我们将CutMix插入到我们的方法中，对一批被相同的Cut-Mix操作扭曲的图像进行自蒸馏。这导致CIFAR-10和CIFAR-100分别增加了0.42%和1.02%。DDGSD。DDGSD是一种自升华方案，挖掘相同图像的不同失真版本之间的一致性[35]。我们通过从不同的增强版本中提取两个预测的最后一个小批，将DLB插入 DDGSD 。如表 3 所示， DLB 的性能略优于DDSGD。此外，将DLB与DDSGD组合可以获得可观察到的改进。讨论我们的经验表明，DLB和增广正则化正交工作。更具体地说，可以通过梳齿来实现额外的性能增益，在1、 2、 3、 4、 5、 10、 20范围内评估ResNet-32、Vgg-16 在CIFAR-100上的性能如图4（a）所示，DLB在温度τ=3时实现了最低的错误率性能对α的依赖性如图4（b）所示，τ=3固定我们观察到当α在[0. 五二0]。4.6.消融研究我们去除了最后一批蒸馏损失，仅保留了CIFAR上消融的交叉熵损失。100.具体来说，ResNet-32获得了28分。01%测试top-1错误率，表现略好于基线（28. 26%）。然而，这比我们的DLB（26。00%）。这些发现表明，在-包括蒸馏损失以及我们方法的有效性表4报告了所有型号的详细消融结果。表4. CIFAR-100的消融研究使用基于增强的正则化的DLB这些发现表明使用DLB作为插入式正则化可以增强其他方法的生成。4.4. 对数据损坏的在本节中，我们将尝试通过经验性地探索DLB在损坏设置上的正则化效果来理解DLB是如何工作的。预计DLB将加强训练的稳定性和一致性。DLB的优点是它的实现和并行化简单此外，DLB网络删除（4）中的基线丢失所有设置期望增强目标神经网络的鲁棒性，特别是在噪声数据中。通过减轻对标签噪声的过度拟合，它导致对损坏数据的更强容忍度[16]。为了证明这一说法，我们通过以不同的速率p随机注入对称标签噪声来保持实验设置与以前的作品[1，20，42]一致0的情况。1，0。2，0。3，0。四，零。5，0。6至CIFAR-100/ CIFAR-10、训练前的准备同时，测试集保持清洁。在图2（a）-（b）中，我们可以观察到稳定的性能-对不同模型的改进。例如，在CIFAR-100中，在p = 0时，DLB使基线改善了2.38%。p = 0时为4.44%。6.随着标签噪声率p的提高，泛化的改善越来越高。这些观察结果表明，DLB可以有效地减轻神经网络以适应标签噪声，并改善整体性能。Vgg-16、Vgg-19、WideResNet、DenseNet的训练性能如图3所示。4.5. 超参数的影响为了分析DLB中的两个超参数的影响，即方程中的温度τ（4）方程中的平衡系数α（5）进行了对照实验。首先，我们将α固定为1，并将τ赋予不同的值5. 局限性和结论在这项研究中，我们引入了一个有效的自蒸馏机制的一致性正则化。在没有复杂的预先训练的教师模型或同伴学生集合的情况下，我们的方法（DLB）在重新排列采样序列后，在先前的迭代中提取动态生成的平滑标签。DLB通过施加训练一致性来调节网络，这在数据损坏设置下进一步放大。因此，它提高了对标签噪声的鲁棒性。在三个基准数据集上的实验结果表明，我们的方法可以始终优于最先进的自蒸馏机制。此外，DLB作为一种通用的正则化方法，与增强技术结合使用，带来了额外的性能增益。然而，由于计算资源的限制，我们没有评估大规模数据集（如ImageNet）的性能此外，由于我们的方法依赖于软标签之间的知识传输，因此在本文中，我们主要关注分类，这将产生扩展到其他任务的另一个未来方向。语义分割、目标检测。VGG-1626.37±0.1925.45±0.1323.88±0.06VGG-1927.16±0.4225.73±0.2824.53±0.13ResNet-3228.26±0.1828.01±0.0226.00±0.03ResNet-11023.64±0.2522.65±0.2321.82±0.19公司简介DenseNet-40-1222.42±0.2328.31±0.3521.18±0.0128.30±0.2420.79±0.3327.48±0.2111951引用[1] 埃里克·阿拉索，迭戈·奥尔特戈，保罗·阿尔伯特，诺埃尔·无监督标签噪声建模和损失校正。国际机器学习会议，第312-321页。PMLR，2019年。8[2] 克里斯蒂安·布西卢·阿齐尔、里奇·卡鲁阿纳和阿尔·埃克山德鲁·尼古列斯库-米齐尔。模型压缩。在Proceedingsof the 12th ACM SIGKDD international conference onKnowledge discovery and data mining，pages 535-541，2006中。第1、3条[3] 陈德芳，梅建平，王灿，闫峰，陈春。与不同的同行进行在线知识蒸馏。在AAAI人工智能会议论文集，第34卷，第3430-3437页，2020年。一、三、五[4] 艾略特·J·克劳利，加文·格雷，阿莫斯·J·斯托奇。月光：用廉价的回旋蒸馏。在NeurIPS，第2893-2903页第1、3条[5] 邓翔和张忠飞。回顾学习。 arXiv 预印本 arXiv ：2012.13098，2020。2[6] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。六、七[7] TommasoFurlanello 、 ZacharyLipton 、 MichaelTschannen、Laurent Itti和Anima Anandkumar。再生神经网络。国际机器学习会议，第1607-1616页。PMLR，2018。1[8] Qiushan Guo ， Xinjiang Wang ， Yichao Wu ， ZhipengYu，Ding Liang，Xiaolin Hu，and Ping Luo.通过协作学习在线知识的提炼.在IEEE/CVF计算机视觉和模式识别会议论文集，第11020-11029页，2020年。1[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。二、四、五[10] 乔·弗·瑞·辛顿，奥里尔·维尼亚斯，杰夫·迪恩。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。一、三、四[11] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别集，第4700二、五[12] Kyungyul Kim 、 ByeongMoon Ji 、 Doyoung Yoon 和Sangheum Hwang。自我知识的升华与目标的逐步细化。在IEEE/CVF计算机视觉国际会议论文集，第6567-6576页，2021年。二三四六七[13] Alex Krizhevsky等人从微小的图像中学习多层特征。2009. 二、四[14] 徐澜，朱夏天，龚少刚。通过即时本地集成进行知识蒸馏。arXiv预印本arXiv：1806.04606，2018。第1、3条[15] Hankook Lee，Sung Ju Hwang，and Jinwoo Shin.通过输入转换的自监督标签增强。国际机器学习会议，第5714-5724页。PMLR，2020年。3[16] 刘梦晨，刘诗霞，苏航，曹克蕾，朱军。分析了深度神经网络的噪声鲁棒性。2018年IEEE视觉分析科学与技术会议（VAST），第60-71页IEEE，2018年。8[17] 栾云腾，赵涵宇，杨志，戴亚飞。MSD：通过深度神经网络中的多分类器进行多自蒸馏学习。arXiv预印本arXiv：1911.09418，2019。3[18] Le Thanh Nguyen-Meidine，Atif Belal，Madhu Kiran，Jose Dolz，Louis-Antoine Blais-Morin，and Eric Granger.通过知识蒸馏的非监督多目标域适应。在IEEE/CVF计算机视觉应用冬季会议论文集，第1339第1、3条[19] Mary Phuong和Christoph H Lampert。基于蒸馏的多出口架构培训。在IEEE/CVF计算机视觉国际会议论文集，第1355-1364页，2019年。1[20] Scott Reed 、 Honglak Lee 、 Dragomir Anguelov 、ChristianSzegedy、DumitruErhan和And

下载后可阅读完整内容，剩余1页未读，立即下载