通过标签平滑正则化重新审视无教师知识蒸馏

167 浏览量更新于2023-10-23 收藏 12.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Li Yuan1Francis EH Tay1Guilin Li2Tao Wang1Jiashi Feng139030通过标签平滑正则化重新审视知识蒸馏01 新加坡国立大学 2 华为诺亚方舟实验室 { ylustcnus, twangnh } @gmail.com, {mpetayeh,elefjia } @nus.edu.sg, guilinli2@huawei.com0摘要0知识蒸馏（KD）旨在将庞大的教师模型的知识蒸馏到轻量级的学生模型中。其成功通常归因于教师模型提供的类别相似性的特权信息，因此在实践中只有强大的教师模型才能教授较弱的学生。在这项工作中，我们通过以下实验观察挑战了这种普遍观念：1）除了教师可以改进学生的认识之外，学生也可以通过反转知识蒸馏过程显著提升教师；2）一个准确率远低于学生的训练不良的教师仍然可以显著提升后者。为了解释这些观察结果，我们对知识蒸馏和标签平滑正则化之间的关系进行了理论分析。我们证明了：1）知识蒸馏是一种学习到的标签平滑正则化；2）标签平滑正则化为知识蒸馏提供了一个虚拟的教师模型。基于这些结果，我们认为知识蒸馏的成功不仅仅是因为教师提供的类别相似性信息，同样重要甚至更重要的是软目标的正则化。基于这些分析，我们进一步提出了一种新颖的无教师知识蒸馏（Tf-KD）框架，其中学生模型从自身或手动设计的正则化分布中学习。Tf-KD在没有更强大的教师模型的情况下实现了与正常KD相当的性能，而且可以直接用于训练深度神经网络，而不需要额外的计算成本。Tf-KD在ImageNet上相对于已建立的基准模型实现了高达0.65%的改进，优于标签平滑正则化。01. 引言0知识蒸馏（KD）[7]旨在将知识从一个神经网络（教师）转移到另一个神经网络（学生）。通常，教师模型具有较强的学习能力。0通过提供“软目标”，教师模型可以教授容量较低的学生模型，从而提高学生模型的性能。人们普遍认为，教师模型的软目标可以传递包含不同类别之间相似性的“暗知识”，从而增强学生模型。0在这项工作中，我们首先通过以下探索性实验来检验这种普遍观念：1）让学生模型通过传递学生的软目标来教授教师模型；2）让表现较差的训练不良的教师模型来教授学生。根据这种普遍观念，预计教师模型在从学生那里接受训练后不会显著提升，而训练不良的教师也不会显著提升学生，因为弱学生和训练不良的教师模型无法提供可靠的类别相似性信息。然而，在各种模型和数据集上进行了大量实验后，我们观察到了相反的结果：弱学生可以改进教师，而训练不良的教师也可以显著提升学生。这样有趣的结果激发了我们将知识蒸馏解释为一种正则化项的动机，并从标签平滑正则化（LSR）[16]的角度重新审视知识蒸馏，该正则化通过用平滑的标签替换独热标签来规范模型训练。0然后，我们从理论上分析了知识蒸馏和标签平滑正则化之间的关系。对于标签平滑正则化，通过将平滑标签分为两部分并检查相应的损失，我们发现第一部分是基于真实分布（独热标签）和模型输出的普通交叉熵损失，而第二部分对应于提供均匀分布来教授模型的虚拟教师模型。对于知识蒸馏，通过将教师的软目标与独热真实标签相结合，我们发现知识蒸馏是一种学习到的标签平滑正则化，其中知识蒸馏的平滑分布来自教师模型，而标签平滑正则化的平滑分布是手动设计的。简而言之，我们发现知识蒸馏是一种学习到的标签平滑正则化，而标签平滑正则化是一种特定的知识蒸馏。这样的关系可以解释上述反直觉的结果-来自弱学生和训练不良的教师模型的软目标可以有效地改进模型。39040即使它们缺乏类别之间的强相似性信息，也可以通过正则化模型训练。因此，我们认为类别之间的相似性信息不能完全解释知识蒸馏中的暗知识，而来自教师模型的软目标确实为学生模型提供了有效的正则化，这同样或甚至更重要。基于这些分析，我们推测，即使从教师模型中获得的类别之间的相似性信息不可靠甚至为零，知识蒸馏仍然能够改进学生模型。因此，我们提出了一种新颖的无教师知识蒸馏（Tf-KD）框架，有两种实现方法。第一种方法是让学生模型自己进行训练（即自我训练），第二种方法是手动设计一个目标分布作为具有100％准确率的虚拟教师模型。第一种方法的动机是用模型自身的预测替代暗知识，第二种方法受到知识蒸馏和标签平滑正则化之间关系的启发。通过大量实验证实，Tf-KD的这两种实现方法都简单而有效。特别是在没有虚拟教师中的相似性信息的第二种实现中，Tf-KD仍然能够达到与常规知识蒸馏相当的性能，这清楚地证明了：0暗知识不仅包括类别之间的相似性，还对学生训练施加了正则化。0Tf-KD适用于学生模型过于强大而无法找到教师模型或训练教师模型的计算资源有限的场景。例如，如果我们将笨重的单模型ResNeXt101-32×8d[18]作为学生模型（在ImageNet上具有8879万个参数和16.51GFLOPs），训练一个更强大的教师模型将是困难或计算昂贵的。我们部署了虚拟教师来教授这个强大的学生，在ImageNet上实现了0.48％的改进，而没有任何额外的计算成本。同样，当我们将强大的单模型ResNeXt29-8×64d（具有3453万个参数）作为学生模型时，我们的自我训练实现在CIFAR100上实现了超过1.0％的改进（从81.03％提高到82.08％）。我们的贡献总结如下：0•通过对知识蒸馏的教师模型进行两个探索性实验，我们观察到了违反直觉的结果，这激发了我们将知识蒸馏解释为一种正则化方法。0•然后，我们提供理论分析，揭示了知识蒸馏和标签平滑正则化之间的关系。0•我们提出了无教师知识蒸馏（Tf-KD），其在性能上与常规知识蒸馏相当。0在ImageNet-2012上进行常规知识蒸馏和优于标签平滑正则化的性能。02.探索性实验和违反直觉的观察0为了检验关于知识蒸馏中暗知识的普遍观点，我们进行了两个探索性实验：01）标准的知识蒸馏是采用教师来教授一个较弱的学生。如果我们颠倒操作会怎样？根据普遍观点，教师不应该得到显著改进，因为学生太弱无法传递有效的知识。02）如果我们使用一个训练不良的教师来教学生，其性能比学生差得多，那么我们假设这不会对学生带来任何改进。例如，如果在图像分类任务中采用一个准确率仅为10％的训练不良的教师，学生将从其软目标中学习到90％的错误，因此学生不应该得到改进，甚至可能表现更差。0我们将“学生教授教师”称为反向知识蒸馏（Re-KD），将“训练不良的教师教授学生”称为有缺陷的知识蒸馏（De-KD）（图1）。我们在CIFAR10、CIFAR100和Tiny-ImageNet数据集上进行了Re-KD和De-KD实验，使用了各种神经网络。为了公平比较，所有实验都使用相同的设置，并通过70个时期的训练（总共200个时期）进行了网格搜索以获得超参数。详细的实现和实验设置请参见补充材料。02.1. 反向知识蒸馏0我们分别在三个数据集上进行了Re-KD实验。CIFAR10和CIFAR100[9]是包含10个和100个类别的自然RGB图像，每个图像的尺寸为32x32像素，而Tiny-ImageNet是ImageNet[3]的一个子集，包含200个类别，每个图像被缩小到64x64像素。为了实验的普适性，我们采用了5层普通CNN、MobileNetV2 [15]和ShuffleNetV2[10]作为学生模型，以及ResNet18、ResNet50[6]、DenseNet121 [8]和ResNeXt29-8 ×64d作为教师模型。Re-KD在这三个数据集上的结果分别给出在表1到表3中。在表1中，教师模型通过从学生那里学习得到了显著的提升，特别是对于ResNet18和ResNet50这两个教师模型。当由MobileNetV2和ShuffleNetV2进行教学时，这两个教师模型的准确率都提升了超过1.1%。我们在CIFAR10和Tiny-ImageNet上也观察到了类似的结果。当对比Re-KD时...39050（a）Normal KD0（b）反向KD0（c）有缺陷的KD0图1. （a）Normal KD框架。（b）（c）我们进行的探索性实验的图示。0（S → T）通过Normal KD（T →S）的结果来看，在大多数情况下，NormalKD取得了更好的结果。需要注意的是，Re-KD以教师的准确率作为基准准确率，这个准确率要比NormalKD高得多。然而，在某些情况下，我们发现Re-KD的表现优于NormalKD。例如，在表2中（第3行），当由MobileNetV2进行教学时，学生模型（普通CNN）只能提升0.31%，但教师模型（MobileNetV2）通过从学生那里学习可以提升0.92%。我们在ResNeXt29和ResNet18上也观察到了类似的结果（表2中的第4行）。我们认为，尽管标准的知识蒸馏可以提高学生模型在所有数据集上的性能，但优秀的教师模型也可以通过从弱学生那里学习而得到显著提升，这是通过Re-KD实验所建议的。02.2. 有缺陷的知识蒸馏0我们在CIFAR100和Tiny-ImageNet上进行了De-KD。我们采用MobileNetV2和ShuffleNetV2作为学生模型，ResNet18、ResNet50和ResNeXt29（8×64d）作为教师模型。这些训练不充分的教师模型只训练了1个epoch（ResNet18）或50个epoch（ResNet50和ResNeXt29），性能非常差。例如，ResNet18在训练1个epoch后，在CIFAR100上只能达到15.48%的准确率，在Tiny-ImageNet上只能达到9.41%的准确率；ResNet50在训练50个epoch（总共200个epoch）后，在CIFAR100上只能达到45.82%的准确率，在Tiny-ImageNet上只能达到31.01%的准确率。从表4中的CIFAR100的De-KD实验结果可以看出，即使由训练不充分的教师进行蒸馏，学生模型的性能仍然可以大幅提升。例如，当由只训练了1个epoch且准确率只有15.48%的ResNet18进行教学时，MobileNetV2和ShuffleNetV2的准确率分别提升了2.27%和1.48%（第2行）。对于准确率只有51.94%的训练不充分的ResNeXt29（第4行），我们发现ResNet18的准确率仍然可以提升1.41%，MobileNetV2的准确率提升了3.14%。从表4中的Tiny-ImageNet的De-KD实验结果可以看出，我们发现...0准确率只有9.14%的ResNet18仍然可以提升MobileNetV2的准确率1.16%。其他训练不充分的教师模型也都能在一定程度上提升学生模型的性能。为了更好地展示学生模型在由准确率不同的训练不充分的教师模型进行教学时的蒸馏准确率，我们在正常训练过程中保存了ResNet18和ResNeXt29的9个检查点。将这些检查点作为教师模型来教授MobileNetV2，我们观察到MobileNetV2总是可以通过准确率不同的训练不充分的ResNet18或ResNeXt29来提升（图2）。因此，我们可以说，即使一个训练不充分的教师模型向学生模型提供了更多的噪声logits，学生模型仍然可以得到提升。De-KD实验的结果也与常见的观点相矛盾。Re-KD和De-KD的反直觉结果使我们重新思考了知识蒸馏中的“暗知识”，我们认为它不仅仅包含相似性信息。在缺乏足够的相似性信息的情况下，一个模型仍然可以提供“暗知识”来增强其他模型。为了解释这一点，我们提出了一个合理的假设，将知识蒸馏视为模型正则化，并研究了“暗知识”中的附加信息与标签平滑正则化之间的关系，以解释Re-KD和De-KD的实验结果。03. 知识蒸馏和标签平滑正则化0我们对知识蒸馏（KD）和标签平滑正则化（LSR）之间的关系进行了数学分析，希望解释第2节中探索性实验的有趣结果。给定一个要训练的神经网络S，我们首先给出S的LSR损失函数。对于每个训练样例x，S输出每个标签k ∈{1...K}的概率：p(k|x) = softmax(zk) = exp(zk) / ΣK i=1exp(zi)，其中zi是神经网络S的逻辑值。地面̸q′(k) = (1 − α)q(k) + αu(k),(1)39060表1. CIFAR100上的正常KD和Re-KD实验结果。我们报告了3次运行的平均 ±标准差（%）。括号中的数字表示相对于基准线的增加的准确率（T：教师，S：学生）。0教师：基准线学生：基准线正常KD（T → S） Re-KD（S → T）0ResNet18: 75.87 MobileNetV2: 68.38 71.05 ± 0.16 (+2.67) 77.28 ± 0.28 (+1.41)0ShuffleNetV2: 70.34 72.05 ± 0.13 (+1.71) 77.35 ± 0.32 (+1.48)0ResNet50: 78.16 MobileNetV2: 68.38 71.04 ± 0.20 (+2.66) 79.30 ± 0.11 (+1.14)0ShuffleNetV2: 70.34 72.15 ± 0.18 (+1.81) 79.43 ± 0.39 (+1.27)0DenseNet121: 79.04 MobileNetV2: 68.38 71.29 ± 0.23 (+2.91) 79.55 ± 0.11 (+0.51)0ShuffleNetV2: 70.34 72.32 ± 0.25 (+1.98) 79.83 ± 0.05 (+0.79)0ResNeXt29: 81.03 MobileNetV2: 68.38 71.65 ± 0.41 (+3.27) 81.53 ± 0.14 (+0.50)0ResNet18: 75.87 77.84 ± 0.15 (+1.97) 81.62 ± 0.22 (+0.59)0表2. CIFAR10上的Re-KD实验结果（准确率，平均 ± 标准差，%）。0教师：基准线学生：基准线正常KD（T → S） Re-KD（S → T）0ResNet18: 95.12 Plain CNN: 87.14 87.67 ± 0.17 (+0.53) 95.33 ± 0.12 (+0.21)0MobileNetV2: 90.98 91.69 ± 0.14 (+0.71) 95.71 ± 0.11 (+0.59)0MobileNetV2: 90.98 Plain CNN: 87.14 87.45 ± 0.18 (+0.31) 91.81 ± 0.23 (+0.92)0ResNeXt29: 95.76 ResNet18: 95.12 95.80 ± 0.13 (+0.68) 96.49 ± 0.15 (+0.73)0表3. Tiny-ImageNet上的Re-KD实验结果（准确率，%）。0教师：基准线学生：基准线正常KD（T → S） Re-KD（S → T）0ResNet18: 63.44 MobileNetV2: 55.06 56.70 (+1.64) 64.12 (+0.68)0ShuffleNetV2: 60.51 61.19 (+0.68) 64.35 (+0.91)0ResNet50: 67.470MobileNetV2: 55.06 56.02 (+0.96) 67.68 (+0.21)0ShuffleNetV2: 60.51 60.79 (+0.28) 67.62 (+0.15)0ResNet18: 63.44 64.23 (+0.79) 67.89 (+0.42)0表4. 两个数据集上的De-KD准确率（%）。Pt-Teacher是“训练不充分的教师”。参考表1至表3中“正常KD”中由“充分训练的教师”教授的学生的准确率。0数据集 Pt-Teacher: 基准线学生: 基准线 De-KD0CIFAR1000ResNet18: 15.48 MobileNetV2: 68.38 70.65 ± 0.35 (+2.27)0ShuffleNetV2: 70.34 71.82 ± 0.11 (+1.48)0ResNet50: 45.820MobileNetV2: 68.38 71.45 ± 0.23 (+3.09)0ShuffleNetV2: 70.34 72.11 ± 0.09 (+1.77)0ResNet18: 75.87 77.23 ± 0.11 (+1.23)0ResNeXt29: 51.940MobileNetV2: 68.38 71.52 ± 0.27 (+3.14)0ShuffleNetV2: 70.34 72.26 ± 0.36 (+1.92)0ResNet18: 75.87 77.28 ± 0.17 (+1.41)0Tiny-ImageNet0ResNet18: 9.41 MobileNetV2: 55.06 56.22 (+1.16)0ShuffleNetV2: 60.51 60.66 (+0.15)0ResNet50: 31.01 MobileNetV2:55.06 56.02 (+0.96)0ShuffleNetV2: 60.51 61.09 (+0.58)0标签上的真实分布是 q(k|x)。为了简化，我们将 p(k|x) 写作p(k)，将 q(k|x) 写作 q(k)。模型 S可以通过最小化交叉熵损失进行训练：H(q, p) = - ΣK k=1q(k)log(p(k))。对于单个真实标签 y，q(y|x) = 1，对于所有k ≠ y，q(k|x) = 0。0在LSR中，它最小化了修改后的标签分布q′（k）和网络输出p（k）之间的交叉熵，其中0q ′ ( k ) 为平滑的标签分布，定义为0这是q（k）和固定分布u（k）的混合物，权重为α。通常，u（k）是均匀分布，如u（k）=1/K。在平滑标签上定义的交叉熵损失H（q′，p）为H(q′, p) = −K�k=1q′(k) log p(k) = (1 − α)H(q, p) + αH(u, p)LLS = (1 − α)H(q, p) + αDKL(u, p).(3)LKD = (1 − α)H(q, p) + αDKL(ptτ, pτ).(4)LKD = (1 − α)H(q, p) + α(DKL(ptτ, pτ) + H(ptτ))˜qt(k) = (1 − α)q(k) + αpt(k).(6)39070（a）ResNet180（b）ResNeXt290图2. 使用不同准确率的ResNet18和ResNeXt29教授MobileNetV2在CIFAR100上的结果。与基线（红线）相比，MobileNetV2通过不同的训练不良的教师进行了增强。两条蓝线的最终点是由“完全训练的教师”教授的结果。0= (1 − α ) H ( q, p ) + α ( D KL ( u, p ) + H ( u )) , (2)其中DKL是Kullback-Leibler散度（KL散度），H（u）表示u的熵，对于固定的均匀分布u（k）是一个常数。因此，标签平滑对模型S的损失函数可以写成0对于知识蒸馏，教师-学生学习机制被应用于提高学生的性能。我们假设学生是具有输出预测p（k）的模型S，教师网络的输出预测是p t τ（k）= softmax（z t k）= exp（z t k/τ）/ K i =1 exp（z t i /τ），其中z t0是教师网络的输出logits，τ是用于软化pt（k）的温度（写作p tτ（k））。知识蒸馏的思想是通过最小化学生和教师预测之间的交叉熵损失和KL散度，让学生（模型S）模仿教师的行为0将方程（3）和方程（4）进行比较，我们发现这两个损失函数具有相似的形式。唯一的区别在于D KL（p t τ，pτ）中的p t τ（k）是来自教师模型的分布，而DKL（u，p）中的u（k）是预先定义的均匀分布。从这个角度来看，我们可以将知识蒸馏视为LSR的一种特殊情况，其中平滑分布是学习而不是预先定义的。另一方面，如果我们将正则化项DKL（u，p）视为知识蒸馏的虚拟教师模型，这个教师模型将给所有类别一个均匀的概率，意味着它具有随机的准确性（CIFAR100的准确率为1％，ImageNet的准确率为0.1％）。由于D KL（p t τ，p τ）= H（p t τ，p τ）− H（p tτ），其中熵H（p t τ）对于固定的教师模型是常数，我们0我们可以将方程（4）重新表述为0= (1 − α ) H ( q, p ) + αH ( p t τ , p τ ) . (5)如果我们设置温度τ = 1，我们有L KD = H（˜ qt，p），其中˜ q t 是0如果我们将方程（6）与方程（1）进行比较，可以更清楚地看出KD是LSR的一种特殊情况。此外，分布pt（k）是一个学习的分布（来自训练有素的教师），而不是均匀分布u（k）。我们在补充材料中可视化了教师的输出概率pt（k）并将其与标签平滑进行了比较，发现在较高的温度τ下，pt（k）更类似于标签平滑的均匀分布u（k）。根据这两个损失函数的比较，我们总结了知识蒸馏和标签平滑正则化之间的关系如下：0•知识蒸馏是一种学习的标签平滑正则化方法，与后者具有类似的功能，即对模型的分类器层进行正则化。0•标签平滑是一种特定的知识蒸馏方法，可以看作是具有随机准确率和温度 τ = 1 的教师模型。0•温度越高，知识蒸馏中教师的软目标分布越接近标签平滑的均匀分布。0因此，Re-KD和De-KD的实验结果可以解释为模型在高温度下的软目标更接近于标签平滑的均匀分布，学习到的软目标可以为教师模型提供正则化。这就是为什么学生可以增强教师模型，而训练不良的教师仍然可以改善学生模型的原因。pd(k) ≠We name this method as Teacher-free KD by manually-designed regularization, denoted as Tf-KDreg.The lossfunction isLreg = (1 − α)H(q, p) + αDKL(pdτ, pτ),(9)where τ is the temperature to soften the manually-designeddistribution pd (as pdτ after softening). We set a high tem-perature τ ≥ 20 to make this virtual teacher output a softprobability, in which way it gains the smoothing property asLSR. We visualize the distribution of the manually designedteacher in Fig. 3. As Fig. 3 shows, this manually designedteacher model outputs soft targets with 100% classiﬁca-tion accuracy, and also has the smoothing property of labelsmoothing. But the Tf-KDreg is not an over-parameterizedversion of LSR because the temperature τ ≫ 1, thus Eq. 9will not be equal to Eq. 3 when we adjust the parameters α,a or u(k).The two Teacher-free methods, Tf-KDself and Tf-KDreg, are very simple yet effective, as validated via ex-tensive experiments in the next section.5. Experiments on Tf-KDIn this section, we conduct experiments to evaluate Tf-KDself and Tf-KDreg on three datasets for image classiﬁ-cation: CIFAR100, Tiny-ImageNet and ImageNet. For faircomparisons, all experiments are conducted with the samesetting.5.1. Experiments for Self-trainingFor our Tf-KDselfand Normal KD, the hyper-parameters (temperature τ and α) are obtained by gridsearch from 70 epochs training (200 epochs), the values ofhyper-parameters are given in Supplementary Material.CIFAR100.OnCIFAR100,weusebaselinemod-els including MobileNetV2, ShufﬂeNetV2, GoogLeNet,ResNet18, DenseNet121 and ResNeXt29(8×64d).Thebaselines are trained for 200 epochs, with batch size 128.The initial learning rate is 0.1 and then divided by 5 at the390804. 无教师知识蒸馏0正如我们上面分析的，教师模型中的“暗知识”更多地是一种正则化项，而不是类别之间的相似性信息。直观地说，我们考虑用一个简单的输出分布替换教师模型的输出分布。因此，我们提出了一种新颖的无教师知识蒸馏（Tf-KD）框架，有两种实现方式。Tf-KD特别适用于没有更强大的教师模型可用的情况，或者只提供有限的计算资源的情况。第一种Tf-KD方法是自训练知识蒸馏，表示为Tf-KDself。如前所述，教师可以由学生教授，而训练不良的教师也可以增强学生。因此，当没有更强大的教师模型可用时，我们提出采用“自训练”。需要注意的是，知识蒸馏中的教师始终指的是一个更强大的模型。我们将自训练称为无教师方法，因为该模型不是具有比自身更强的学习能力的教师。我们的Tf-KDself类似于Born-again网络[4]，但有两个不同之处。我们的动机（自训练/自正则化）与Born-again网络不同；我们的方法使用模型自身的软目标作为正则化，而Born-again网络使用一组学生模型进行迭代训练。具体而言，我们首先以正常方式训练学生模型，获得预训练模型，然后使用该模型提供软标签来训练自身，如公式（4）所示。形式上，给定一个模型 S，我们将其预训练模型表示为 Sp；然后我们通过Tf-KD self来最小化 S 和 S p之间的logits的KL散度。Tf-KDself的损失函数用于训练模型 S 是0L self = (1 - α) H (q, p) + αD KL (p t τ, p τ), (7)0其中 p，p t τ 分别是 S 和 S p 的输出概率，τ 是温度，α是权重。我们的Tf-KD方法的第二种实现是手动设计一个100％准确率的教师模型。在第3节中，我们揭示了LSR是一个具有随机准确率的虚拟教师模型。因此，如果我们设计一个准确率更高的教师，我们可以假设它会给学生带来更多的改进。我们提出将KD和LSR结合起来构建一个简单的教师模型，其输出类别的分布如下：0� a if k = c，(1 - a) / (K - 1) if k ≠ c，(8)0其中 K 是类别总数，c 是正确的标签，a是正确类别的正确概率。我们始终设置 a ≥0.9，因此正确类别的概率要远高于错误类别的概率，而手动设计的教师模型对任何数据集都具有100％的准确率。0图3. 手动设计的教师（通过 τ = 20软化）在10类数据集上的分布。C6是正确的标签。作为对比，橙色柱状图是LSR的均匀分布。Table 5. Accuracy improvement comparison (in %) on CIFAR100(T: Teacher, R: ResNet, RX: ResNeXt, D: DenseNet).ModelBaselineTf-KDselfNormal KD [T]MobileNetV268.3870.96 (+2.58)+2.67 [R18]ShufﬂeNetV270.3472.23 (+1.89)+1.71 [R18]ResNet1875.8777.10 (+1.23)+1.19 [R50]GoogLeNet78.7280.17 (+1.45)+1.39 [RX29]DenseNet12179.0480.26 (+1.22)+1.15 [RX29]ResNeXt2981.0382.08 (+1.05)+1.12 [RX101]60th, 120th, 160th epoch. We use SGD optimizer with themomentum of 0.9, and weight decay is set to 5e-4.Tab. 5 shows the test accuracy of the six models. It can beseen that our Tf-KDself consistently outperforms the base-lines. For example, as a powerful model with 34.52M pa-rameters, ResNeXt29 improves itself by 1.05% with self-regularization. Even when compared to Normal KD witha superior teacher in Tab. 5 (4th column), our methodachieves comparable performance (experiment settings forTf-KD and Normal KD are the same and hyper-parametersare searched for both Tf-KDself and Normal KD). For ex-ample, with ResNet50 to teach ReseNet18, the student hasa 1.19% improvement, but our method achieves 1.23% im-provement without using any stronger teacher model. Wealso obtain similar results for MobileNetV2 by Tf-KDselfin Fig. 4.Figure 4. MobileNetV2 obtains similar improvement by self-regularization or taught by ResNet18.Tiny-ImageNet.On Tiny-ImageNet, we use baselinemodels including MobileNetV2, ShufﬂeNetV2, ResNet50,DenseNet121. They are trained for 200 epochs with batchsize bn = 128 for MobileNetV2, ShufﬂeNetV2 and bn =64 for ResNet50, DenseNet121. The initial learning rate isη = 0.1 ∗bn128 and then divided by 10 at the 60th, 120th,160th epoch. We use SGD optimizer with momentum of0.9, and weight decay is set to 5e-4. Tab. 6 shows the re-sults of Tf-KDself on Tiny-ImageNet. It can be seen thatTf-KDself consistently improves the baseline models andachieves comparable improvement with Normal KD.39090ImageNet。ImageNet-2012是用于目标分类的最大数据集之一，拥有超过130万个手动注释的图像。我们在该数据集上使用的基线模型包括0表6. Tf-KD self 在Tiny-ImageNet上的实验结果（%）。0模型基线 Tf-KD self 普通KD [T]0MobileNetV2 55.06 56.77（+1.71） +1.64 [R18]Shuf�eNetV2 60.51 61.36（+0.85） +0.68 [R18] ResNet5067.47 68.18（+0.71） +0.76 [D121] DenseNet121 68.1568.29（+0.14） +0.16 [RX29]0ResNet18、ResNet50、DenseNet121、RexNeXt101（32x8d），我们采用Pytorch的官方实现来训练它们。我们为ResNet18、ResNet50、DenseNet121设置批量大小bn =512，为RexNeXt101设置批量大小bn = 256。遵循常见的实验设置[5]，初始学习率为η= 0.1 * bn0256，然后在第30、60、80个epoch时总共90个epoch将其除以10。我们使用带有0.9动量的SGD优化器，权重衰减为1e-4。结果报告在表7中。我们可以看到，自训练可以进一步提高ImageNet-2012上的基线性能。作为对比，我们还使用DenseNet121教授ResNet18在ImageNet上，ResNet18获得了0.56%的改进，与我们的Tf-KDself相当（表8）。0表7. Tf-KD self 在ImageNet上的实验结果（Top1准确率，%）。0模型基线 Tf-KD self0ResNet18 69.84 70.42（+0.58）ResNet50 75.77 76.41（+0.64）DenseNet121 75.28 75.72（+0.44）ResNeXt101 79.28 79.56（+0.28）0表8. Tf-KD self和普通KD在ImageNet上的比较（Top1准确率，%）。0模型基线 Tf-KD self 普通KD [T]0ResNet18 69.84 70.42（+0.58） 70.40（+0.56） [D121]05.2. 手动设计的正则化实验0对于所有的Tf-KD reg实验，我们采用与Tf-KDself相同的实现设置，只是使用虚拟输出分布作为正则化项（公式（9））。为了公平比较，普通KD和Tf-KDreg的实验设置是相同的。有关Tf-KDreg的超参数，请参阅补充材料。0CIFAR100和Tiny-ImageNet。对于CIFAR100和Tiny-ImageNet上的Tf-KD reg实验，我们将正确类别的概率设置为a=0.99（公式（8））。公式（9）中的温度τ和α对于不同的基线模型是不同的（详见补充材料）。从表9和表10可以看出，在没有使用教师模型，只添加了正则化项的情况下，Tf-KDreg在CIFAR100和Tiny-ImageNet上实现了与普通KD相当的性能。0ImageNet。对于ImageNet上的Tf-KDreg，我们采

下载后可阅读完整内容，剩余1页未读，立即下载