没有合适的资源?快使用搜索试试~ 我知道了~
DogBirdPlaneCatDogBirdPlaneCatGround truth: WomanGround truth: OtterCross-entropyCS-KD (ours)Cross-entropyCS-KD (ours)TableBoyManChairWoman1.76%2.85%6.34%11.43%76.27%SealOtterBeaverRaccoonMouse1.05%1.40%1.89%25.05%46.07%GirlWomanBoyBabyMan2.79%2.92%5.28%38.20%43.03%RaccoonOtterSealFlatfishPorcupine0.00%0.09%0.23%0.34%99.28%1138760通过自知识蒸馏对类别预测进行正则化0Sukmin Yun 1 � Jongjin Park 1 � Kimin Lee 2 † Jinwoo Shin 101 韩国科学技术高级研究院,韩国 2加利福尼亚大学伯克利分校,美国0{ sukmin.yun, jongjin.park, jinwoos } @kaist.ac.kr kiminlee@berkeley.edu0摘要0具有数百万参数的深度神经网络可能由于过拟合而导致泛化能力差。为了缓解这个问题,我们提出了一种新的正则化方法,惩罚相似样本之间的预测分布。特别地,在训练过程中,我们蒸馏了相同标签的不同样本之间的预测分布。这样可以通过强制单个网络(即自知识蒸馏)产生更有意义和一致的预测来正则化暗知识(即错误预测的知识)。因此,它可以减少过度自信的预测并减小类内变异。我们在各种图像分类任务上的实验结果表明,这种简单而强大的方法不仅可以显著提高现代卷积神经网络的泛化能力,还可以提高其校准性能。01. 引言0深度神经网络(DNNs)在许多计算机视觉任务上取得了最先进的性能,例如图像分类[19]、生成[4]和分割[18]。随着训练数据集的规模增加,DNNs的规模(即参数数量)也会增加以有效处理如此大的数据集。然而,具有数百万参数的网络可能会出现过拟合问题,导致泛化能力差[36,55]。为了解决这个问题,文献中已经研究了许多正则化策略:早停止[3]、L1/L2正则化[35]、dropout[42]、批归一化[40]和数据增强[8]。正则化DNNs的预测分布可能是有效的,因为它包含了模型最简洁的知识。在这方面,文献中提出了几种策略,如标签平滑[32, 43]、熵最大化[13,36]和基于角度边界的方法[5,58]。它们在解决网络校准[16]、新颖性检测[27]和强化学习中的探索[17]等相关问题方面也具有影响力。在本文中,我们专注于开发一种利用深度模型中的暗知识概念的新输出正则化器,即DNNs的错误预测知识。它的重要性首先由所谓的知识蒸馏(KD)[22]证明,并在许多后续工作中进行了研究[1, 39, 41, 54]。而相关工作[15,21]使用知识蒸馏将教师网络学到的暗知识传递给学生网络,我们在训练单个网络时对暗知识本身进行正则化,即自知识蒸馏[53,57]。具体而言,我们提出了一种新的正则化技术,称为类别自知识蒸馏(CS-KD),它匹配或蒸馏了DNNs在相同标签的不同样本之间的预测分布,如图1(a)所示。人们可以预期,0� 相等贡献 † 作者在KAIST期间完成了这项工作0前向后向0匹配0共享权重0(a) 我们正则化方案的概述0(b) 被错误分类的样本的前5个softmax得分0图1. (a) 类别自知识蒸馏(CS-KD)的示意图。 (b)对于被错误分类的样本的预测分布。我们使用在CIFAR-100数据集上训练的PreActResNet-18。对于被错误分类的样本,通过使用类别正则化训练DNNs,可以增加其真实类别的softmax得分。0相关工作[15,21]使用知识蒸馏将教师网络学到的暗知识传递给学生网络,我们在训练单个网络时对暗知识本身进行正则化,即自知识蒸馏[53,57]。具体而言,我们提出了一种新的正则化技术,称为类别自知识蒸馏(CS-KD),它匹配或蒸馏了DNNs在相同标签的不同样本之间的预测分布,如图1(a)所示。人们可以预期,0200400600800050100150200250In this section, we introduce a new regularization tech-nique named class-wise self-knowledge distillation (CS-KD). Throughout this paper, we focus on fully-supervisedclassification tasks and denote x ∈ X as input and y ∈ Y ={1, ..., C} as its ground-truth label. Suppose that a softmaxclassifier is used to model a posterior predictive distribution,i.e., given the input x, the predictive distribution is:138770交叉熵 CS-KD(我们的)0样本数量0对数概率0−3 −2 −1 00(a) 错误分类样本上预测标签的对数概率0交叉熵 CS-KD(我们的)0样本数量0对数概率0−25 −20 −15 −10 −5 00(b) 错误分类样本上真实标签的对数概率0图2. (a) 通过交叉熵(基准)和CS-KD训练的网络在CIFAR-100上对错误分类样本的预测标签的对数概率直方图,即top-1softmax得分,以及(b)对错误分类样本的真实标签的对数概率。网络在PreAct ResNet-18上进行训练。0我们预计,所提出的正则化方法会迫使DNN在样本属于同一类别时产生相似的错误预测,而传统的交叉熵损失不考虑预测分布的一致性。此外,它可以同时实现两个期望的目标:防止过度自信的预测和减少类内变异。我们指出,文献中已经通过不同的方法研究了这两个目标,即熵正则化[13,32, 36, 43]和基于边界的方法[5,58],而我们使用一个单一的原则同时实现了这两个目标。我们使用深度卷积神经网络(如ResNet [19]和DenseNet[23])在各种数据集上进行图像分类任务的训练,包括CIFAR-100 [26],TinyImageNet 1,CUB-200-2011[46],Stanford Dogs [25],MIT67 [38]和ImageNet[10]。在我们的实验中,我们的方法的top-1错误率始终低于先前的输出正则化方法,如基于角度边界的方法[5,58]和熵正则化[13, 32, 36,43]。特别是,在top-5错误率和期望的校准错误[16]方面,增益往往更大,这证实了我们的方法确实使预测分布更有意义。我们还发现,我们的方法的top-1错误率总体上低于最近的自我蒸馏方法[53,57]。此外,我们还通过将我们的方法与其他类型的正则化方法结合来提高性能,例如Mixup正则化[56]和原始的KD方法[22]。例如,我们使用CUB-200-2011数据集在ResNet-18和ResNet-10下,将Mixup的top-1错误率从37.09%降低到30.71%,将KD的top-1错误率从39.32%降低到34.47%。我们指出,像我们这样使用一致性正则化器的想法已经在文献中进行了研究[2, 7, 24, 31, 37, 44,53]。尽管大多数先前的方法提出将原始和扰动输入的输出分布正则化为相似,但我们的方法强制同一类别的不同样本之间的一致性。据我们所知,没有已知的工作研究过这样的逐类别正则化。我们相信,所提出的方法可能对其他应用有广泛的影响,例如人脸识别[11, 58]和图像检索[45]。01 https://tiny-imagenet.herokuapp.com/0初始化参数 θ。当 θ未收敛时,从训练数据集中随机抽取一个批次 ( x , y)。从训练数据集中随机抽取另一个具有相同标签 y 的批次x'。通过计算提出的损失函数 L CS - KD ( x , x' , y ; θ, T )的梯度来更新参数 θ。结束循环。0算法1 逐类别的自我知识蒸馏0在本节中,我们介绍了一种名为逐类别自我知识蒸馏(CS-KD)的新的正则化技术。在本文中,我们专注于完全监督的分类任务,将输入 x ∈ X表示为输入,将其地面真实标签表示为 y ∈ Y = {1, ...,C}。假设使用softmax分类器来建模后验预测分布,即给定输入 x,预测分布为:02. 逐类别的自我知识蒸馏0P ( y | x ; θ, T ) = exp ( f y ( x ; θ ) / T ) /C i =1 exp ( f i ( x ; θ ) / T ),0其中f i表示DNNs对类别i的逻辑回归,其由参数θ参数化,T> 0是温度缩放参数。02.1. 类别正则化0我们考虑在相同类别的样本上匹配预测分布,从模型本身中提取它们的暗知识。为此,我们提出了一种类别正则化损失,强制保持一致的预测分布。138780在同一类别中匹配预测分布。形式上,给定输入x和另一个随机抽样的具有相同标签y的输入x',定义如下:0L cls ( x , x ′ ; θ, T ) := KL [ P ( y | x ′ ; � θ, T ) || P ( y | x ;θ, T ) ],0其中KL表示Kullback-Leibler(KL)散度,�θ是参数θ的固定副本。正如Miyato等人所建议的[31],梯度不会通过�θ传播,以避免模型崩溃问题。与原始的知识蒸馏方法(KD;[22])类似,提出的损失函数L cls匹配两个预测。而原始的KD匹配两个网络中单个样本的预测,我们则是从单个网络中预测不同的样本,即自我知识蒸馏。换句话说,总的训练损失L CS - KD定义如下:0L CS - KD ( x , x ′ , y ; θ, T ) := L CE ( x , y ; θ )0+ λ cls ∙ T 2 ∙ L cls ( x , x ′ ; θ, T ),(1)0其中L CE是标准的交叉熵损失,λ cls >0是类别正则化的损失权重。注意,我们通过跟随原始的KD[22]将温度T的平方乘以。使用提出的损失函数L CS -KD的完整训练过程总结在算法1中。02.2. 类别正则化的效果0提出的CS-KD可以说是实现两个目标的最简单方法,即通过单一机制防止过度自信的预测和减少类内变化。为了避免过度自信的预测,它利用其他样本的模型预测作为软标签。这比标签平滑方法[32,43]更加“真实”,后者生成“人工”的软标签。此外,我们直接最小化同一类别内两个逻辑回归之间的距离,从而减少类内变化。我们还研究了提出的方法是否强制DNN产生有意义的预测。为此,我们分析了在CIFAR-100数据集上使用标准交叉熵损失和提出的CS-KD损失训练的PreActResNet-18 [20]的softmax分数中的预测值,即P ( y | x)。具体而言,我们分析了CIFAR-100数据集中两个具体的误分类样本的预测。如图1(b)所示,CS-KD不仅放松了过度自信的预测,还增强了与真实类别相关的类别的预测值。这意味着CS-KD通过强制DNN在相似的输入上产生类似的预测来产生有意义的预测。为了评估预测质量,我们还报告了在交叉熵和我们的方法都常常误分类的样本上预测类别和真实类别的对数概率。如图2(a)所示,我们的方法产生了更少的过度自信预测。0与交叉熵方法相比,我们的方法在误分类样本上能够提供更加自信的预测。有趣的是,我们的方法能够增加误分类样本的真实得分,如图2(b)所示。在我们的实验中,我们发现通过强制DNN产生这样有意义的预测,可以提高分类准确率和校准效果(见第3.2节和第3.4节)。03. 实验03.1. 实验设置0数据集。为了展示我们的方法在数据多样性的一般情况下的效果,我们考虑了各种图像分类任务,包括传统分类和细粒度分类任务。具体而言,我们使用CIFAR-100[26]和TinyImageNet3数据集进行传统分类任务,使用CUB-200-2011[46]、Stanford Dogs [25]和MIT67[38]数据集进行细粒度分类任务。细粒度图像分类任务具有视觉上相似的类别,并且每个类别的训练样本较传统分类任务少。ImageNet [10]用于大规模分类任务。0网络架构。我们考虑了两种最先进的卷积神经网络架构:ResNet [19]和DenseNet[23]。我们使用标准的ResNet-18,具有64个滤波器,以及DenseNet-121,生长率为32,用于图像尺寸为224×224。对于CIFAR-100和TinyImageNet,我们使用PreActResNet-18[20],它修改了第一个卷积层4,卷积核大小为3×3,步长为1,填充为1,而不是卷积核大小为7×7,步长为2,填充为3,用于图像尺寸为32×32,参考[56]。我们使用DenseNet-BC结构[23],网络的第一个卷积层也以与PreActResNet-18相同的方式进行修改,用于图像尺寸为32×32。0超参数。所有网络都从头开始训练,并通过随机梯度下降(SGD)进行优化,动量为0.9,权重衰减为0.0001,初始学习率为0.1。对于所有数据集,学习率在第100和150个epoch后除以10,总共训练200个epoch。我们将传统分类任务的批量大小设置为128,细粒度分类任务的批量大小设置为32。我们对ImageNet[10]使用标准的数据增强技术,即翻转和随机裁剪。对于我们的方法,温度T从{1, 4}中选择,损失权重λcls从{1, 2, 3,4}中选择。选择最佳参数以最小化验证集上的Top-1错误率。有关超参数T和λcls的更详细的消融研究,请参阅补充材料。02 代码可在 https://github.com/alinlab/cs-kd 找到。3https://tiny-imagenet.herokuapp.com/ 4我们使用了一个参考实现:https://github.com/kuangliu/pytorch-cifar。138790模型方法 CIFAR-100 TinyImageNet CUB-200-2011 Stanford Dogs MIT670ResNet-180交叉熵 24.71 ± 0.24 43.53 ± 0.19 46.00 ± 1.43 36.29 ± 0.32 44.75 ± 0.80 AdaCos 23.71 ± 0.36 42.61 ± 0.20 35.47 ± 0.07 32.66 ±0.34 42.66 ± 0.43 虚拟softmax 23.01 ± 0.42 42.41 ± 0.20 35.03 ± 0.51 31.48 ± 0.16 42.86 ± 0.71 最大熵 22.72 ± 0.29 41.77 ± 0.1339.86 ± 1.11 32.41 ± 0.20 43.36 ± 1.62 标签平滑 22.69 ± 0.28 43.09 ± 0.34 42.99 ± 0.99 35.30 ± 0.66 44.40 ± 0.71CS-KD(我们的方法) 21.99 ± 0.13 (-11.0%) 41.62 ± 0.38 (-4.4%) 33.28 ± 0.99 (-27.7%) 30.85 ± 0.28 (-15.0%) 40.45 ± 0.45(-9.6%)0DenseNet-1210交叉熵 22.23 ± 0.04 39.22 ± 0.27 42.30 ± 0.44 33.39 ± 0.17 41.79 ± 0.19 AdaCos 22.17 ± 0.24 38.76 ± 0.23 30.84 ± 0.38 27.87 ±0.65 40.25 ± 0.68 虚拟softmax 23.66 ± 0.10 41.58 ± 1.58 33.85 ± 0.75 30.55 ± 0.72 43.66 ± 0.30 最大熵 22.87 ± 0.45 38.39 ± 0.3337.51 ± 0.71 29.52 ± 0.74 43.48 ± 1.30 标签平滑 21.88 ± 0.45 38.75 ± 0.18 40.63 ± 0.24 31.39 ± 0.46 42.24 ± 1.23CS-KD(我们的方法) 21.69 ± 0.49 (-2.4%) 37.96 ± 0.09 (-3.2%) 30.83 ± 0.39 (-27.1%) 27.81 ± 0.13 (-16.7%) 40.02 ± 0.91 (-4.2%)0表1.不同图像分类任务和模型架构的Top-1错误率(%)。我们报告了三次不同随机种子运行的平均值和标准差。括号中的值表示相对于交叉熵的错误率降低,最佳结果以粗体表示。0方法 CIFAR-100 TinyImageNet CUB-200-2011 Stanford Dogs MIT670交叉熵 24.71 ± 0.24 43.53 ± 0.19 46.00 ± 1.43 36.29 ± 0.32 44.75 ± 0.80 DDGSD 23.85 ± 1.57 41.48 ± 0.12 41.17 ± 1.2831.53 ± 0.54 41.17 ± 2.46 BYOT 23.81 ± 0.11 44.02 ± 0.57 40.76 ± 0.39 34.02 ± 0.14 44.88 ± 0.46 CS-KD (我们的方法)21.99 ± 0.13 (-11.0%) 41.62 ± 0.38 (- 4.4%) 33.28 ± 0.99 (-27.7%) 30.85 ± 0.28 (-15.0%) 40.45 ± 0.45 (- 9.6%)0表2.使用自蒸馏方法的ResNet-18在各种图像分类任务上的Top-1错误率(%)。我们报告了三次不同随机种子运行的平均值和标准差。括号中的值表示相对于交叉熵的错误率减少,粗体表示最佳结果。自蒸馏方法是在我们的代码库下重新实现的。0基线方法。我们将我们的方法与之前的正则化方法进行比较,例如最先进的基于角度边界的方法[5, 58],熵正则化[13,32, 36, 43]和自蒸馏方法[53,57]。它们也像我们一样对预测分布进行正则化。0• AdaCos [ 58]。AdaCos动态缩放训练样本与相应类别中心向量之间的余弦相似度,以最大化角度边界。• Virtual-softmax [ 5]。Virtual-softmax引入了一个额外的虚拟类别,以最大化角度边界。• Maximum-entropy [ 13 , 36]。最大熵是一种典型的熵正则化方法,它最大化了预测分布的熵。• Label-smoothing [ 32 , 43]。标签平滑使用的是由独热标签和均匀分布加权平均得到的软标签。• DDGSD [ 53]。数据扭曲引导的自蒸馏(DDGSD)是一种一致性正则化技术,它强制不同数据增强版本的一致输出。• BYOT[ 57 ]。Be Your OwnTeacher(BYOT)将网络的深层知识传递给浅层网络。0评估指标。对于评估,我们测量以下指标:05我们使用了一个参考实现:https://github.com/4uiiurz1/pytorch-adacos0• Top-1 / 5错误率。Top- k错误率是测试样本中正确标签不在前 k个置信度中的比例。我们测量Top-1和Top-5错误率以评估泛化性能。0• 期望校准误差(ECE)。ECE [16,33]近似了置信度和准确率之间的期望差异。它通过将预测结果分成M个等间距的区间,并对区间的置信度和准确率之差进行加权平均来计算,即 ECE = � M m =1 | B m |0n | acc( B m ) − conf( B m ) | ,其中 n 是样本数量,B m 是置信度落入第 m 个区间的样本集合, acc( B m) , conf( B m ) 分别是 B m的准确率和平均置信度。我们使用20个区间来测量ECE,以评估模型是否能够准确表示真实的正确性。• Recall at k (R@ k )。Recall at k是在特征空间上与测试样本至少有一个相同类别的 k个最近邻的百分比。为了测量两个样本之间的距离,我们使用它们倒数第二层的池化特征的L2距离。我们比较了 k = 1 时的Recall得分,以评估学习特征的类内变化。03.2. 分类准确率0与输出正则化方法的比较。我们测量了所提出方法的Top-1错误率(%)。Cross-entropy24.71±0.2443.53±0.1946.00±1.4336.29±0.3244.75±0.80CS-KD (ours)21.99±0.1341.62±0.3833.28±0.9930.85±0.2840.45±0.45Mixup21.67±0.3441.57±0.3837.09±0.2732.54±0.0441.67±1.05Mixup + CS-KD (ours)20.40±0.3140.71±0.3230.71±0.6429.93±0.1439.65±0.85Cross-entropy26.72±0.3346.61±0.2248.36±0.6138.96±0.4044.75±0.62CS-KD (ours)25.80±0.1044.67±0.1239.12±0.0934.07±0.4641.54±0.67KD25.84±0.0743.31±0.1139.32±0.6534.23±0.4241.47±0.79KD + CS-KD (ours)25.58±0.1642.82±0.3334.47±0.1732.59±0.5040.27±0.78138800方法 CIFAR-100 TinyImageNet CUB-200-2011 Stanford Dogs MIT670表3.使用Mixup正则化的ResNet-18在各种图像分类任务上的Top-1错误率(%)。我们报告了三次不同随机种子运行的平均值和标准差,并用粗体表示最佳结果。0方法 CIFAR-100 TinyImageNet CUB-200-2011 Stanford Dogs MIT670表4.在各种图像分类任务上,使用知识蒸馏(KD)对ResNet-10(学生网络)的top-1错误率(%)。教师网络是通过CS-KD在DenseNet-121上预训练的。我们报告了三次不同随机种子运行的平均值和标准差,并用粗体表示最佳结果。0通过与Virtual-softmax、Ada-Cos、Maximum-entropy和Label-smoothing在各种图像分类任务上进行比较,我们证明了CS-KD(由CS-KD标注)的优越性。表1显示,CS-KD始终优于其他基线方法。特别是,在CUB-200-2011数据集上,CS-KD将交叉熵损失的top-1错误率从46.00%降低到33.28%。我们还观察到其他基线方法的top-1错误率通常比交叉熵损失更差,例如在MIT67和DenseNet下的Virtual-softmax、Maximum-entropy和Label-smoothing。如表6所示,CS-KD的top-5错误率优于其他正则化方法,因为它鼓励有意义的预测。特别是,在CIFAR-100数据集上,CS-KD将交叉熵损失的top-5错误率从6.91%降低到5.69%,而AdaCos的top-5错误率甚至比交叉熵损失更差。这些结果表明,我们的方法产生比其他基线方法更好的预测分布。0与自蒸馏方法的比较。我们还将我们的方法与最近提出的自蒸馏技术(如DDGSD [53]和BYOT[57])进行比较。如表2所示,CS-KD在整体上显示出更好的ResNet-18的top-1错误率。例如,CS-KD在ResNet-18上的top-1错误率为33.28%,而DDGSD和BYOT分别为41.17%和40.76%。0模型 方法 Top-1(1-crop)0ResNet-50 交叉熵 24.0CS-KD(我们的方法) 23.60ResNet-101 交叉熵 22.4CS-KD(我们的方法) 22.00ResNeXt-101-32x4d 交叉熵 21.6CS-KD(我们的方法) 21.20表5.在ImageNet数据集上,使用不同的模型架构进行90个epoch的训练,批量大小为256的top-1错误率(%)。最佳结果用粗体表示。0CUB-200-2011数据集上的top-1错误率为33.28%,而DDGSD和BYOT分别为41.17%和40.76%。所有经过测试的自蒸馏方法都利用了知识蒸馏的正则化效果。CS-KD的优越性可以通过其减少类内变异的独特效果来解释。0在大规模数据集上的评估。为了验证我们方法的可扩展性,我们在ImageNet数据集上评估了我们的方法,并使用了ResNet-50、ResNet-101和ResNeXt-101-32x4d等不同的模型架构[52]。如表5所示,我们的方法在所有测试的架构上一致地将top-1错误率提高了0.4%。这个0.4%的改进与在ResNet-101上增加51个层(即ResNet-152)[19]相当。0与其他正则化方法的兼容性。我们研究了与其他类型的正则化方法(如Mixup[56]和知识蒸馏(KD)[22])的正交使用。Mixup利用输入对和相应标签对的凸组合进行训练。我们将我们的方法与Mixup正则化相结合,将类别级别的正则化损失Lcls应用于混合输入和混合标签,而不是标准输入和标签。表3显示了我们的方法与Mixup正则化相结合的有效性。有趣的是,这个简单的想法显著提高了细粒度分类任务的性能。特别是,我们的方法将Mixup正则化的top-1错误率从37.09%降低到30.71%,其中交叉熵损失在CUB-200-2011数据集上的top-1错误率为46.00%。KD通过正则化学生网络的预测分布来学习教师网络的暗知识。我们将我们的方法与KD相结合,同时从教师和自身学习暗知识。表4显示了我们的方法实现了与KD类似的性能,尽管2.5 %1.4 %94.5 %2.3 %96.3 %3.0 %0.9 %0.5 %97.6 %0.7 %98.8 %1.5 %42.3165.9662.1129.1555.5156.02Cross-entropyCS-KD (ours)203040506070138810(a)交叉熵0(b)虚拟softmax0(c)AdaCos0(d)CS-KD(我们的方法)0图3.在CIFAR-100上使用t-SNE在PreActResNet-18的倒数第二层上可视化各种特征嵌入。所提出的方法(d)显示出最小的类内变异,从而得到最佳的Top-1错误率。00.8%鸟0室内0狗0鸟室内狗0(a)交叉熵00.2%鸟0室内0狗0鸟室内狗0(b)CS-KD(我们的方法)0CUB-200-2011斯坦福狗MIT670(c)Top-1错误率(%)0图4.在混合数据集上ResNet-18的实验结果。通过交叉熵和我们的方法训练的每个模型的层次分类准确率(%)。可以观察到,通过CS-KD训练的模型在不同领域中的混淆类别较少。(c)细粒度标签分类的Top-1错误率(%)。0我们的方法不使用额外的教师网络。此外,将我们的方法与知识蒸馏相结合,可以进一步改善我们的方法的Top-1错误率,从39.32%降低到34.47%,其中交叉熵损失在CUB-200-2011数据集上训练的ResNet-10的Top-1错误率为48.36%。这些结果表明了我们的方法的广泛适用性,可以与其他正则化方法一起使用。03.3.消融研究0特征嵌入分析。可以预期通过强制DNN产生有意义的预测,可以减少类内变异。为了验证这一点,我们通过t-SNE[30]可视化方法分析了在CIFAR-100数据集上训练的ResNet-18倒数第二层的特征嵌入。如图3所示,与其他基线方法相比,包括虚拟softmax(图3(b))和AdaCos(图3(c)),我们的方法(图3(d))显著减少了类内变异。我们还提供了度量Recall at1(R@1)的定量结果,该度量在第3.1节中出现。我们指出,R@1值越大,意味着特征嵌入中的类内变异越小。如表6所示,当ResNet-18通过我们的方法训练时,R@1值可以显著提高。特别是,在TinyImageNet数据集上,CS-KD的R@1为47.15%,而Adacos、虚拟softmax和交叉熵损失的R@1分别为44.66%、44.69%和30.59%。0层次化图像分类。通过产生更多的语义预测,即增加预测中相似类别之间的相关性,我们期望训练的分类器能够捕捉到层次(或聚类)结构。0标签空间。为了验证这一点,我们在一个混合数据集上评估了所提出的方法,该数据集包含387个细粒度标签和三个层次标签,即鸟(CUB-200-2011;200个标签)、狗(斯坦福狗;120个标签)和室内(MIT67;67个标签)。具体而言,我们随机选择每个细粒度标签的30个样本进行训练,并使用原始测试数据集进行测试。为了评估,我们训练ResNet-18对细粒度标签进行分类,并通过预测的细粒度标签的层次标签(鸟、狗或室内)来测量层次分类准确率。首先,我们提取混淆矩阵作为层次结构,其中每个元素表示层次图像分类的准确率。如图4(a)和4(b)所示,我们的方法几乎完美地捕捉到了混合数据集的层次结构,即显示出恒等混淆矩阵。特别是,在鸟层次(CUB-200-2011)中,我们的方法将层次图像分类准确率显著提高到99.3%。此外,如图4(c)所示,我们的方法还显著改善了细粒度标签分类的Top-1错误率。有趣的是,CUB-200-2011的错误率甚至低于表1中报告的错误率。这是因为该模型通过利用更多标签的暗知识学习到了额外的信息。03.4. 校准效果0在本节中,我们还评估了所提出的正则化方法的校准效果。具体来说,我们提供了可靠性图 [ 9 , 34 ],它绘制了CIFAR-100 数据集上 PreAct ResNet-18的预期样本准确率与置信度的函数关系,如图 5所示。我们指出,绘制的标识函数(虚线对角线)OptimalCross-entropyCS-KDAccuracy00.20.40.60.81.0Confidence00.20.40.60.81.0OptimalVirtual-softmaxCS-KDAccuracy00.20.40.60.81.0Confidence00.20.40.60.81.0OptimalAdaCosCS-KDAccuracy00.20.40.60.81.0Confidence00.20.40.60.81.0OptimalMaximum-entropyCS-KDAccuracy00.20.40.60.81.0Confidence00.20.40.60.81.0OptimalLabel-smoothingCS-KDAccuracy00.20.40.60.81.0Confidence00.20.40.60.81.0138820测量方法 CIFAR-100 TinyImageNet CUB-200-2011 Stanford Dogs MIT670Top-5 ↓0交叉熵 6.91 ± 0.09 22.21 ± 0.29 22.30 ± 0.68 11.80 ± 0.27 19.25 ± 0.53 AdaCos 9.99 ± 0.20 22.24 ± 0.11 15.24 ± 0.66 11.02 ± 0.22 19.05 ± 2.33 虚拟softmax 8.54 ± 0.11 24.15 ± 0.17 13.16 ± 0.20 8.64 ± 0.2119.10 ± 0.20 最大熵 7.29 ± 0.12 21.53 ± 0.50 19.80 ± 1.21 10.90 ± 0.31 20.47 ± 0.90 标签平滑 7.18 ± 0.08 20.74 ± 0.31 22.40 ± 0.85 13.41 ± 0.40 19.53 ± 0.75 CS-KD (我们的方法) 5.69 ± 0.03 19.21 ± 0.04 13.07± 0.26 8.55 ± 0.07 17.46 ± 0.38 CS-KD-E (我们的方法) 5.93 ± 0.06 19.12 ± 0.34 13.74 ± 0.91 8.57 ± 0.13 18.21 ± 0.450ECE ↓0交叉熵 15.45 ± 0.33 14.08 ± 0.76 18.39 ± 0.76 15.05 ± 0.35 17.99 ± 0.72 AdaCos 73.76 ± 0.35 55.09 ± 0.41 63.39 ± 0.06 65.38 ± 0.33 54.00 ± 0.52 虚拟softmax 8.02 ± 0.55 4.60 ± 0.67 11.68 ± 0.66 7.91 ± 0.3811.21 ± 1.00 最大熵 56.41 ± 0.36 42.68 ± 0.31 50.52 ± 1.20 51.53 ± 0.28 42.41 ± 1.74 标签平滑 13.20 ± 0.60 2.67 ± 0.48 15.70 ± 0.81 11.60 ± 0.40 8.79 ± 2.47 CS-KD (我们的方法) 5.17 ± 0.40 7.26 ± 0.93 15.44 ±0.92 10.46 ± 1.08 15.56 ± 0.29 CS-KD-E (我们的方法) 4.69 ± 0.56 3.79 ± 0.35 8.75 ± 0.49 4.70 ± 0.18 8.06 ± 1.900R@1 ↑0交叉熵 61.38 ± 0.64 30.59 ± 0.42 33.92 ± 1.70 47.51 ± 1.02 31.42 ± 1.00 AdaCos 67.95 ± 0.42 44.66 ± 0.52 54.86 ± 0.24 58.37 ± 0.43 42.39 ± 1.91 虚拟softmax 68.35 ± 0.48 44.69 ± 0.58 55.56 ± 0.74 59.71 ±0.56 44.20 ± 0.90 最大熵 71.51 ± 0.29 39.18 ± 0.79 48.66 ± 2.10 60.05 ± 0.45 38.06 ± 3.32 标签平滑 71.44 ± 0.03 34.79 ± 0.67 41.59 ± 0.94 54.48 ± 0.68 35.15 ± 1.54 CS-KD (我们的方法) 71.15 ± 0.15 47.15 ±0.40 59.06 ± 0.38 62.67 ± 0.07 46.74 ± 1.48 CS-KD-E (我们的方法) 70.57 ± 0.57 45.52 ± 0.35 58.44 ± 1.09 62.03 ± 0.30 44.82 ± 1.220表6. ResNet-18 在各种图像分类任务上的 Top-5 错误率、ECE 和 Recall at 1 (R@1)率(%)。我们将我们的方法与逐样本正则化相结合表示为CS-KD-E。评估指标右侧的箭头表示值的升序或降序。我们报告了三次使用不同随机种子运行的平均值和标准差,最佳结果以粗体表示。0(a) 交叉熵0(b) 虚拟softmax0(c) AdaCos0(d) 最大熵0(e) 标签平滑0图5. 可靠性图 [ 9 , 34 ] 显示准确率与置信度的函数关系,用于在 CIFAR-100 上训练的 PreAct ResNet-18 使用 (a) 交叉熵,(b)虚拟softmax,(c) AdaCos,(d) 最大熵 和 (e) 标签平滑。所有方法都与我们提出的方法 CS-KD 进行了比较。完美校准 [ 16 ]由虚线对角线(最优)绘制。0impl
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功