对比深度监督：深度神经网络训练新框架与Github发布的有效性实验

126 浏览量更新于2023-11-30 收藏 768KB PDF 举报

图像分类

神经网络训练

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文对比式深度监管张林峰1，陈欣2，张俊波1，董润培3，马凯生1清华大学1、英特尔公司2、Xizhang-lf19@mails.tsinghua.edu.cn抽象的。深度学习的成功通常伴随着神经网络深度的增长。然而，传统的训练方法只对神经网络的最后一层进行监督，并将监督逐层传播，导致中间层的优化困难最近，有人提出了深度监督，将辅助分类器添加到深度神经网络的中间层。通过优化这些辅助分类器与监督的任务损失，监督可以直接应用于浅层然而，深度监督与众所周知的观察相冲突，即浅层学习低级特征，而不是任务偏向的高级语义特征。为了解决这个问题，本文提出了一种名为对比深度监督的新型训练框架，该框架通过基于增强的对比学习来监督中间层。在9个常用数据集上的11个模型的实验结果表明，该方法在监督学习、半监督学习和知识提取中对一般图像分类、细粒度图像分类和目标检测都有较好的效果代码已在Github中发布。1介绍随着大规模数据集和计算资源的增长，深度神经网络已成为各种任务的最主要模型[14，52]。然而，神经网络的深度增加也给其训练过程带来了挑战。传统的监督训练方法只对最后一层进行监督，然后将误差从最后一层传播到浅层（图1（a）），这导致优化中间层（如梯度消失）的困难[29]。近日，深监管（又名：深度监督网络）已经被提出来通过直接优化中间层来解决这个问题[38]。如图1（b）所示，深度监督在不同深度的中间层中添加了几个辅助分类器。在训练阶段，这些分类器与原始最终分类器一起通过相同的训练损失（例如，分类任务的交叉熵实验和理论分析都证明了它在促进模型收敛方面的有效性[62]。然而，成功伴随着剩余的障碍。一般来说，卷积神经网络中的不同层倾向于在不同级别上学习特征通常，通讯作者arXiv：2207.05306v1 [cs.CV] 2022年7+v：mala2255获取更多论文任务无关任务偏向convConvConvFC任务损失项目proj(d)对比深度监督（我们的）任务偏向Conv ConvconvFC任务损失(a)传统监督学习任务无关Conv Convconvproj(b)对比学习对比性学习损失2L. Zhang等人任务偏向convConv ConvFC任务损失FCFCFC任务丢失(c)深度监督对比乐收益损失图1.一、四种方法的概述。“→“和“→“表示for-ward计算的路径，梯度表示bac-ward计算。“proj“和“fc“分别表示投影头和完全连接的分类器。灰色虚线指示该特征是与任务无关还是与任务有偏差。(a)传统的监督学习只对最后一层进行监督，并将其传播到前面的层，导致梯度消失。(c)深度督导既培训最后一层而中间层直接，这解决了梯度消失，但使所有层都偏向于任务。(d)我们的方法引入了对比学习来监督中间层，从而避免了这些问题。浅层学习低级特征，如颜色和边缘，而最后几层学习更高级的任务相关语义特征，如分类任务的分类知识[82]。然而，深度监督迫使浅层学习与任务相关的知识，这违背了神经网络中原始的特征提取过程。正如MSDNet[28]中所指出的，这种冲突有时会导致最终分类器的准确性下降这一观察结果表明，监督任务丢失可能不是优化中间层的最佳监督在本文中，我们认为，对比学习可以提供更好的监督的中间层比监督的任务损失。对比学习是表征学习中最流行和最有效的技术之一[7，8，34]。通常，它将来自同一图像的两个增强视为正对，而将来自不同图像的两个增强视为负对。在训练期间，神经网络被训练为最小化正对的距离，同时最大化负对的距离。因此，网络可以学习各种数据增强的不变性，例如颜色抖动和随机灰度。考虑到这些数据增强不变性通常是低级的，与任务无关的，并且可转移到各种视觉任务[3，64]，我们认为它们是中间层学习的更有益的知识。基于这些观察，我们提出了一个名为对比深度监督的新训练框架。它优化了中间层，+v：mala2255获取更多论文对比深度监督3对比学习代替传统的监督学习。如图1（d）所示，在神经网络的中间层中连接了几个投影头，并对其进行训练以执行对比学习。这些投影头可以在推理期间被丢弃，以避免额外的计算和存储。与训练中间层学习特定任务的知识的深度监督不同，我们方法中的中间层被训练来学习数据增强的不变性，这使得神经网络具有更好的泛化能力。此外，由于对比学习可以在未标记的数据上进行，因此所提出的对比深度监督也可以很容易地在半监督学习范式中扩展。此外，对比深度监督可以进一步用于提高另一种深度学习技术知识蒸馏（KD）是一种流行的模型压缩方法，旨在将知识从繁琐的教师模型转移到轻量级的学生模型[2，23，15]。最近，大量的研究发现，提取骨干特征（如注意力和关系）中的在本文中，我们证明了在对比深度监督中由中间层学习的数据增强不变性是更有益的知识。通过将对比深度监督与朴素特征提取相结合，提取后的ResNet18在ImageNet上实现了73.23%的准确率，分别比基线和第二好的KD方法高出4.02%和2.16%。在9个数据集上使用11种神经网络方法进行了广泛的实验，以评估其在一般图像分类、细粒度图像分类、监督学习中的对象检测、半监督学习和知识提取等方面的有效性，结果表明对比深度监督使神经网络能够学习更好的视觉表示。在讨论部分，我们从正则化方法的角度进一步解释了我们方法的有效性，它可以防止模型过拟合，并导致更好的不确定性估计。综上所述，本文的主要贡献可以概括如下。– 我们提出了对比深度监督，这是一种神经网络训练方法，其中中间层直接通过对比学习进行优化它使神经网络能够学习更好的视觉表示，而无需在推理过程中增加额外的参数和计算。– 本文从深度监督的角度出发，首先说明了除了任务丢失之外，中间层还可以进行监督训练。– 从表征学习的角度，我们首先证明了对比学习和监督学习可以用一个阶段的深度监督方式结合起来，而不是两个阶段的 “ 预训练 - 微调 ” 方案。– 在9个数据集、11个神经网络和11种比较方法上的实验表明，该方法在监督学习、半监督学习和知识提取中的一般分类、细粒度分类和目标检测方面都是有效的+v：mala2255获取更多论文4升。Zhang等人2相关工作2.1深度监督深度神经网络通常包含大量的层，这增加了优化的难度为了解决这个问题，深度监督网络（Deeply Supervised Net，又称深度监督网络）深度监督）被提出来直接监督深度神经网络的中间层[38]。Wang等人表明，深度监督可以缓解消失梯度问题，从而导致显着的性能改善[62]。通常，深度监督在中间层附加几个辅助分类器，并以任务损失（例如分类中的交叉熵损失）来监督这些辅助分类器。最近，已经提出了几种方法来改进知识蒸馏的深度监督，其目的是最小化最深分类器和中间层辅助分类器的预测之间的差异[55，40]。除了分类之外，大量的研究还证明了动态神经网络[78]，语义分割[81，73，51]，对象检测[39]，知识蒸馏[76]等深度监督方法的有效性。2.2对比学习在过去的几年里，对比学习已经成为表征学习中最流行的方法[74，63，32，27，68，18，60，5，24，61]。Oord等人提出对比预测编码，其目的是用自回归模型预测未来信号的低维嵌入[47]。He等人提出了MoCo，它引入了一个动态存储库来记录负样本的嵌入[19，9，11]。然后，Simplified被提出来显示大批量和长训练时间在对比学习中的重要性[7，8]。近年来，大量的研究提出了进一步研究负样本的影响。引入BYOL是为了证明即使没有负样本，对比学习也是有效的[16]。SimSiam详细研究了批量归一化、负样本、内存库和停止梯度操作的重要性[10]。除了自监督学习之外，对比学习在传统的监督学习范式中也显示出了它的强大功能。 Khosla等人通过使用标签监督构建正对，可以在ImageNet上使用Simplified中的基本对比学习实现最先进的性能[34，6]。 Park等人将对比学习应用于不成对的图像到图像的转换，这打破了循环重建的限制[48]。2.3知识蒸馏知识蒸馏，其目的是促进在过度参数化的教师模型的监督下训练轻量级学生模型，已成为模型压缩中最流行的方法之一知识蒸馏首先由Bucilua等人提出。[2]然后由Hin- ton等人扩展。[23]，他引入了温度特征的softmax来软化+v：mala2255获取更多论文◦◦···i=1i=1LΣ对比深度监督5教师Logits的分布越来越多的技术被提出来提取教师特征或其变体中的信息，而不是提取逻辑的知识，例如注意力地图[72，42]，负值[22]，面向任务的信息[76]，关系信息[49，58，43]，Gram矩阵[69]，互信息[1]，上下文信息[75]等。除了模型压缩之外，知识蒸馏还在自监督学习[30，46]、半监督学习[37，56]、多出口神经网络[78，77，70]、增量学习[83]和模型鲁棒性[65，79]方面取得了重大成功。3方法3.1深度监督在本小节中，我们将重新审视深度监管方法的制定。设c为给定的骨干分类器，深度监督利用c中的中间特征引入了几个更具体地，假设c=g/f，其中g是最终分类器，f是特征提取器运算符，并且f=fKfK−1f1。K表示f中卷积级的数量。在每个特征提取阶段i，深度监督附加辅助分类器gi用于提供中间监督。因此，总共有K个分类器，它们具有以下形式：c1（x）=g1<$f1（x）c2（x）=g2<$f2<$f1（x）· ··cK（x）= gK<$fK<$fK−1<$··<$f1（x）。（一）给定一组训练样本X={xi}n及其对应的标签Y={xi} n，{yi}n，深度监督LDS的训练损失可以公式化为：K−1LDS= LCE（cK（X），Y）+α·εLCE（ci（X），Y），（2）从标准列车x起，i=1从深度列车x起，其中CE表示交叉熵损失。第一项和第二项损失函数分别指示中间层的标准训练损失和来自深度监督的附加损失α是平衡两个损失项的超参数最近，已经提出了一些研究来在深度监督上应用逐层一致性，这还最小化了辅助分类器的预测与最终分类器之间的KL分歧[55，40]。这些方法也可以看作是以最终分类器为教师，以辅助分类器为学生的知识升华。它们的训练损失可以公式化为：K−1LDS+β·LKL（ci（X），cK（X）），（3）i=1其中β是平衡两个损失函数的超参数。+v：mala2255获取更多论文--NL“我的天，BRL X1ContraiContraL6升。Zhang等人3.2对比式深度监管在本小节中，我们首先介绍对比学习的公式对于N个图像x1，x2，...， xN，我们对每个图像应用随机数据增强两次，从而产生一批2 N个图像。为了方便起见，我们将xi和xN+i图像表示为来自同一图像的两个增强子，这两个增强子被认为是正对。将z = c（x）表示为归一化投影头部输出，对比学习损失（也称为NT-Xtent[7]）可以表示为：L=−logi=1exp（zi·zi+N）/τ1[k=i] exp（z我、（四）其中1∈ {0，1}是一个指标函数，如果k∈ =i，τ是一个温度超参数，则其值为1。直观地说，Contra鼓励编码器网络从同一图像中学习不同增强的相似表示同时增加来自不同图像的增强的表示之间的差异。深度监督和我们的方法之间的主要区别在于，深度监督通过交叉熵损失训练辅助分类器，而我们的方法则通过一致性损失L_C_n_ra 训练它们。通过表示欺诈-ci处的对比损失为LContra（X;ci），则我们的对比深度的训练损失监督LCDS可以表示为LCDS= LCE（cK（X），Y）从标准训练K−1+λ（（c）、（5）i=1`fromou其中，第一项和第二项分别表示我们的方法中用于中间层的标准训练损失和附加损失。λ1是平衡两个损失项的超参数。基于上述关于监督学习的表述，我们可以将对比深度监督扩展到半监督学习和知识蒸馏中。在半监督学习中，我们假设有一个带有标签Y 1的标记数据集X1和一个未标记数据集X2。在标记数据上，可以直接使用CDS进行对比深度监督。在未标记的数据上，由于缺乏标记，对比深度监督仅优化了一致性学习损失L_Co_n_tr，其可以被计算为LCDS（X1，Y1）+LContra（X2）（6）对比深度监督中的中间层通过对比学习进行监督，因此它们可以学习对不同数据增强的不变性。如之前的研究所示，这些数据增强不变性有利于各种下游任务[31]。在本文中，我们进一步提出了改进知识蒸馏与对比2Nk=1·z（k）/τ+v：mala2255获取更多论文ΣΣ.ΣL对比深度监督7通过将教师学到的数据增广不变性传递给学生来进行深度监督。将知识蒸馏中的学生模型和教师模型分别表示为fS和fT，基于朴素特征的知识蒸馏直接最小化学生和教师的骨干特征之间的距离，可以表示为：KfiT（X）− fiS（X）<$2。（七）i=1相比之下，具有对比深度监督的知识蒸馏最小化了学生和教师的嵌入向量（投影头的输出）之间的距离，可以用公式表示为K−1LCDS对于KD=<$cTi（X）−cSi（X）<$2。（八）i=1现在我们可以将学生的总体训练损失公式化为LDCDS=LCDS+λ2·LCDS对于KD+λ3·LKLcTK（X），cSK（X），（9）其中λ2和λ3是平衡不同损失项的超参数。在深入监督的前期工作中，为了方便超参数调整，我们没有为每个投影头3.3其他细节和技巧投影头的设计在对比深度监督中，在训练期间将几个投影头添加到神经网络的中间层。这些投影头将骨干特征映射到标准化的嵌入空间中，其中应用对比学习损失。如相关工作中所讨论的，投影头的架构对模型性能至关重要[8]。通常，投影头是由两个完全连接的层和ReLU函数堆叠的非线性投影。然而，在对比深度监督中，输入特征来自中间层而不是最终层，因此正确地投影它们更具挑战性[8]。因此，我们通过在非线性投影之前添加卷积层来增加这些投影头的复杂性。对比学习所提出的对比深度监督是一种通用的训练框架，不依赖于特定的对比学习方法。在本文中，我们在大多数实验中采用Simplified[7]和SupCon[34]作为我们认为，我们的方法的性能可以进一步提高，通过使用更好的对比学习方法。负样本以往的研究表明，负样本的数量对对比学习的绩效有着至关重要的影响。因此，通常需要大批量、动量编码器或存储库[7，19，16]。在对比深度监督中，我们不使用任何这些解决方案，因为监督损失（等式5中的CE）足以防止对比学习从收敛到崩溃的解决方案。+v：mala2255获取更多论文8升。Zhang等人表1.在CI F A R 10 0 上与其他深度监督方法进行比较实验（前1精度/ %）。方法RNT 18 RNT 50 RNT 101 RXT 50 RXT 101 WRN 50 WRN 101 SET18 SET50 PAT 18基地77.4577.8178.6579.8580.6779.4679.9877.46 78.0276.84DSN78.3078.9679.3781.0281.7080.9881.3078.28 79.46 77.40DKS78.9680.9581.3982.2782.9881.9582.5879.32 80.76 78.96DHM78.8281.1281.2782.1483.2781.7682.7679.14 80.72 78.32我们 80.84 81.31 83.12 82.81 83.87 82.28 83.93 80.13 81.51 80.76表2. 与CIFAR 10上其他深度监督方法的比较实验（前1精度/%）。方法RNT 18 RNT 50 RNT 101 RXT 50 RXT 101 WRN 50 WRN 101 SET18 SET50 PAT 18基地94.9695.0795.1395.0995.3495.0195.2794.86 95.1194.78DSN95.3195.4195.6395.3995.7095.2795.7895.21 95.41 95.13DKS95.7295.9096.2195.9896.1095.5096.1295.74 95.72 95.47DHM95.6195.8796.0496.1096.2795.6296.3195.59 95.77 95.38我们96.49 96.78 97.02 96.76 97.05 96.88 97.01 96.50 96.73 96.37表3. 与ImageNet上其他深度监督方法的比较。度量模型基准DSN DKSDHM我们的RNT1869.2169.5471.3271.2972.85top-1RNT3473.1773.2974.0173.8976.19RNT5075.3075.3776.4776.5778.25RNT1889.0188.8789.2090.0691.30top-5RNT3491.2491.3091.8791.6693.08RNT5092.2092.4993.6093.2493.994实验4.1实验设置对于常见的图像分类，我们的方法已经在三个数据集上进行了评估，包括CIFAR10，CIFAR100和ImageNet [36，13]，其中各种神经网络包括ResNet（RNT），ResNeXt（RXT），Wide ResNet（WRN），SENet（SET），PreAct ResNet（PAT），MobileNetv1，MobileNetv2，ShuffleNetv1和ShuffleNetv2 [20，66，71，26，21，25，54，80]。细粒度图像分类对于细粒度图像分类，我们的方法已经在五个流行的数据集上进行了评估，包括CUB 200-+v：mala2255获取更多论文对比深度监督9表4. 在COCO2017上进行不同目标检测模型的实验。ResNet50模型在ImageNet上使用不同的深度监督方法进行预训练，然后用作这些检测器的骨干。Faster RCNNDSN37.3− 0。一百二十一点零240.8- 0。248.3-0。2DKS37.5 +0。一百二十一点二+0。 041.5 +0。547.6- 0。5DHM37.6 +0。221.3 +0。一百四十一点三+0。三百四十八点二+0。1我们38.3 +0。921.6 + 0。442.0 + 1。050.1 + 2。0基线36.520.440.348.1DSN36.3-0。220.1-0 340.0- 0。3四十八点十分。0RetinaNetDKS三十六点七+0。220.1-0 340.9 +0。6四十八点二+0。1DHM三十六点七+0。220.0- 0。440.7 +0。4四十八点五+0。4我们37.3 + 0。821.2 + 0。841.0 + 0。747.9-0。2表5. 比较（前1名） / %），使用ResNet 50进行细粒度分类的深度监督方法。模型是从零开始训练的。方法幼崽汽车花狗飞机基线60.6579.8687.5264.0074.07DSN62.37 +1。7281.04 +1。1888.54 +1。0266.32 +2。32七十四点四九+0。42DKS63.59 +2。9481.52 +1。66八十八点九四+0。40六十八点三十一+4。3175.07 +1。00DHM64.01 +3。3681.49 +1。6389.03 +1。5168.38 +4。3875.00 +0。93我们64.65 + 4。00八十二点零七加二。2189.26 + 1。7469.02 + 5。0275.43 + 1。36表6. 与ResNet50的深度监督方法进行细粒度分类的比较（前1个百分比）。模型从ImageNet预训练的权重进行微调方法幼崽汽车花狗飞机基线78.5090.2597.6876.4787.43DSN80.14 +1。6491.32 +1。0798.64 +0。96七十七点二一+0。7489.31 +1。88DKS81.34 +2。8492.54 +2。2999.01 +1。33七十八点三二+1。8589.20 +1。77DHM81.27 +2。7792.31 +2。0698.84 +1。1678.20 +1。7389.57 +2。14我们82.10 + 3。6092.90 + 2。6599.39 + 1。7180.99 + 4。5290.52 + 3。092011年[59]，斯坦福汽车[35]，牛津鲜花[45]，斯坦福狗[33]和FGVC飞机[44]。使用ResNet50作为所有实验的分类器。目标检测对于目标检测，我们的方法已经在 MS COCO 2017 [41] 上使用MMdetection [4]的Faster RCNN和RetinaNet进行了评估。模型方法APAPSAPMAPL基线37.421.241.048.1+v：mala2255获取更多论文半监督学习在CIFAR100、CIFAR10和ResNet18上进行了半监督学习实验。对于每个数据集，我们使用10%，20%，30%和40%标签评估了我们的方法+v：mala2255获取更多论文我们的基线CIFAR10上的准确度10升。Zhang等人表7.在ImageNet和ResNet上与其他八种知识提取方法进行比较实验（top-1和top-5准确率/ %）。粗体数字表示最高。标有†的结果来自SSKD的论文[67]。度量模型基地KD在RKDSPCRD CC† OKD†SSKD†我们的RNT1869.21 70.52 70.74 70.63 70.61 71.07 69.96 70.5571.6273.23top-1RNT3473.17 74.44 74.69 74.61 74.60 74.99–––RNT5075.30 76.62 76.79 76.92 76.88 77.21–––RNT1889.01 89.88 90.00 89.71 89.80 91.06 89.17 89.5990.6791.56top-5RNT3491.24 92.07 92.18 92.14 92.10 92.58–––RNT5092.20 93.36 93.51 93.60 93.58 93.88–––70906080507084.083.583.082.5403010% 20% 30% 40%标记数据605010% 20% 30% 40%标记数据82.01 2 3 4 5项目数量头图二、使用ResNet18在CIFAR100和CIFAR10上进行半监督训练的实验结果。图三. 投影头数量的影响。比较方法三种以前的深度监督方法用于比较，包括DSN [38]，DKS [55]和DHM [40]。在知识蒸馏实验中，我们用九种知识蒸馏方法评估了我们的方法，包括KD [23]，FitNet [53]，AT [72]，RKD [49]，SP [58]和CRD [57]。此外，我们还引用了SSKD论文中CC [50]，OKD[84]和SSKD[67]4.2实验结果CIFAR100、CIFAR10和ImageNet上的图像分类实验结果分别如表1、表2和表3所示。观察到：（a）我们的方法在CIFAR100和CIFAR10上平均分别实现了3.44%和1.70%的前1精度改进。它在两个数据集上的表现分别比第二好的深度监督方法高出1.05%和0.90%（b）在ImageNet上，对比深度监督分别使ResNet 18、ResNet 34和ResNet 50的top-1准确率提高了3.64%、3.02%和2.95%平均而言，它比基线和第二好的方法分别高出3.20%和1.83%的top-1准确度。目标检测表4显示了我们的方法在目标检测上的性能。在这些实验中，我们首先使用标准训练（基线），三种深度监督方法，我们的基线CIFAR100上的准确度ResNet18ResNet50根据CIFAR100+v：mala2255获取更多论文对比深度监督11表8. 与其他知识提取方法的比较。CIFAR100模型基地KDFitNet在RKDSPCRD我们ResNet1877.4578.6878.1578.0978.2178.1981.4183.31ResNet5077.8179.1978.4278.3478.9478.8182.4583.53ResNet10178.6580.4080.7880.9781.2480.9482.5784.80ResNeXt5079.8581.4182.6782.5983.7182.6783.4184.41ResNeXt10180.6782.0382.5182.4383.0182.6484.5085.37WRNet5079.4681.0281.2981.1682.0682.0782.9484.27WRNet10179.9881.8282.0782.1682.5482.4983.0785.04SENet1877.4678.9279.0979.1579.4179.3181.2282.68SENet5078.0279.7880.1380.4580.6980.7181.7983.36SENet10178.9280.3180.5480.5380.7480.5282.7584.15MobileNetV168.3270.0470.2570.1770.8970.1972.6873.79MobileNetV269.3470.5870.6470.5170.8370.6871.8272.61ShuffleNetV172.4674.0874.1974.1174.5674.6875.1175.77ShuffleNetV272.8174.3974.4774.5174.8274.6775.6276.11PreActNet1876.8478.2578.3478.6779.0179.1281.6282.83PreActNet5077.3179.0479.2779.5479.8279.7681.2783.42CIFAR10模型基地KDFitNet在RKDSPCRD我们ResNet1894.9695.2495.3195.2695.3195.2795.8196.84ResNet5095.0795.3195.4595.4795.3395.2996.2197.08ResNet10195.1395.3995.7195.4995.4395.1896.3797.40ResNeXt5095.0995.2795.3695.6895.5995.3796.4997.15ResNeXt10195.3495.6895.9295.7895.8195.3896.5197.40WRNet5095.0195.3495.3895.3495.6195.7396.1797.37WRNet10195.2795.5195.4895.7195.9995.8296.3497.39SENet1894.8695.2195.3095.4795.3495.4196.0096.96SENet5095.1195.3995.4495.6495.5795.4796.2197.19SENet10195.3095.6495.8195.7895.8195.7796.1997.36MobileNetV190.2491.2792.5992.8793.0192.9093.2793.94MobileNetV290.7691.0991.5791.7591.8291.8392.1792.87ShuffleNetV191.5791.9992.3092.1992.4792.3893.0894.04ShuffleNetV291.1991.8792.2392.4192.3092.5492.9093.16PreActNet1894.7895.0895.2895.3995.5195.6996.0796.70PreActNet5094.8995.2195.5795.4995.3795.4896.1196.93我们的方法，然后微调它们作为对象检测模型的骨干，包括COCO2017数据集上的RetinaNet和Faster RCNN。据观察，在用我们的方法预训练的骨干中，存在0.9和0.9个。0.8 AP分别对Faster RCNN和RetinaNet进行了改进，其性能比第二好的方法高出0.6 AP，这表明使用我们的方法学习的表示对下游任务更有益+v：mala2255获取更多论文12升。Zhang等人细粒度图像分类细粒度图像分类的实验如表6所示。观察到：（a）对比深度超视导致五个数据集上的一致且显著的准确性改进平均而言，它导致了3.80%，2.43%，1.73%，4.77%和2.25%的准确性提高，分别对五个数据集。（b）此外，我们的方法在半监督学习在CIFAR10和CIFAR100上使用ResNet18进行的半监督学习实验如图2所示。它是观察到：（a）我们的方法导致一致的精度提高在所有的比例的标记数据。（b）当标记数据较少时，我们的方法的好处变得更大，这表明我们的方法在使用未标记数据来优化中间层方面是有效的。ImageNet和CIFAR上的知识蒸馏实验分别如表7和表8观察到：（a）我们的方法在CI-FAR 100和CIFAR 10上平均实现了5.07%和2.20%的前1精度改进，在两个数据集上分别优于第二好的KD方法1.40%和0.87%（b）在ImageNet实验中也可以观察到类似的结果我们的方法在ResNet 18，ResNet 34和ResNet 50上分别导致4.02%/2.55%，3.48%/2.14%和3.38%/2.22%的top-1/top-5准确度提高。平均而言，它比基线和第二好的方法分别高出3.62%和1.76%的top-1准确度。5讨论5.1作为规范者的对比深度监管深度学习中的正则化方法通常用于通过引入额外的惩罚或损失来避免模型过拟合。在本小节中，我们展示了我们的方法在中间层引入的对比学习损失作为正则化器。图4显示了分别使用标准方法和我们的方法训练的两个ResNet18模型在训练期间预测结果和标签之间的交叉实验结果表明，在大多数时期，基线模型的交叉熵损失比我们的模型要小当两个模型都收敛时（epoch 280-300），基线模型只有0.005的损失，而我们的模型仍然有0.025的损失。这些观察结果表明，基线模型中存在严重的过拟合，而深度对比监督可以减轻过拟合，从而提高精度。此外，使用标准方法和我们的方法训练的模型的预期校准误差（ECE）的比较如图5所示。较低的ECE表明神经网络的预测概率估计代表更好的真实正确性似然[17]。据观察，与基线模型相比，我们的方法导致较低的ECE，表明更好的不确定性估计和解释。+v：mala2255获取更多论文−××××对比深度监督13表9. 在ImageNet上使用ResNet50比较我们的方法和对比学习方法。基线1和2：使用和不使用自动增强训练的两个基线[1和2]。SupCon1-3：通过不同超参数的监督对比学习训练的三个模型。BYOL：ResNet50经过1000个epoch的无监督BYOL+DSN：ResNet50使用BYOL进行预训练，然后通过深度监督进行微调我们的1，3：ResNet50在不同的环境中接受了对比深度监督的训练。我们的2：ResNet50训练与对比深度监督+知识蒸馏.方法批量时期AutoAug top-1 acc.（%）基线1256 90 75.3基线2SupCon16144 350 78.7SupCon2512 350 74.5SupCon36144 100 77.0BYOL 1024 1080× 77.7BYOL+DSN 1024 1080 78.2我们的1256 90 78.3我们的2256 90 78.7我们的3256 350 79.85.2与对比学习的我们的方法和两种“预训练微调”对比学习方法之间的比较&如表9所示。据观察，在没有大批量和高级数据增强策略（AutoAugment）的情况下，仅具有25%训练时间的对比深度监督（我们的1）实现了比SupCon3低0.4%的准确性。此外，具有相同训练时间和数据增强的对比深度监督（我们的3）分别比SupCon3和BYOL+DSN高出1.1%和1.6%的准确率，这表明我们的方法比传统的对比学习方法具有优势。5.3知识蒸馏朴素的特征提取和我们对比的深度监督的特征提取之间的主要区别在于朴素特征提取提取主干特征，而我们的方法提取通过对比深度监督学习的嵌入。为了进一步证明其有效性，我们在CIFAR100上训练了一个ResNet50模型，其中既有对比深度监督，又有骨干特征的提炼。实验结果表明，该模型的准确率为82.26%，比提取嵌入的准确率低1.27%这些结果表明，通过对比深度监督来提取学习到的嵌入更有益。+v：mala2255获取更多论文14升。Zhang等人543210075150225 300时代0.200.150.100.050.00我们基线0.0250.005223 238 254 269 285 300时代见图4。训练期间预测结果与标签之间交叉熵损失的比较。请注意，我们的方法也导致了更好的准确性（80.84% vs 77.45%）图五. 可靠性图的比较。“GAP”表示置信度和准确度之间的差异。"输出"表示准确. ECE：预期校准误差（越低越好）。5.4灵敏度研究投影头的位置我们用以下四种方案研究了投影头位置的影响：（1）均匀方案在CIFAR 100上的实验结果表明，这四种方案分别达到了81.23%、81.31%、81.07%和80.99%的准确据观察，均匀和下采样方案都导致优异的性能，表明我们的方法对在何处应用投影头不敏感投影头的数量我们已经研究了图3中投影头数量的影响。据观察，当存在少于五个投影头时，更多的投影头倾向于实现更好的性能。第五投影头不会导致更多的精度改进。6结论本文提出了对比深度监督，这是一种新的训练方法，可以通过对比学习直接优化深度神经网络的中间层。它使神经网络能够在不增加额外的计算和存储的情况下学习更好的在9个数据集和11个神经网络上的实验表明，该方法在常规图像分类、细粒度图像分类和传统监督学习、半监督学习和知识提取中的目标检测方面都是有效的它明显优于以前的深度监督方法，知识蒸馏方法和对比学习方法。此外，我们还表明，对比深度监督作为一个正则化，以防止模型过度拟合，从而导致更好的不确定性估计。我们基线：5.27：80.84%欧洲经委ACC欧洲经委会：11.92占比：77.45%交叉熵损失交叉熵损失+v：mala2255获取更多论文对比深度监督15引用1. Ahn，S.，Hu，S.X.，Damianou，A.，劳伦斯，北达科他州，Dai，Z.：知识转移的变分信息蒸馏。IEEE计算机视觉与模式识别会议论文集。pp.91632. Bucilua 角，卡鲁阿纳河 Niculescu-Mizil ， A. ：模型压缩。第 12 届 ACMSIGKDD知识发现和数据挖掘国际会议论文集。pp. 535-541. ACM（2006年）3. Chaitanya，K.，Erdil，E.，Karani，N.，Konukoglu，E.：有限标注医学图像分割的全局和局部特征对比学习。神经信息处理系统的进展33（2020）4. 陈凯，王杰，Pang，J.，曹玉，熊，Y.，Li，X.，Sun，S.，Feng，W.，刘志，徐，J，等：Mmdetection：打开mmlab检测工具箱和基准测试。arXiv预印本arXiv：1906.07155（2019）5. Chen，L.，中国地质大学，Wang，D.，中国科学院，Gan，Z.，刘杰，赫瑙河Carin，L.：对比表征蒸馏法。在：IEEE计算机视觉和模式识别会议，CVPR 2021，虚拟，2021年6月19日至25日。pp. 16296-16305.计算机视觉基金会/IEEE（2021）6. Chen，L.，中国地质大学，Wang，D.，中国科学院，Gan，Z.，刘杰，赫瑙河Carin，L.：对比表征蒸馏法。在：IEEE/CVF计算机视觉和模式识别会议论文集pp. 162967.

下载后可阅读完整内容，剩余1页未读，立即下载