深度监督的知识协同：提高CNN图像分类任务的泛化能力的新方法

99 浏览量更新于2023-10-18 收藏 704KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6997深度监督的知识协同孙大伟1，2姚安邦1周傲君1赵浩1，21英特尔实验室中国2清华大学{孙大伟，姚安邦，周傲君，赵浩}@ intel.com摘要卷积神经网络（CNN）与开创性的AlexNet相比，已经变得更加深入和复杂。然而，目前流行的训练方案遵循先前的方式，仅在网络的最后一层添加监督，并逐层向上传播错误信息。在本文中，我们提出了深度监督知识协同（DKS），这是一种新方法，旨在训练CNN，提高图像分类任务的泛化能力，而不会在推理过程中引入额外的计算成本。受深度监督学习方案的启发，我们首先在某些中间网络层的顶部添加辅助监督分支。虽然适当地使用辅助监督可以在一定程度上提高模型的准确性，但我们进一步探索了利用连接到骨干网络的分类器动态学习的概率知识作为新的正则化来改进训练的可能性。提出了一种新的协同损失模型，该模型考虑了所有监督分支之间的成对知识匹配。有趣的是，它在每次训练迭代中都能在自上而下和自下而上两个方向上实现密集的成对知识匹配操作，类似于同一任务的动态协同过程。我们使用最先进的CNN架构在图像分类数据集上评估DKS，并表明用它训练的模型始终优于相应的模型。例如，在ImageNet分类基准测试中，我们的ResNet-152模型优于基线模型，其1。Top-1准确度的47%裕度。代码可在https://github.com/sundw2014/DKS上获得。1. 介绍深度卷积神经网络（CNN）具有大量的可学习参数，这使得它们具有* 同等贡献。这项工作是在Dawei Sun在英特尔中国实验室实习时完成的，由负责通信的Anbang Yao监督。实习生Aojun Zhou和Hao Zhao为早期的理论分析做出了贡献图1：拟议方法的说明。在图中，我们在骨干网的一些中间层上添加了三个辅助监管分支每个分支将输出以训练数据为条件的类概率分布，其用作知识。我们使用圆圈来表示计算这些知识输出的节点，并提出了一个协同损失项，使它们之间的最好是电子观看。在拟合训练数据方面比传统的机器学习方法有更好的能力。随着包括大规模数据集、强大的硬件平台和有效的定义工具在内的训练资源的可用性不断增长，CNN已成为各种视觉识别任务的主要学习模型[21，26，7，42]。为了获得更引人注目的性能，CNN [39，10，47，17，44，15，1]被设计成比开创性的AlexNet[ 21 ]更深更复杂，AlexNet [21]有8层，并在2012年ImageNet分类竞赛中取得了开创性的成果[37]。尽管现代CNN广泛使用各种工程技术，如仔细的超参数调整[39]，积极的数据论证[44，49]，有效的归一化[18，9]和诡辩。cated连接路径[10，17，44，15，1]，以减轻网络的训练，他们的训练仍然是困难的。我们注意到最先进的CNN模型，如ResNet [10]，WRN [47]，DenseNet [17]，ResNeXt [44]，SENet [15] 、 DPN [1] 、 MobileNet [14 ， 38] 和 Shuf-fleNet [51，27]采用AlexNet的训练方案更...训练数据辅助监管分支机构浅层、中深层辅助层协同损失知识生成节点成对知识匹配6998具体地说，在训练期间，仅将监督添加到网络的最后一层，并且将训练误差从最后一层反向传播到较早的层。由于网络深度、构建块和网络拓扑的复杂性增加，这可能造成表示学习不足的风险这个问题可以通过[41]和[22]中独立提出的深度监督学习方案来缓解。Szegedy 等人 [41] 将辅助分类器添加到他们提出的GoogLeNet的两个中间层，而Lee等人。[22]建议将辅助分类器添加到网络的所有隐藏层。在网络训练中，虽然这两种方法使用的辅助分类器类型不同，但都采用了相同的优化策略，即训练损失是所有辅助分类器损失与连接到最后一层的分类器损失的加权和。这种方法已被证明在对抗消失梯度问题和克服训练一些旧的深度分类网络的收敛问题然而，现代CNN骨干通常没有收敛性，并且很少使用辅助分类器。最近，Huang等人[16]提出了一种使用早期退出分类器进行成本感知图像分类的二维多尺度CNN架构。在[16]中，经验结果表明，天真地将简单的辅助分类器附加到最先进的CNN（如ResNet或DenseNet）的早期层会导致性能下降，但从架构设计的角度来看，可以通过多尺度特征和密集连接的组合来缓解这个问题。在本文中，我们重新审视了用于图像分类任务的深度监督学习方法，并提出了一种名为深度监督知识合成（DKS）的新方法，旨在训练最先进的CNN，提高准确性，并且在推理过程中不会引入额外的计算成本。受上述工作[41，22，16]的启发，我们首先在网络训练期间在某些中间层的顶部添加辅助监督分支，如图所示。1.一、我们表明，使用精心设计的辅助分类器可以在一定程度上提高最先进的CNN的准确性。这在经验上表明，来自辅助监督的信息有利于规范现代CNN的训练。我们推测，通过在连接到骨干网络的所有监督分支之间实现显式的信息交互，可能仍然存在性能改进的空间，因此我们进一步探索利用由辅助分类器和添加到最后网络层的分类器动态学习的知识（即对训练数据评估的类概率输出）作为新的正则化的可能性。以改善训练。在优化过程中，考虑所有监督分支之间的成对知识匹配的协同损失被添加到训练损失。这种损失使得在每个训练步骤中能够在自上而下和自下而上两个方向上进行密集的成对知识匹配操作，类似于针对相同任务的动态协同过程。我们使用最流行的CNN架构（包括ResNet [10]，WRN [47]，DenseNet [17]和MobileNet [14]）在两个知名的图像分类数据集上评估了所提出的方法。我们表明，与各自的基线模型相比，用我们的方法训练的模型具有令人印象深刻的例如，在具有挑战性的ImageNet分类数据集上，即使是非常深的ResNet-152架构，也存在1。Top-1准确度提高47%2. 相关工作在这里，我们总结了相关的方法在文献中，并分析它们的联系和区别与我们的方法。深度监督学习。深度监督学习方法[41，22]于2014年发布它使用辅助分类器连接到网络的隐藏层，以解决在训练一些旧的深度CNN用于图像分类任务时的收敛问题。最近，它也被用于其他视觉识别任务，如边缘检测[45]，人体姿势估计[31]，场景解析[54]，语义分割[53]，关键点定位[23]，自动描绘[29]和旅行时间估计[50]。尽管最近在其新应用中取得了这些进展，但现代CNN分类模型很少使用辅助分类器。如[16]所述，直接将简单的辅助分类器附加到最先进的网络（如ResNet或DenseNet）的早期层上会损害其性能。在本文中，我们提出了DKS，这是一种用于图像分类任务的新的深度监督学习方法，在训练最先进的CNN时，它显示出令人印象深刻的准确性提高。知识转移。近年来，知识转移（ KnowledgeTransfer，KT）研究引起了越来越多的关注.一个开创性的工作是知识蒸馏（KD）[11]，其中来自大型教师模型或教师模型的集合被用于规则化较小的学生网络的训练[36]、[46]和[48]进一步表明，中间特征表示也可以用作增强知识蒸馏过程的提示KD技术也被用于其他任务，例如，提高图像分类的低精度CNN的性能[28]和设计用于视频动作识别的多流CNN [5]。与知识只从教师模型转移到学生模型的KD及其变体不同，[52]通过提出相互学习策略扩展了KD，表明学生模型的知识也有助于提高教师模型的准确性。后来，这个想法被亲自运用6999我一一一重新识别[55]和联合人类解析和姿态估计[32]。Li和Hoiem [24]通过KD和微调的组合解决了调整训练的神经网络模型以处理新视觉任务同时保留旧知识的问题。在[12]中提出了一种改进的方法Qiao等人[35]提出了一种用于半监督图像分类的深度在他们的方法中，所有模型都被视为学生，并使用包含对抗样本的不同数据视图进行在其中H是交叉熵成本函数ΣKH（yi，f（Wc，xi））= −yklog f k（Wc，xi）.k=1由于λR是一个默认项，与我们的方法无关，为了简单起见，我们在下面的描述中省略了这个项现在，目标函数（1）可以简化为本文提出的深度监督知识合成方法是一种新的知识转移形式，argminWCLc（Wc，D）.（二）一个单一的神经网络，其在焦点和形式上都不同于CNN正则化ReLU [30]、Dropout [40]和BN [18]被证明是现代CNN克服过度拟合或加速收敛的关键正因为如此，已经提出了许多改进的变体[9，43，4，8，6最近过度拟合也可以通过增强变换（如随机裁剪，翻转，缩放，颜色操作和线性插值）来综合增加现有训练数据的大小来减少[21，13，41，49]。这个优化问题可以很容易地解决SGD及其变体[3，19，2]。据我们所知，大多数著名的CNN [21，39，10，47，17，44，14，38，15，1，51，27，56，34，25]在模型训练中采用这种优化相比之下，[22]中明确提出的深度监督学习方案在训练过程中向网络的所有隐藏层添加辅助分类器。ing.设Wa={Wl|1≤l≤L-1}是附加在每个隐藏层的顶部的一组辅助分类器。网络这里，w1表示辅助参数，此外，预培训[39]可以帮助早期阶段的神经网络训练这些方法广泛一分类器添加到第l个隐藏层设f（wl，wc，xi）用于现代CNN架构设计和培训。我们的方法与它们兼容。如可见于图3、用DKS训练的模型具有最高的训练误差是第l个辅助分类器的K维输出向量不失一般性，深度监督学习方案的优化目标可以定义为：但测试误差最低，表明我们的方法表现得像正则化器，并减少了ResNet-18的过度拟合。3. 该方法哪里argminWc，WaLc（Wc，D）+La（Wa，Wc，D），（3）在本节中，我们将介绍我们的方法的制定，强调其洞察力，并详细介绍其实现。La（Wa，Wc，D）=1ΣNNL−1αlH（yi，f（wl，Wc，xi））.3.1. 深度监督学习我们首先制定的深度监督学习计划，因为我们的方法是基于它。令Wc是需要学习的L层CNN模型的参数。设D={（xi，yi）|1≤i≤N}是具有从K个图像收集的N个训练样本的注释数据集班这里，xi是第i个训练样本，yi是对应的地面真值标签（具有K个维度的独热向量令f（Wc，xi）是训练样本xi的CNN模型的K维输出向量。对于标准训练方案，仅在网络的最后一层添加监督，优化目标可定义为i=1l=1辅助损耗La是损耗的加权和在训练集上评估的所有辅助分类器中，αl加权第l个辅助分类器的损失。通过引入辅助损失La，深度监督学习方案允许网络在训练期间不仅从最后一层监督而且从隐藏层监督收集梯度。这被认为是com-bat消失梯度问题和增强收敛[22，41]。至于当代工作[41]，其优化目标可以被认为是（3）的特例，因为它只向所提出的GoogLeNet的两个中间层添加辅助分类器。另一个区别在于结构argminWCLc（Wc，D）+λR（Wc），（1）辅助分类器。在实验中，[22]使用具有归零策略的简单分类器来动态地控制其中Lc是默认损失，R是正则化项，λ是正系数。这里，Lc被定义为1ΣN在训练过程中控制αl的值，而[41]使用更复杂的分类器，αl的值固定。我们发现，为αl设置一个固定值，Lc（Wc，D）=N7000i=1H（yi，f（Wc，xi）），在训练最先进的CNN时采用归零策略，因此在我们的实现中，我们使用αl7001一3.2. 深度监督的知识协同现在，我们提出了我们的DKS的公式，进一步发展了深度监督学习方法从一个新的角度。DKS还使用连接到网络的一些隐藏层的辅助分类器，但与现有方法不同的是，它在所有监督分支之间引入了显式信息交互。具体而言，DKS使用知识（即，在训练数据上评估的类概率输出它的核心贡献是一种新的协同损失，它使连接到骨干网络的所有分类器之间的密集成对知识-边缘匹配，使优化更有效。在本节中，我们遵循上一节中的符号我们只在某些隐藏层中添加辅助分类器。设A{1，2，·· ·，L−1}是一个预定义集合，|一|层索引，指示添加辅助分类器的位置。让A=A{L}，其中L是网络最后一层的指数，因此A表示所有分类器的位置连接到网络，包括辅助网络和原始网络。设B<$A<$×A<$是另一个预定义集合，|B|层索引对，指示在何处激活成对知识匹配操作。现在，根据（3）的定义，我们的DKS的优化目标被定义为：自顶向下自底向上双向图2：三个成对知识匹配策略的图示。在每种策略中，红色圆圈表示连接到网络最后一层的分类器，紫色圆圈表示连接到某些中间层的三个辅助分类器，弯曲箭头表示成对知识匹配方向。任何两个分类器之间的协同损失、知识匹配原则上，将来自分类器m的当前类别概率输出作为软标签（其被认为是恒定值并且梯度w.r.t.它们将不在反向传播中被计算），它迫使分类器n模仿分类器m。以这种方式，当前由分类器m学习的知识可以被转移到分类器n。我们称之为定向监督。有趣的是，使密集的成对知识-argminWc，WaLc（Wc，D）+La（Wa，Wc，D）+Ls（Wa，Wc，D）. （四）在连接到主干网络的所有监管分支之间的边缘匹配操作类似于动态的这里，默认损失Lc与（3）中相同，辅助损失La定义为为同一任务协同工作。配对知识匹配。对于DKS，La（Wa，Wc，D）=1ΣNNΣαlH（yi，f（wl，Wc，xi）），问题是如何配置知识匹配对(i.e.、集合B）。我们提供了三种选择，包括自顶向下，自底向上和双向战略，如图所示i=1l∈A建议的协同效应损失Ls定义为：在图2中。在自顶向下的策略下，只有连接到后台深层的分类器Ls（Wa，Wc，D）=1ΣNΣH（fm，fn）.骨架网络用于指导添加到较早层的分类器的训练。自下而上的战略Ni=1（m，n）∈B从分类器m到n用H（fm，fn）计算，定义为：ΣK反转此设置，双向策略包括两个都是通过比较研究（见实验部分）表明，双向策略具有最好的性能，因此我们在最终的实现中采用了它。辅助分类器。 DKS的另一个基本问题是如何设计辅助分类器的结构Al-H（fm，fn）=−βmnfk logfk，M nk=1其中，fm和fn是在训练样本x1上评估的分类器m和n的类概率输出，并且βmn加权从分类器m到n的成对知识匹配的损失。我们使用Softmax函数来计算类概率。在实验中，我们设置αl=1，βmn=1并保持不变，这意味着与优化（2）和（3）相比，我们的方法的优化中没有额外的超参数为尽管深度监督学习方案已被证明在训练一些旧的深度网络用于图像分类任务时有效地解决了收敛问题[22]，但已知最先进的CNN（如ResNet和DenseNet）没有收敛问题，即使对于具有数百层的模型也是如此。鉴于此，直接向网络的隐藏层添加简单的辅助分类器可能没有帮助，这已经由[16]和[53]经验验证。从CNN架构设计的角度来看，[41]和[16]建议增加70021008060402000 10 20 30 40 50迭代（1e4）图3：在ImageNet分类数据集上训练的ResNet-18模型的Top-1训练误差（虚线）和测试误差（实线）曲线。与基线模型相比，简单的辅助分类器（添加在块Conv3x和Conv4 x之后）导致1。Top-1精度下降17%，复杂设计带来0. 60%的改善，而我们的方法达到2。增益38%值得注意的是，我们的方法在训练集上收敛的精度最低，但在测试集上达到了最好的精度，表现出更好的抑制过拟合的能力。复杂的辅助分类器到网络的一些中间层接着，在实验中，我们在网络训练过程中，在某些中间层的顶部添加了相对复杂的辅助监督分支具体地，每个辅助分支由相同的构建块（例如，ResNet中的剩余块）。如[16]中的经验验证，早期层缺乏有助于图像级分类的粗级特征为了解决这个问题，我们使用启发式原理，使从输入到每个分类器的路径具有相同数量的下采样层。对比实验表明，这些精心设计的辅助监督分支可以在一定程度上提高最终模型的性能，但增益相对较小。通过建议的协同损失实现密集的成对图3显示了一些说明性的结果，更多的结果可以在实验部分找到。与知识蒸馏比较。在DKS中，成对知识匹配的灵感来自于知识转移中普遍使用的知识蒸馏思想[11，48，36，46，28，52，24，12，35]。在这里，我们将澄清它们的差异。首先，我们的方法与他们的不同之处在于焦点。这一系列研究主要解决了学生-教师框架下的网络压缩问题，但我们的方法侧重于通过进一步开发深度学习来推进最先进的CNN的训练。监督学习方法。第二，我们的方法在公式化上与它们不同。在学生-教师框架下，通常假设大型教师模型预先可用，并且优化被定义为使用教师模型的软输出来指导较小的学生网络的训练也就是说，教师模型和学生模型是分别优化的，它们之间没有在我们的方法中，辅助分类器共享骨干网络的不同级别的特征层，它们与连接到最后一层的分类器联合优化。在本文中，我们还进行了实验，以比较它们的性能。据我们所知，DKS是第一个将深度监督学习和知识蒸馏方法紧密联系在一起的工作，使当前学习的知识能够在深度CNN模型的不同层之间转移。在补充资料中，我们提供了一些理论分析，试图更好地理解DKS。4. 实验在本节中，我们首先应用DKS在CIFAR-100 [20]和ImageNet [37]分类数据集上训练最先进的CNN，并将其与标准训练方案和深度监督（DS）学习方案进行然后，我们提供了一个深入的分析DKS和更全面的比较实验。所有算法都是用PyTorch实现的[33]。为了公平比较，这三种方法的实验都是在数据预处理、批量大小、训练时期数、学习率调度等设置相同的情况下进行的。4.1. CIFAR 100实验CIFAR-100数据集[20]包含50000张训练图像和10000张测试图像，其中实例是从100个对象类中绘制的32×32我们使用与[10，22]中相同的数据预处理方法。在训练时，首先对图像两侧填充4个像素，然后从填充图像或其水平翻转中随机抽取32×32个作物，最后用每个通道的均值和标准值进行归一化为了进行评估，我们报告了原始大小的测试图像上的错误。骨干网络和实施细节。我们考虑四种最先进的CNN架构，包括：(1) ResNets[10] ，深度为 32 和 110; （ 2 ） DenseNets[17]，深度为40/100，增长率为12;（3）WRN [47]，深度为28/28，加宽系数为4/10;[ 14]如[52]中所使用的MobileNet。我们使用作者发布的代码并遵循标准设置来训练每个骨干网络。在训练过程中，对于ResNets和MobileNet，我们使用带有动量的SGD，并将批量大小设置为64，权重衰减为0.0001，动量为0.9，训练epoch数为200。初始学习率为0.1，基线带简单辅助装置的DS分类器带复杂辅助装置的DS。分类器DKS与复杂的辅助。分类器误差（%）7003每60个时期除以10。对于DenseNets，我们使用带有Nesterov动量的SGD，并将批大小设置为64，权重衰减为0.0001，动量为0.9并且训练时期的数量为300。初始学习率被设置为0.1，并在训练时期总数的50%和75%处除以10。对于WRN，我们使用带有动量的SGD，并将批量大小设置为128，权重衰减为0.0005，动量为0.9，训练epoch数为200。初始学习率设置为0.1，并在60、120和160个时期除以5。受[41，16]的启发，我们将两个辅助分类器附加到这些CNN架构的某些中间层。具体来说，我们在具有下采样层的相应构建块之后添加每个辅助分类器。所有辅助分类器都具有与骨干网络相同的构建块不同之处在于构建块的数量和卷积滤波器的数量（有关详细信息，请参阅补充资料所有模型都在使用1个GPU的服务器上训练。对于每个网络，我们运行每个方法5次，并报告结果比较。结果总结在表1中，其中基线表示标准训练方案，DS表示使用我们设计的辅助分类器的深度监督学习方案[41，22]一般来说，我们设计的辅助分类器，DS提高了模型的准确性，在所有情况下相比，基线方法，其精度增益范围从0。08%至0。百分之九十二相比之下，我们的方法在所有网络上的性能最好，带来至少0。67%，最多3。08%的精度增益。随着网络深入得多（例如，ResNet-110和DenseNet-100）/更宽（例如， WRN-28-10 ） / 小得多（例如，MobileNet），我们的方法也有显着的准确性比所有同行的改进。这些实验清楚地验证了所提出的方法在训练最先进的CNN时的有效性4.2. ImageNet上的实验ImageNet分类数据集[37]比CIFAR-100数据集大得多。它有大约120万个训练图像和5万个验证图像，由1000个对象类组成。对于训练，图像大小调整为256×256首先，然后随机抽取224×224种作物，调整大小的图像或它们的水平翻转，每个通道的平均值和标准值。为了进行评估，我们使用调整大小的验证数据的中心裁剪来报告Top-1和Top-5错误率。骨干网络和实施细节。我们使用流行的ResNets作为评估的骨干网络。具体而言，考虑了ResNet-18、ResNet-50和ResNet-152。所有模型都使用SGD训练了100个epochs。我们将批量大小设置为256，权重衰减为0.0001，动量为0.9。学习率开始模型法误差（%）平均增重（%）ResNet基线29.97（0.33）-（d=32）29岁89（0.第二十六章）0.08DKS26.81（0.36）3.16基线27.66（0.60）-ResNetDS26.95（0.51）0.71（d=110）DKS24.98（0.35）2.68DenseNet基线24.91（0.18）-（d=40，k=12）DS二十四岁46（0.22）0.45DKS23.61（0.20）1.30DenseNet基线20.92（0.31）-（d=100，k=12）DS20.34（0.23）0.58DKS19.67（0.29）1.25基线21.39（0.30）-WRN-28-4 DS20.47（0.21）0.92DKS18.91（0.08）2.48基线18.72（0.24）-WRN-28-10 DS18.32（0.13）0.40DKS17.24（0.22）1.48WRN-28-10基线18.64（0.19）-(0.3 dropout）17.80（0.29）0.84DKS16.71（0.17）1.93基线23.60（0.22）-MobileNet DS22.98（0.17）0.62DKS21.26（0.16）2.34表1：CIFAR-100数据集的准确度比较。对于每个网络，我们运行每个方法5次，并报告“平均（标准）”错误率。我们的方法在训练每个骨干网络时都达到了最先进的精度。在0.1处，并且每30个时期除以10。为了显示DKS与数据增强方法的兼容性，我们使用简单的数据增强方法训练ResNet-18和ResNet-50，并使用更积极的数据增强方法训练ResNet-152，如[41]所示对于每个网络，我们在块Conv3 x和Conv4 x之后添加两个辅助分类器。辅助分类器使用与骨干网络中相同的构建块来构建。差异是残差块的数量和卷积滤波器的数量（见补充材料7004的细节）。所有模型都在使用8个GPU的服务器上训练。结果比较。表2示出了结果。与CIFAR-100数据集上的结果类似，在ImageNet分类数据集上，DS也显示出比基线模型小的准确性改进，即使使用我们设计的辅助分类器。其Top-1/Top-5准确度增益为0。百分之六十33%，0. 百分之三十八。11%和0。百分之四十六。ResNet-18、ResNet-50和ResNet-152分别为25%。这些结果与[41]中报道的结果一致受益于拟议的协同损失，DKS实现了最好的性能，优于DS的利润率为1。百分之七十八。25%，1. 百分之五十六07%和1。01%/0。41%在顶部-1/Top-5准确度。即使使用简单的数据增强，我们的ResNet-18/ResNet-50模型训练7005模型方法前1位/前5位误差（%）增益（%）Aux.Classifiers误差（%）误差（%）平均增益（%）基线31.06/11.13-（DS）（丹麦克朗）(DKS至DS）ResNet-18DS30.46/10.800.60/0.33AP+2FC31.85（0.42）35.09（0.54）-3.24DKS28.68/9.552.38/1.58AP+1Conv+2FC 30.24（0.05）32.52（0.27）-2.28基线25.47/7.58-窄块29.52（0.30）29.18（0.28）0.34ResNet-50DS25.09/7.470.38/0.11浅块29.39（0.09）28.69（0.28）DKS23.53/6.401.94/1.18我们29.89（0.26）26.81（0.36）3.08基线22.45/5.94-ResNet-152 DS21.99/5.690.46/0.25DKS20.98/5.281.47/0.66表2：ImageNet数据集上的准确性比较。方法显示1. 百分之七十五与Facebook github1发布的模型相比，Top-1的准确率提高了48%，这些模型经过了更强大的数据增强训练。此外，可以看出，随着网络深度的增加，我们的方法的精度提高略有下降Top- 1训练和测试错误率的曲线4.3. 消融研究辅助分类器分析。给定一个骨干网络，如何设计辅助分类器以及将它们放置在哪里的问题对于深度监督学习方法[22，41]和我们的方法至关重要。我们使用ResNet-18在ImageNet分类数据集上进行实验来研究这两个问题。对于第一个问题，我们比较了我们设计的辅助分类器和[22]中建议的相对简单的辅助分类器。在实验中，在块Conv3x和Conv4x的顶部添加辅助分类器。通过简单的辅助分类器，DS引入了1。百分之十七Top-1/Top-5准确度下降80%。相比之下，与我们设计的辅助分类器，DS带来0。百分之六十33%的增长，DKS达到2。38%/1。58%的增益训练和测试曲线如图所示。3.第三章。我们还使用ResNet-32在CIFAR-100数据集上进行了广泛的实验，以分析具有不同复杂程度的辅助分类器对DS和我们的方法的影响。结果如表3所示。使用非常简单的辅助分类器，DS显示准确性下降，DKS进一步降低模型准确性。随着辅助分类器复杂度的增加详见补充资料。对于第二个问题，我们考虑不同的设置，将我们设计的辅助分类器添加到ResNet-18的最多三个中间层位置（包括块Conv 2x，Conv 3x和Conv 4x详细结果示于表4中，其中C1、C2、C3和C4表示顺序地连接在最后一层（块Conv4x、Conv3 x和Conv2 x）的顶部上的辅助分类器。从表4中，我们可以得出以下结论：（1）在只有一个辅助分类器的情况下，早期定位优于相对较深的定位;1https://github.com/facebook/fb.resnet.torch表3：使用具有不同复杂性水平的辅助分类器的DKS和KD的准确性比较。在CIFAR-100上训练的基线ResNet-32模型在5次运行中显示出29.97%（0.33%）的“平均（标准）”错误率。在表中，AP表示平均池化层，Conv表示卷积层，FC表示全连接层。模型Top-1/Top-5误差（%）增益（%）基线（C1） 2013年6月31日至C1C229.64/10.091.42/1.04C1C329.30/9.861.76/1.27C1C429.36/9.911.70/1.22C1C2C328.68/9.552.38/1.58C1C2C3C429.00/9.792.06/1.34表4：辅助分类器连接到ResNet-18的不同中间层的DKS的准确性增益。模型前1/前5误差（%）增益（%）C131.06/11.132.38/1.58C230.69/11.053.23/2.16C331.89/11.512.39/1.68表5：DKS训练相对于连接到ResNet-18的相应中间层的每个单独辅助分类器的单独训练的准确性增益。(2) 增加两个或全部三个辅助分类器比只增加一个获得更大的增益;（3）将连接到较早中间层的C4添加到C2和C3的组合中降低了其精度。根据这些结果，我们选择为ImageNet分类数据集上的所有实验添加C2和C3。此外，我们还分析了DKS是否有利于辅助监管分支。为此，我们分别训练每个辅助监督分支，并将其与DKS训练的相应分支进行比较。根据表5所示的结果，我们可以看到，我们的方法也为每个辅助监督分支带来了明显的精度增益知识匹配策略的比较。我们还比较了三种成对知识图中所示的匹配策略。二、实验在 ResNet- 18 的ImageNet分类数据集上进行，使用我们刚刚讨论的最佳辅助分类器设置。与基线模型相比，我们的方法获得0。百分之五十45%，2. 百分之二十二19%和2。38%/1。通过使用自顶向下、自底向上和双向成对知识匹配策略，Top-1/Top-5准确率提高了58%7006分别由于双向策略显示出最好的结果，我们采用它作为DKS的默认选择。另一个有趣的观察结果是，与基线方法相比，它们都实现了改进的结果，这表明连接到骨干网络的监督分类器之间的成对知识传递确实有助于正则化模型训练。DKS在Very Deep Network上。接下来，我们进行了一组实验来分析DKS在非常深的CNN上的性能。在实验中，我们考虑在CIFAR-100数据集上训练具有1202层的ResNet变体[10与其他实验中使用的辅助分类器不同，我们在本实验中使用浅但宽的辅助分类器研究DKS值得注意的是，虽然网络深度显著增加，但使用我们的方法训练的模型的平均准确率为69。54%，显示3。百分之七十六与基线/DS方法相比，04%强正则化的DKS 为了探索DKS和强正则化方法的兼容性，我们在CIFAR-100数据集上进行了实验[47]。我们在WRN-28-10的每个构建块的第一层之后添加比率为0.3的dropout层。结果示于表1中。可以看出，使用DKS训练的模型显示出16的平均准确度。71%，带来0.53%增益DKS的情况下，没有下降。DKS vs.知识蒸馏。此外，我们比较了DKS，知识蒸馏（KD）及其变体的性能使用ResNet-18在ImageNet分类数据集我们使用预先训练的ResNet-50模型作为老师，并考虑三种不同的KD设置：（1）C1上的KD（[11]中的标准KD）;（2）C1+DS上的KD;（3）C2C3 +DS上的KD我们评估[1，2，5，10，20]的温度值，并为每个KD设置选择最佳选择。根据表6所示的结果，我们可以得出以下结论：（1）KD在所有情况下都能改善模型训练;（2）将学习到的知识提取到连接到较早层的辅助分类器中对DS具有较小的增益，并且可以通过将KD应用于添加到深层的辅助分类器来实现较大的增益;（3）DKS实现了最佳性能，显示了所提出的协同损失的有效性。噪声数据上的DKS。最后，我们探讨了我们的方法处理噪声数据的能力。在[49]之后，我们使用CIFAR-10数据集和DenseNet（d=40，k=12）作为测试用例。在训练之前，我们随机抽取固定比例的训练数据，并用随机生成的错误标签替换它们的真实标签。结果表明，基线模型的平均精度从94。62%到82。07%，而DS进一步降低到80。47%，我们的是83%。73%，当50%的训练数据被损坏时。当损坏的训练数据的比例达到80%时，我们的模型仍然有67。平均准确率为19%，优于模型前1位/前5位误差（%）增益（%）基线31.06 /11.13-DS30.46 /10.800.60/0.33KD on C1 [11]29.71 /10.331.35/0.80C1+DS上的KD29.38 /10.101.68/1.03C2C3+DS上的KD30.32 /10.640.74/0.49DKS28.68 /9.552.38/1.58表6：使用ResNet-18在ImageNet分类数据集上比较DKS、KD及其变体的准确基线/DS，边界为2。百分之五十一百分之二十七这些实验部分地表明，我们的方法具有良好的抑制噪声干扰的能力，表现出强正则化的特性。4.4. 讨论尽管我们实验中使用的CNN具有复杂的构建块设计，增加了特征连接路径的灵活性并显示出稳定的收敛性，但与标准训练方案和DS相比，我们的DKS可以显著改善其训练。这首先得益于向网络的中间层添加适当的辅助分类器，但我们认为它更受益于所提出的协同损失，这使得连接到网络的所有监督分类器之间能够进行全面的成对知识匹配，增强了学习的特征表示。另一方面，我们观察到模型训练的时间大幅增加。例如，基线ResNet-18模型在具有8个GPU的服务器上训练约20小时（SSD用于加速数据访问过程），而我们的方法需要约37小时，几乎是训练时间的两倍。此外，DS的训练时间与我们的方法几乎相同。我们认为这主要与辅助分类器的数量及其复杂性有关。因此，需要在所需培训时间和预期准确度提高之间进行权衡。要获得更大的精度增益，需要更复杂的辅助分类器，而简单的辅助分类器通常会降低模型的精度。由于增加辅助分类器的数量并不总是带来更高的准确率增益，正如我们的消融研究所示，我们认为目前增加训练时间是合理的。更重要的是，所有辅助分类器在推理阶段被丢弃，因此没有额外的计算成本。5. 结论在本文中，我们重新审视了深度监督学习的研究，并提出了一种新的优化方案，称为DKS，用于训练深度CNN。它引入了一种新的协同损失，通过考虑连接到网络的所有监督分类器之间的密集成对知识匹配来规范训练。在两个著名的图像分类任务上的大量实验验证了我们的方法的有效性。7007引用[1] Y. Chen，J. Li，H. Xiao，X. Jin，S. Yan和J. Feng.双路径网络。在NIPS，2017年。第1、3条[2] T.多扎特把涅斯捷罗夫的动力转化成亚当。在ICLR-W，2016年。3[3] J. Duchi，E. Hazan和Y.歌手. 在线学习和随机优化的自适应子梯度方法。 Journal of Machine LearningResearch，12（7）：2121-2159，2011. 3[4] Y. Gal和Z. Ghahramani脱落作为一种有效近似：在深度学习中表示模型的不确定性。InICML，2016. 3[5] N. C. Garcia，P. Morerio，and V.穆里诺用于动作识别的多流网络模态表示在ECCV，2018。2[6] G. Ghiasi，T. Y. Lin和Q. V Le. Dropblock：卷积网络的正则化方法。在NIPS，2018年。3[7] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。1[8] I. J. Goodfellow ， D. Warde-Farley ， M. Mirza ， A.Courville和Y.本吉奥。Maxout网络。2013年，《国际反洗钱法》。3[9] K.他，X。Zhang，S. Ren和J. Sun.深入研究整流器：在imagenet分类上超越人类水平的性能在ICCV，2015年。第1、3条[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。一二三五八[11] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取arXiv预印本arXiv：1503.02531，2015。二、五、八[12] S. Hou，X.潘角，澳-地C. Loy，Z. Wang和D.是林书通过不断的提炼和回顾来终身学习。在ECCV，2018。三、五[13] A. G.霍华德基于深度卷积神经网络的

下载后可阅读完整内容，剩余1页未读，立即下载