快照蒸馏：一代师生优化

139 浏览量更新于2023-10-19 收藏 623KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

12859快照蒸馏：一代师生优化杨成林1，谢玲希1，2（），迟苏3，李伟。Yuille11约翰霍普金斯大学2华为诺亚3金山云{chenglin. yangw，198808xc，alan. l. yuille}@ gmail.comsuchi@kingsoft.com摘要优化深度神经网络是计算机视觉中的一项基本任务，但直接训练方法通常会遇到过拟合问题。师生优化的目的是从经过严格训练的模型中提供补充线索，但这些方法通常相当慢，因为要依次训练几代，即，时间复杂度增加了数倍。本文介绍了快照蒸馏（SD），第一个框架，使师生优化在一代。SD的概念非常简单：我们从同代中的较早时期提取这些信息，而不是从前代中借用监督信号，同时确保教师和学生之间的差异足够大，以防止欠拟合。为了实现这一目标，我们在循环学习速率策略中实现SD，其中每个周期的最后一个快照被用作下一个周期中所有迭代的教师在CIFAR100和ILSVRC2012等标准图像分类基准中，SD实现了一致的准确度增益，而无需大量的计算开销。我们还验证了模型预训练与SD转移到PascalVOC数据集中的对象检测和语义分割。1. 介绍最近计算机视觉的大部分进展都建立在深度学习的基础上，特别是训练非常深的神经网络。随着深度从数十[25，37，40]增加到数百[18，22]，网络优化问题变得越来越重要，但也越来越具有挑战性。因此，研究人员提出了各种方法来处理欠拟合[30]、过拟合[39]和数值不稳定性[23]。作为辅助训练的替代方法，教师-学生（T-S）优化最初被设计用于训练较小的网络以近似较大网络的行为，即。，模型压缩[19]，但后来重新-表1.不同师生优化方法的属性，其中SA表示教师和学生具有相同的架构，IN表示在ImageNet上进行评估，1G表示整个过程在一代内完成。详细调查见第2搜索者发现它在为训练相同的网络提供补充线索方面的有效性[11，2]。这些方法需要一个教师模型，这通常是从一个独立的培训过程中获得的。然后，在已有的交叉熵损失项基础上增加一个额外的损失项，用于度量教师和学生之间的相似性人们认为，这种优化过程受益于所谓的次要信息[49]，即：类级相似性，允许学生不适合一个热门类分布。尽管这些方法在提高识别精度方面取得了成功，但由于需要逐个优化一个培训过程，与单个模型相比，教师和K个学生需要K×本文提出了一种在一代时间内完成T-S优化的快照算法（SD），据我们所知，这在以前的研究中是没有实现的。SD和先前方法之间的差异总结在表1中。SD的关键思想很简单：接受额外的监督（又名教师信号）从先前迭代（在同一代中）而不是先前代中。基于这一框架，我们研究了影响T-S优化的几个因素，并总结出三个原则，即：（i）教师模型已经得到了很好的优化;（ii）SA？IN？一千？知识蒸馏（2015年）[19][35]第35话[2016年][5]C来自KD的礼物（2017）标签精炼厂（2018）[2]CC重生网络（2018）[11]C宽容的教师（2018）[49]CC12860教师模型和学生模型彼此之间有很大的不同;以及（iii）教师提供次要信息[49]供学生学习。总结这些要求，我们的解决方案是使用循环学习率策略，其中每个周期的最后一个快照（达到高精度，因此满足（i）），作为下一个周期中所有迭代的教师（这些迭代在学习率提升后被拉离教师，满足（ii））。我们还引入了一种新的方法来平滑教师信号，以提供温和和更有效的监督（满足（iii））。在用于图像分类的两个标准基准中进行实验，即CIFAR100 [24]和ILSVRC2012 [36]。SD始终优于基线（直接优化），特别是在更深的网络中. 此外，SD仅需要不到1/3的额外列车-超过基线的时间（见第3.3.4节，tails），理论上和实际上比现有的K-多代方法快K倍[11，49，2]。我们还微调了SD训练的模型，用于PascalVOC数据集[10]中的对象检测和语义分割，并观察到准确性增益，这意味着SD带来的改进是可转移的。本文的其余部分组织如下。第2节简要回顾了相关工作。第3节描述了快照蒸馏，并提供了T-S优化在一代。在第4节中展示了实验之后，我们在第5节中结束这项工作。2. 相关工作最近，计算机视觉研究在很大程度上受到了深度学习的推动[26]。随着大规模数据集[7]和强大的计算资源的可用性，研究人员设计了深度网络来取代传统的手工特征[32]用于视觉识别。其基本思想是建立一个包含多个层的分层网络结构，每个层包含许多具有相同或相似神经功能的神经元，例如，卷积、池化、归一化等。深度网络在拟合复杂特征空间分布方面的强大能力在以前的文献中得到了广泛的验证在被称为图像分类的基本任务中，深度卷积神经网络[25]在大规模竞争中占据主导地位[36]。为了进一步提高分类准确性，研究人员设计了更深的网络[37，40，18，22，20]，并探索了自动发现网络架构的可能性[46，57，27]。深度神经网络的快速发展帮助了许多视觉识别任务。从预训练的分类网络中提取的特征可以转移到小数据集，用于图像分类[8]，检索[33]或对象检测[14]。将知识传递到更广泛的领域研究人员经常采用一种称为微调的技术，即用一些专门设计的模块（例如，上采样用于语义分割[28，3]和边缘检测[48]或用于对象检测的区域建议提取[13，34]），以便网络可以利用目标问题的属性，同时从基本分类中借用视觉特征。另一方面，优化深度神经网络是一个具有挑战性的问题。当层数变得非常大时（例如，超过100层），普通梯度下降方法经常遇到稳定性问题和/或过拟合。为了处理它们，研究人员设计了各种方法，如ReLU激活[30]，Dropout [39]和批量标准化[23]。然而，随着深度的增加，大量的参数使得神经网络很容易过度自信[15]，特别是在训练数据有限的情况下。一种有效的方法是引入额外的先验或偏见来约束训练过程。一个流行的例子是假设一些视觉类别比其他类别更相似[6]，因此将类别级别的相似性矩阵添加到损失函数[43，45]。然而，该方法仍然缺乏对每图像类级相似性（例如，，一张图片中的猫可能看起来像狗，但在另一张图片中，它可能更接近兔子），这在以前的研究中观察到[44，1，52]。师生优化是一种有效的方式来制定每图像类级相似性。在该流程图中，首先训练教师网络，然后用于指导学生网络，使得每个图像的类级相似性由教师的输出（例如，置信度分数）。这个想法最初是为了从更大的教师网络中提取知识并压缩将其转换为较小的学生网络[19，35]，或者使用较浅/较窄网络的预训练权重初始化更深/更宽的网络[5，37]。后来，它在各个方面得到了扩展，包括使用调整后的教师监督方式[41，31]，使用多名教师进行更好的指导[42]，为中间神经反应增加监督[50]，以及允许两个网络相互提供监督[55]。最近，研究人员指出，这种想法可以用于优化多代深度网络[2，11]，即具有相同架构的几个网络逐一优化，其中下一个网络从上一个网络中借用监督。有人认为，教师信号的柔和性在培养好学生方面起着重要作用[49]。尽管这些方法在提高识别准确率方面取得了成功，但它们的训练效率较低，因为在K代过程中（一名教师和K名学生）需要K×更多的训练时间。一个鼓舞人心的线索来自努力训练几个模型的合奏内相同的[21]这一时期，培训成本大大降低。12861nnL3. 快照蒸馏本节介绍了快照蒸馏（SD），第一算法一：快照蒸馏输入：训练集D，迭代次数L，.TSL实现师生（T-S）优化的方法在一代人之内。本文首先简要介绍了T-S优化的一般流程，并建立了一个符号系统。训练配置1 初始化θ0;对于l = 1，2，. . . ，我知道γl，λl，λl，cll=1;透射电镜然后，我们分析了限制其发展的主要困难，效率，在此基础上，我们制定SD和讨论的原则和技术，以提高其性能。3.1. 师生优化假设深度神经网络为M：y =f（x; θ），其中x表示输入图像，y表示输出数据（例如，用于分类的G维向量，其中G是类的数量），并且θ表示可学习的参数。这些参数通常被初始化为随机噪声，然后使用具有N个数据样本的训练集进行优化D={（x 1，y 1），. . . ，（xN，yN）}。传统的优化算法是通过采样来小批量或来自训练集的子集它们中的每一个，表示为B，被馈送到当前模型中，以估计预测和地面实况标签之间的差异：3从D中取样一小批B1;4使用等式（3）计算损失L（Bl;θl−1）;5θl<$θl−1−γl·θl−1L（Bl;θl−1）6端部返回：M：y = f（x;θ=θL）。M（ 0 ），在第k代中，M（ k−1 ）被用来教导M（k）。 [49]说明了设置宽容教师的必要性，这样学生才能从类级相似性中吸收更丰富的信息，达到更高的准确率。尽管T-S优化在提高识别准确率方面具有很强的能力，但它通常具有计算量大的缺点通常情况下，一个教师和K个学生的T-S过程花费K×多的时间，但这个过程通常很难并行化1。这激励我们L（ B; θ）=−1|B|Σ（xn，yn）∈By∈ ln f（xn;θ）。（一）提出了一种在一代时间完成T-S优化的快照蒸馏方法。3.2. 快照蒸馏该过程在参数空间上搜索以找到解释或拟合D的近似最优θ。然而，以这种方式训练的模型经常过度拟合训练集，即，θ不能被转移到测试集中以实现如在训练集中的良好性能中观察到在先前的工作[15]中，这部分是因为监督是在独热向量中提供的，这迫使网络压倒性地偏好真实类而不是所有其他类-为了缓解这个问题，提出了师生（T-S）优化，其中预先训练的教师网络向损失函数添加了额外的项以测量KL-SD的概念非常简单。为了在一代中完成T-S优化，在训练过程中，我们总是从较早的迭代中提取教师信号，通过该迭代，我们指的是同一模型的中间状态，而不是单独优化的另一模型。在数学上，设θ0为随机初始化的参数。基线训练过程总共包含L次迭代，其中第l次迭代对小批量Bl进行采样，计算公式（1）的梯度，并将参数从θl−1更新为θl。 SD的工作原理是为第l次迭代分配一个数字cl1.一、在知识升华的框架下，在KL发散之前，学生信号也应该被软化在每个教师具有小的学习率之前，这使得网络在用大的学习率进行足够的训练迭代之后收敛到可接受的状态。为了满足这两个条件，我们要求每个小世代的学习率从一个大值开始，然后逐渐衰减。在实践中，我们使用余弦退火策略[29]，该策略已被验证收敛得更好：是用教师信号计算的。原因是，具有浅架构的学生无法完全模仿具有深架构的教师的相同输出[2，19]，从而匹配软1γl=2αklΣ。×1+cos′kl−1′ ′klkl−1ΣΣ.（五）他们的输出版本是一个更合理的选择。知识蒸馏的目的是匹配输出，迫使学生预测教师预测的内容越好.然而，我们的目标是在T-S优化中生成辅助信息，而不是匹配。因此，我们不将学生信号除以T。该策略还与在最初的迭代中使用的等式1（即，不提供教师信号）。在实验中，我们观察到更快的收敛以及一致的精度增益我们称之为不对称蒸馏。3.3.4总结与解决方案总结以上三个原则，我们提出了我们的解决方案，以提高SD的性能。我们将整个训练过程中的L次迭代划分为K个迷你，与L1、L2的基因重排。 . . ，Lk次迭代，关于ively，这里，kl是l的最小生成的索引，αkl是在这个最小生成开始时的起始学习速率（通常设置为大）。最后，我们按照第3.3.3节使用不对称蒸馏以满足原则3。3.4. 讨论如果我们设L1=L2=. . . =LK并关闭教师信号，上述解决方案退化为快照集合（SE）[21]。在实验中，我们在相同的设置下比较了这两种方法，发现两种方法在CIFAR100上都工作得很好（SD报告了更好的结果），但是在ILSVRC 2012上，SD在基线上实现了更高的准确性，而SE没有。这可以说是因为CIFAR100相对简单，使得原始设置（L次迭代）对于收敛是过度充足的，并且因此减少每个最小代的迭代次数不会导致显著的精度下降。和Kk=1Lk= L。每一个小程序中的最后一次迭代然而，ILSVRC 2012更具挑战性，因此一代充当下迷你一代也就是说，有K-1教师。第一个老师是L′=L1次迭代时的快照，收敛成为SD和SE的主要缺点。SD，通过T-S优化带来的额外好处1弥补了这一差距，并优于基线。第二个在L2=L1+L2迭代，最后一个在请注意，上述解决方案只是一种选择。下′K−1 =L1+ L2。. . + LK−1迭代。我们拥有：算法1和三个原则，其他训练策略-cl= max{L′，L′< l}。（四）可以探索GIES，例如：，使用超收敛[38]k k，以减轻较弱收敛的缺点。这些对于l≤L′，为了后面的方便，我们定义cl=0，在这种情况下， λS=1 ， λT=0 ，方程（ 3 ）退化为方程（1）。与普通训练方案相比，SD需要1×K−1次额外计算：最后一个K-1迷你-今后将研究各种备选办法4. 实验4.1. CIFAR100数据集需要更多的教师第对于我们的CIFAR100实验（第4.1节，K=4）和16，该数字为25%。ILSVRC 2012实验的7%（第4.2节，K=2）。与其他K-生成方法[11，49]相比，SD在理论上和实践上都快K倍，因为除了第一代之外，所有其他方法都遵循原则#2，我们将假设每个教师之后的迭代都有很大的学习率，以确保教师和学生模型之间有足够的差异。同时，根据原则#1，教师本身应该是好的，这意味着迭代•设置和基线我们首先在CIFAR100数据集[24]上评估SD，这是一个包含60，000个RGB图像的低分辨率（32×32）数据集这些图像被分成50，000张图像的训练集和10，000张图像其中，图像均匀地分布在所有100个类（20个超类，每个超类包含5个精细级2SE论文[21]报告了ResNet50的更高准确性，但它与逐步学习率策略的基线进行了比较，而不是应该作为直接基线的余弦退火策略。后者的基线比前者高出1%以上，也优于SE。l−LLL·π12864骨干Alg.不M#L1M#L2M#L3M#L4最好合奏SOTAResNet20BLN/A−−−三十三岁。57三十三岁。57−年--SEN/A三十六17三十三岁。36三十二98三十二66三十二54三十86SD2三十六17三十三岁。78三十二98三十二31三十二31三十二082016年[51]19号。25SD3三十六17三十三岁。69三十二2431岁9731岁76三十76ResNet32BLN/A–––31岁6131岁61–2017年[54]19号。25SEN/A三十三岁。78三十二1531岁41三十74三十5128岁93SD2三十三岁。78三十二0731岁05三十67三十5729岁802017年[56]十七岁73SD3三十三岁。7831岁52三十64三十32三十1628岁71ResNet56BLN/A–––三十2329岁94–2017[47]十七岁31SEN/A三十二8531岁60三十4529岁6829岁55二十七岁93SD2三十二85三十4729岁7229岁2929岁2228岁112017年第22期十七岁18SD3三十二85三十8229岁5529岁3729岁28二十七岁74ResNet110BLN/A–––28岁7728岁53–2017年[16]十七岁01SEN/A31岁8929岁8129岁0728岁2728岁09二十六岁45SD231岁8929岁8428岁71二十七岁71二十七岁52二十七岁192017年[53]十六岁80SD331岁8929岁2228岁37二十七岁87二十七岁75二十六岁19DenseNet100BLN/A–––二十二岁49二十二岁00–2017年[9] 十六岁53SEN/A二十四岁31二十二岁76二十二岁16二十二岁18二十二岁0019号。63SD2二十四岁3123岁10二十二岁0621岁7821岁5920块272017年[12]十五岁85SD3二十四岁3123岁1921岁6021岁1721岁1719号。71DenseNet190BLN/A–––十六岁82十六岁69–2018[11]十四岁90∗SEN/A十八岁98十八岁12十六岁95十六岁84十六岁70十五岁70SD2十八岁98十七岁48十六岁32十八岁02十六岁06十五岁722018年[49]十四岁47∗SD3十八岁98十七岁67十六岁95十八岁65十六岁33十五岁9212865表3. CIFAR100分类误差（%）由不同的网络骨干获得。关于算法选项，BL表示使用余弦退火学习率训练的基线模型，SE表示在整个训练过程中使用与SD相同的学习率策略的快照集成。T是温度项。我们在每个小世代结束时报告准确性，在最佳时期，并由模式系综（M#L1M#L4）。 M#Lk的logits乘以Tk−1，得到SD的系综。在最先进的（SOTA）方法中，星号表示使用模型集成来实现相应的错误率。此外，[12]使用了复杂的数据增强来实现15的错误率。85%类）。我们没有在CIFAR 10数据集上进行实验，因为它不包含精细级别的视觉概念，因此T-S优化带来的好处并不显著（如[11]中观察到的和[49]中分析的）。我们调查了两组基线模型。第一组包含标准的深度ResNets [18]，其中20，32，56110层。给定一个32×32的输入图像，首先执行卷积，而不改变其空间分辨率接下来是三个阶段，每个阶段都有几个残差块（两个3×3卷积与恒等连接相加批量归一化[23]和ReLU激活[30]在每个卷积层之后应用。空间分辨率在三个阶段（32 ×32，16×16和8×8），以及通道（16、32和64）。在前两个阶段中的每一个之后插入平均池化层。该网络以全球平均池化，然后是具有100个输出的全连接层。第二组有两个DenseNets [22]，分别有100层和190层。这些网络与ResNet共享类似的架构，但每个阶段的构建块都是密集连接的，每个块的输出都连接到累积的特征向量并馈送到下一个块。DenseNet100的基本特征长度和增长率分别为24和12，DenseNet190为80和40按照惯例，我们从头开始训练所有这些网络。我们使用标准的随机梯度去-气味（SGD），权重衰减为0。0001和Nesterov动量为0。9 .第九条。在 ResNets中，我们训练网络164个epoch，小批量大小为128，基本学习率为0。1.一、在DenseNets中，我们训练网络300个epoch，小批量大小为64，基本学习率为0。1.一、使用余弦退火学习率[29]，以便在基线和SD.在训练过程中，使用标准的数据增强，即。，每个图像在四个边的每一个上都用4像素的边缘进行了填充。扩大后的40× 40图像，随机裁剪32 × 32像素的子区域，并以0. 五、我们在测试阶段不使用任何数据增强。为了应用SD，我们将整个训练过程均匀地划分为4个小代，即，K = 4。对于ResNets，我们有L1=41，L2= 82和L3= 123，对于DenseNets，L1= 75，L2= 150和L3= 225。相同的学习率12866αk= 0。1在每个最小代的开始时使用，并按照方程（5）衰减我们分别使用T=2和T=3的不对称蒸馏策略（第3.3.3节）在等式（3）中，我们设置λS=1+1/T，λT=1ILSVRC 2012 [36]，它是ImageNet数据库[7]的一个流行子集。它包含1. 3M训练图像和50K测试图像，全部为高分辨率图像，共覆盖1000个上的分布L l两个人的距离，在两个人的距离上，都是一样的。•定量结果和分析结果总结在表3中。走向公平--然而，对于相同骨干的不同实例，以相同的方式初始化网络权重，尽管训练过程期间的随机性（例如，数据混洗和扩充）是不统一的。此外，第一个迷你代（M#L1，没有T-S优化）在SE（快照集成）和SD之间共享我们首先观察到SD为所有模型带来一致的准确性增益，无论网络主干如何，并且超越基线和SE。在最强大的基线DenseNet190中，T=2的SD实现了错误率为16. 06%在最好的时代，这是有竞争力的最先进的技术（所有这些都报告了最好的时代）。此外，在从M#L1到M#L4的模型集成方面，SD提供了与SE可比较的数字，尽管我们强调SD专注于优化单个模型而SE，具有较弱的单个模型，需要集成来提高分类精度。另一种解释来自SD的优化策略通过引入教师信号来优化每个学生，SD中的不同快照倾向于共享比SE更高的相似性，这就是SD报告从单个模型到模型集合的更小精度增益的原因。另一个要讨论的重要话题是不对称蒸馏如何影响T-S优化，我们给出了几个证据。当温度项T >1时，研究物趋于变得更光滑，即：，类的熵分布比较广。然而，如[11]和[49]所示，T-S优化通过在确定性和不确定性之间找到一个平衡点来实现令人满意的性能，因此，随着后者逐渐增加，我们可以观察到一个峰值在分类精度上。在T = 2的DenseNet190中，该峰值出现在第三个最小生成期间，该最小生成在16处实现最低错误率。06%，但最终的错误率上升了18。02%。类似的现象也出现在T = 4的DenseNet100中，它在第三个小世代时也达到了最低的误差（最低误差为21。26%与最后一个错误21。86%），以及T>5的ResNets。这表明，最佳温度项与网络骨干网密切相关。对于更深的骨干（例如，，DenseNet190）本身具有很强的数据拟合能力，我们使用更小的T引入更少的软标签，减少歧义。4.2. ILSVRC2012数据集•设置和基线我们现在研究一个更具挑战性的数据集，类在训练集中近似均匀，并且在测试集中严格一致。我们使用101层和152层的深度ResNets [18]。它们与用于CIFAR 100的ResNet共享相同的整体设计，但在每个残差块中，存在所谓的瓶颈结构，该瓶颈结构将通道数量压缩3/4，然后恢复原始数量。每个输入图像的大小为224×224。后的第一7×7卷积层，步长为2，3×3最大池化层，四个主要阶段，区块数（ResNet101： 3、4、23、3; ResNet152：3、8、36、3）。这四个阶段的空间分辨率为56×56、28×28、14×14和7×7，通道数分别为256、512、1024和2048在这四个阶段之间插入三个最大池化层。网络以全局平均池结束，然后是一个有1000个输出的全连接层。我们遵循惯例来配置培训页面-半径。标准的随机梯度下降（SGD），权重衰减为0。0001和Nesterov动量为0。9使用。在总共90个epoch中，mini-batch大小固定为256。我们仍然使用余弦退火学习率[29]从0开始。1.一、在训练中应用了一系列数据增强技术[40]来减轻过度拟合，包括重新缩放和裁剪图像，随机镜像和旋转（轻微）图像，改变其纵横比和执行像素抖动。在测试阶段，使用标准的单中心裁剪。为了应用SD，我们设置K=2，将训练过程分成两个相等的部分（每个部分有45个epoch）。使用较小K的原因（与CIFAR经验相比，在具有高分辨率图像和更复杂语义的ILSVRC 2012关于温度项，我们固定T=2。其他设置与CIFAR实验中相同。•定量结果实验结果总结于表4中。 SD就前1和前5错误率而言，在基线上实现一致的准确度增益在ResNet101上，前1和前5个错误下降了0。37%和0。25%，或1。71%，4。31%;在ResNet 152上，前1和前5个错误下降了0。26%和0。11%，或1。23%和1。94%相对而言这些改进似乎很小，但我们强调，（i）据我们所知，是第一次在ILSVRC 2012上通过T-S优化在一代内实现更高的模型精度;(ii)SD还与SENet合作良好[20]，一个强大的12867骨干mAP@2007mIOU@2012ResNet152-BL七十三。49七十七。53ResNet152-SD74岁93七十七。97表5.PascalVOC物体检测（2007年，mAP，%）和seman-tic分割（2012，mIOU，%）结果，两者都是通过使用FasterR-CNN [34]和DeepLab-v3 [4]在ILSVRC 2012上微调预训练的深度网络表 4. 通过不同网络主干获得的 ILSVRC 2012 分类误差（%）。关于算法选项，BL表示使用余弦退火学习率训练的基线模型，以及T= 2的SD快照蒸馏。 SE [21]的错误率为21。ResNet101和21的66%。19%在ResNet152上– even worse than “+S” means equipping the network withsqueeze-and-excitation modules (SENet60通过10个epoch以16的小批量大小被馈送到网络中。我们开始学习率为0。01，并在8个epoch后将其除以10。对于PascalVOC 2012上的语义分割，10，582个训练图像[17]通过50个epoch被送入网络，小批量大小为8.我们使用“poly”学习率策略，其中初始学习率为0。007，功率为0。9 .第九条。表4.3总结了mAP和mIOU的结果。人能可以看出，ILSVRC 2012上具有更高精度的模型在这两个任务中也工作得更好，即微调后，SD带来的好处保持不变。此外，我们强调，55504540353025200102030405060708090训练时期23.022.522.021.521.020.58284868890训练时期具有相同网络架构的SD不需要迁移学习的任何额外成本，声称其在广泛的视觉问题中的潜在应用。5. 结论本文提出了一种快速蒸馏（SD）的教学框架，实现了教师-学生（T-S）教学模式。图1. ResNet152的训练和测试曲线。右图显示了左图矩形区域中的详细信息以及对骨干的一般化附加;以及（iii）这些准确度增益很好地转移到其他视觉识别任务，如下一小节所示。我们绘制了ResNet152训练过程中的基线和SD曲线。我们可以看到，在第二小代中，SD实现了更高的训练误差，但更低的测试误差，即。，训练和测试精度之间的差距变得更小，这与我们的动机一致，即T-S优化消除了过度拟合。4.3. 转移实验最后但并非最不重要的是，我们对ILSVRC 2012上预训练的模型进行了微调，以适应PascalVOC数据集[10]中的对象检测和语义分割任务，PascalVOC数据集是计算机视觉中广泛使用的基准。最强大的模型，即。ResNet 152的基线和SD版本使用标准方法进行传输，该方法保留了网络骨干（最终池化层之前的所有层），并引入了一个称为Faster R-CNN [34]的网络头用于对象检测，DeepLab-v3 [4]用于语义分割。此模型以端到端的方式进行微调。用于PascalVOC2007上的对象检测，5，011个训练图像在一代人中进行优化。据我们但是，这个目标以前从未实现过。关键的贡献是从相同训练过程的先前迭代中获取教师信号，并讨论影响SD性能的三个原则。最终的解决方案很容易实现，但执行起来很有效在不到1/3的额外训练时间内，SD始终提高了CIFAR 100和ILSVRC 2012上几个基线模型的分类准确性，并且在其他视觉任务上对训练模型进行微调后，性能增益仍然存在。、目标检测、语义分割。我们的研究减少了T-S优化的基本单元从一个完整的代，这是由一些迭代的最小代。阻止我们进一步划分这个单元的根本我们相信存在一种消除这种限制的方法，尽管还没有找到，这样基本单元可以更小，例如。一次迭代。通过这种方式，我们可以将上一次迭代的监督集成到当前迭代中，获得一个新的损失函数，其中教师信号显示为高阶梯度项。我们把这个留给未来的研究。致谢本文得到了NSF奖项CCF-1317376和ONR N 00014-12-1-0883的支持。我们感谢乔思源、王慧宇和刘晨曦，他们为改进本研究提供了见解和专业知识。SD 系列SD 测试BL _列车BL _测试骨干Alg.M#L1M#L2Top-1Top-5Top-1Top-5ResNet101BL−−21岁62五、80ResNet101SE二十二岁94六、51二十二岁14六、07ResNet101SD二十二岁94六、5121岁25五、55ResNet152BL−−21岁17五、66ResNet152SE二十二岁56六、4421岁84五、84误差（%）12868引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特用于图像分类的标签嵌入. IEEE Transactions on Pattern Analysis andMachine Intelligence，38（7）：1425- 1438，2016。2[2] H. Bagherinezhad ， M.Horton ， M.Rastegari 和 A. 法哈迪。标签精炼厂：通过标签进展改进图像网分类。arXiv预印本arXiv：1805.02641，2018。一、二、三、四、五[3] L. C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。在2016年学习代表国际会议2[4] L. C. Chen，G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv预印本arXiv：1706.05587，2017. 8[5] T. 陈岛，澳-地Goodfellow和J.史伦斯Net2net：通过知识转移加速学习在2016年国际学习代表会议上一、二[6] J. Deng，A. C. Berg，K. Li和L.飞飞分类超过10，000个图像类别能告诉我们什么？2010年欧洲计算机视觉会议。2[7] J. Deng，W.东河，巴西-地索赫尔湖Li，K. Li和L.飞飞Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。二、七[8] J. Donahue，Y. Jia，O. Vinyals，J. Hoffman，N. 张先生，E. tzeng和T.达雷尔。Decaf：用于通用视觉识别的深度卷积激活功能在2014年的国际机器学习会议上2[9] X. Dong，G. K.，K. Zhan和Y.杨Eraserelu

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

快照蒸馏：一代师生优化

数据库快照：数据备份、恢复与性能优化的关键技术

DemoApplication 无法检索应用程序 Bean 快照: :application=*

oracle快照过旧

Elasticsearch 怎么停止自动快照？

vmware虚拟机快照的使用

Elasticsearch 怎么自动快照？

Centos7系统快照命令。

kvm 使用快照方式创建虚拟机

分布式快照（Distributed Snapshot） 分布式快照：特定时间点记录下来的分布式系统的全局状态（global state）。 分布式快照主要用途：故障恢复（即检查点）、死锁检测、垃圾收集等。 根据现实举例。

Linux保存快照的注意事项

设置 /opt/result为快照目录，并创建快照 snapshot01；

ORA-00604:递归SQL级别1发生错误 ORA-0155:快照太旧：名称为“”的回滚段编号太小 ORA-22924：快照太旧

openstack 查看磁盘命令

oracle快照过久

oracle 快照恢复数据

快照: {"windowLength":30,"mainField":"userId","subField":"","countMethod":1,"windowType":3}

hive累计快照事实表

基于快照创建pvc示例

elasticsearch 全量快照

最新资源

分布式快照（Distributed Snapshot）分布式快照：特定时间点记录下来的分布式系统的全局状态（global state）。分布式快照主要用途：故障恢复（即检查点）、死锁检测、垃圾收集等。根据现实举例。