没有合适的资源?快使用搜索试试~ 我知道了~
知识蒸馏:学生和教师架构的评估与效果分析
论知识蒸馏的功效张贤赵康奈尔大学jc2926@cornell.edu康奈尔大学bh497@cornell.edu图1.标准知识蒸馏图解。尽管广泛使用,但对学生何时可以向老师学习的理解却缺失了。摘要在本文中,我们提出了一个彻底的评估的效率,ficacy的知识蒸馏及其依赖于学生和教师的架构。从观察到更准确的教师往往不是好教师开始,我们试图梳理影响知识蒸馏绩效的因素。我们发现,重要的是,更大的模型往往不会成为更好的教师。我们表明,这是一个不匹配的能力的后果,小学生无法模仿大教师。我们发现规避这一点的典型方法(例如执行一系列知识蒸馏步骤)是无效的。最后,我们表明,这种影响可以通过提前停止教师我们的研究结果在数据集和模型中推广。1. 介绍在过去的几年里,视觉识别系统有了巨大的进步,但这些进步是由更深、更大的卷积网络架构驱动的这些架构的大计算复杂性限制了它们在许多下游应用中的使用。因此,最近有很多研究在较小的模型上实现相同或相似的精度。其中一些工作涉及构建更有效的神经网络家族[13,7],修剪较大神经网络的权重[10],量化现有网络以使用更少的权重和激活位[22],并将知识从较大的网络中提取到较小的网络中[12,1]。其中最后一种是知识蒸馏,它是一种通用技术,乍一看是广泛适用的,并补充了所有其他压缩神经网络的方法其关键思想是除了可用的类标签之外,还使用较大的“教师网络”的软概率(或这些软概率比单独的类标签揭示了更多的信息,据称可以帮助学生网络更好地学习。这种方法的吸引力在于它明显的普遍性:任何学生都可以向任何老师学习但是,知识的升华是否实现了这种普遍性的承诺呢不幸的是,尽管最近对知识蒸馏的变体感兴趣[17,24,23,21,27,26,5,14],但缺少对这个问题以前的实验通常只然而,有一些孤立的报告失败的实验与知识蒸馏表明,这可能不是真的。例如,Zagoruyko和Komodakis观察到他们这一点以及其他知识蒸馏似乎不能提高绩效的实验的特征是什么?是否有学生-教师组合表现更好?最后,我们是否可以做些什么来提高其他组合的性能在本文中,我们试图回答这些问题。我们发现,在一般情况下,教师的准确性是一个穷人的预测学生规模较大的教师,虽然他们本身更准确,但不一定是更好的教师。我们探讨了这一点的原因,并证明,随着教师能力和准确性的提高,学生往往发现很难模仿教师(甚至导致与教师logits的KL差异很高479424795KJekst(x)在训练期间)。我们表明,这个问题不能被Miti-门在以前的工作中提出的解决方案,如使用一系列的知识蒸馏步骤,以提高学生的准确性。最后,我们找到了解决问题的有效方法:通过及早停止对教师的培训来使教师正规化,并且停止接近收敛的知识蒸馏以允许学生更好地适应培训损失。我们的解决方案易于实施,并且在提高知识蒸馏效率方面全面本文的其余部分组织如下。在描述相关工作之后(第二节)。2),我们首先提供一些知识蒸馏和注意力转移的背景(第二节)。(3)第三章。然后,我们描述我们的实验设置(第二节)。4).节中5我们讨论我们的发现和经验证据2. 相关工作2.1. 知识蒸馏训练更小,更便宜的模型(“学生”)来模仿更大的模型(“教师”)的概念这种技术几乎可以开箱即用地应用于深度神经网络[1,12]。 在本文中,我们使用Hinton等人描述的知识蒸馏框架。[12]第10段。第3节简要介绍了知识蒸馏关于知识蒸馏的原始论文在几个小数据集上试验了这个想法这种方法不如从头开始训练的集成,此外,这种顺序知识蒸馏降低了网络作为教师的能力。更一般地说,我们发现,这些方法是高度依赖于学生的能力。事实上,我们发现它们在许多情况下是无效的,特别是当学生能力有限或数据集复杂时。在知识蒸馏的应用方面,先前的工作已经发现知识蒸馏对于序列建模[16,4]、半监督学习[21]、局部自适应[19]、多模态学习[9]等是有用的。知识蒸馏思想的广泛适用性使得对知识蒸馏思想的详尽评估变得更加重要。3. 背景:知识蒸馏知识蒸馏背后的关键思想是,经过训练的“教师”网络输出的软概率包含了关于数据点的更多信息,而例如,如果多个类别被分配用于图像的高概率,则这可能意味着图像必须靠近那些类别之间的决策边界。因此,强迫学生模仿这些概率应该会导致学生网络吸收教师在训练标签中发现的信息之外的一些知识。具体地,给定任何输入图像x,教师网络产生一向量的评分st(x)=[st(x),st(x),. . . ,st(x)],它们被转换为prob。12Kst(x)而是对知识的彻底经验评估任务不见了。与此同时,过去的工作重点一直是提高知识蒸馏的质量或寻找新的应用程序的想法。在前一个方向上,先前的工作已经探索了在中间层上增加额外的损失。能力:pt(x)=ek。训练的神经网络jej产生峰值概率分布,这可能是较少的信息。Hinton等人[12]因此建议使用温度缩放[8]来est(x)/τ学生的特征地图,使他们更接近那些pt(x)=(一)教师的[26,15,24]。Zhang等人训练一对模型,在每个时期双向提取知识[27]。Tarvainen等人发现在训练步骤上平均连续的学生模型往往会产生更好的表现学生[21]。Yang等人修改了教师网络的损失函数,使其更具一种改进知识蒸馏的特殊方法-kst(x)/τJ其中τ >1是超参数。一个学生同样会产生一个软化的类概率分布ps(x)。学生的损失则是典型交叉熵损失Lcls和知识蒸馏损失LKD的线性组合:L=α Lcls+(1 −α) LKDΣ哪里 LKD=−τ2p~t(x)logp~s(x)K K知识的升华是一种重复的知识升华(我们知道称之为连续知识蒸馏[23,6,17])。一使用顺序知识蒸馏的一种特殊方式是作为集成的替代方案,以提高模型的准确性[17,6]。例如,Furlanelloet al.[6]建议使用一系列知识蒸馏步骤来训练网络的集合,其中网络使用其自己的先前版本作为老师。有趣的是,我们的结果表明-α和τ是超参数;常见的选择是τ ∈{3,4,5}且α = 0。9[26,14,17,12]。4. 方法我们在CIFAR 10和Ima-geNet上进行了实验。在每种情况下,我们保持学生相同,并使用24796不同能力的多名教师进行知识提炼。CIFAR10对于CIFAR10上的实验,我们使用动量为0的SGD运行每个模型200个历元。9,并设置初始学习率γ=0。1,下降0。每60个时期2次。对数据集应用标准数据扩充。对于关于知识蒸馏的超参数,我们与流行的选择保持一致([12],[26]):温度τ=4,α=0。9,张力转移时β=1000将相同的实验重复5次,并报告中值、平均值和标准偏差我们考虑三种不同的网络架构:ResNet [11],WideResNet [25]和DenseNet [13]。ImageNet对于ImageNet实验,我们遵循Zagoruyko等人 。 [26] 密 切 相 关 , 因 为 据 我 们 所 知 , 这 是ImageNet上第一个成功的知识蒸馏工作 我们使用了nesterov动量为0的SGD。9,初始学习率γ=0。1,重量衰减1 ×10−4,学习率下降0。每30个时期1次作为对 于 CIFAR10 , 我 们 设 置 温 度 τ=4 , α=0 。 9 ,β=1000的注意转移。对于ImageNet实验,我们考虑ResNet [11]。5. 结果5.1. 更大的模特不是更好的老师知识蒸馏背后的想法是,来自训练有素的教师的软概率比单独的真实标签更能反映数据。人们可能会期望,随着教师变得更加准确,这些软概率将更好地捕捉潜在的班级分布,从而更好地监督学生。因此,直觉上,我们可能会认为更大、更准确的模型可能会成为更好的教师。我们首先在CIFAR10数据集上评估这是否正确。在图2中,红线和蓝线显示了不同教师训练的不同学生网络的准确性;左边的图改变教师的“深度”,而右边的图改变教师的“宽度”。从这些实验中,我们发现,更大、更准确的模型能造就更好的教师的假设是不正确的:尽管教师的准确性随着教师的变大而继续上升(参见教师准确性的补充),但学生的准确性上升,然后开始下降。人们可能会想知道这是否是CIFAR数据集的人工产物。我们在ImageNet上重复了这个实验,以ResNet18为学生,ResNet18、ResNet34、ResNet50和ResNet152为教师。结果示于表1中。可以看出,随着教师变得更大和更准确,学生变得不那么准确。教师错误(%)学生错误(%)- -30.24ResNet18 30.24 30.57ResNet34 26.70 30.791000万23.85 30.95表1. ImageNet上ResNet18学生的各种教师的前1错误率。第一行对应于从头开始的训练。实习教师KD误差(%,列车)KD误差(%,试验)公司简介0.234.05公司简介0.254.53WRN28-1WRN28-60.234.54WRN 28 -80.314.81WRN 16 -31.706.32WRN 16 -1 WRN 16 -41.696.52WRN 16 -61.946.91WRN 16 -81.697.01表2.多名教师和学生在CIFAR10上的 KD错误补充资料显示,随着深度的增加,教师的结果也相似。这种下降的原因可能是什么?一种可能性是,随着教师变得更加自信和更加准确,输出概率开始越来越多地反映真实标签的独热编码,因此学生可用的信息减少。然而,高温软化概率[12]并没有改变这一结果(详见图6,表10),使这一假设无效。下面,我们提出一个替代假设。5.2. 分析学生和教师的能力为什么一个更大、更准确的老师1. 学生能够模仿老师,但这并不能提高准确性。这将表明KD损失与我们关心的准确性度量之间的2. 学生无法模仿老师,这表明学生和老师的能力不匹配。我们在CIFAR 10和Ima-geNet上评估了这些假设。在表2中,我们显示了CIFAR的KD误差:学生和教师预测不同的例子的比例。表3中的奇数行显示了使用不同教师训练的ResNet 18学生在ImageNet上的KD损失。(We在CI-FAR上显示KD误差而不是KD损失,因为峰值输出分布引起的缩放问题)。24797图2.在CIFAR10上从不同教师提取的学生网络的错误图。WideResNet [25] 16-1(左/红,右/红),28-1(右/蓝))和DenseNet[13] 40-12(左/蓝)被用作学生网络。提高教师能力(深度:左,宽:右),因此准确度不一定增加学生网络的准确度,这表明教师网络的准确度单独不是知识蒸馏的有效度量。在这两种情况下,KD误差/损失对于最大的老师来说要高得多,这反过来导致最不准确的学生。这表明,学生无法模仿大的教师,并指出第二个假设,即,这是一个不匹配的能力。因此,我们假设在ImageNet和CIFAR上,由于容量低得多,学生无法在其空间中找到与最大教师对应的解决方案。5.3. 蒸馏对训练有请注意,知识蒸馏在ImageNet上的表现尤其糟糕,所有教师的学生准确率都低于从头开始训练的学生(表1)。虽然前面的部分表明学生可能没有足够的能力来匹配一个非常大的老师,但为什么没有老师提高ImageNet的准确性仍然是一个谜尽管最近有多篇关于知识蒸馏的论文,但关于ImageNet的实验很少报道。少数报告发现知识蒸馏的标准设置在ImageNet上失败[26],或者用ImageNet的一小部分进行但这其中的原因还没有被探索。我们对结果进行了更深入的研究。图3显示了从头开始训练的ResNet18和使用ResNet34的知识蒸馏之间的验证准确性图的比较。我们发现,虽然KD损失最初提高了验证准确性,但在训练结束时开始损害准确性。我们假设,因为ImageNet是一个更具挑战性的问题,低能力的学生可能处于欠适应状态。学生可能没有足够的能力来最小化训练损失和知识蒸馏损失,并且可能最终以牺牲另一个损失(交叉熵损失)为代价来最小化一个损失(KD损失),尤其是图3.完全知识传授和从头开始训练的错误图的Imagenet结果。在图中,学生使用ResNet34进行训练。知识提炼最初是有帮助的,但在培训后期开始损害准确性。同样的行为发生在不同教师的情节中(补充中的更多情节)。在训练结束时。这个假设表明,我们可能希望在训练过程的早期停止知识蒸馏,并在其余的训练中只对交叉熵损失进行梯度下降。我们将该过程表3显示了这个版本与标准知识蒸馏的比较,也显示了训练结束时的损失值我们发现,提前停止的版本是更好地为所有三个教师。我们还发现,与我们的假设一致,早期停止的版本比基线版本实现了更低的训练交叉熵损失和更高的KD损失,这表明后者模型确实在权衡一个损失与另一个还注意到24798老师前1位误差(%,测试)CE(火车)KD(火车)KD(测试)ResNet1830.570.1462.9163.358ResNet18(ESKD)29.010.1232.2342.491ResNet3430.790.1451.3571.503ResNet34(ESKD)29.160.1232.3592.582ResNet5030.950.1461.5531.721ResNet50(ESKD)29.350.1242.6592.940表3.提前停止知识提取可以防止学生降低其在ImageNet上的分类性能。这个尽早停止知识蒸馏的简单技巧现在给我们带来了知识蒸馏的好处:表3中所有提前停止的学生的表现都比从头开始训练的类似结构的模型好(30.24%的准确度)。然而,早期停止并没有改变我们最初的观察:更大,更准确的教师即使早期停止,我们发现,KD损失的测试集上增加教师的规模,这表明学生仍在努力模仿老师,这确实是一个问题的学生的能力。5.4. 知识反复升华如果教师和学生能力之间的差异非常大,一种可能性是首先从大型教师提取到中级教师,然后再提取到学生,以便每个知识提取步骤在学生和教师能力之间具有更好的匹配。这种顺序知识蒸馏的概念最近,Furlanello等人[6]试图训练一系列模型,其中序列中的第i个模型通过知识蒸馏进行训练以第i-1个模型为老师。他们发现,这种连续的知识蒸馏可能会提高性能-与从头开始训练的模型相比,对序列进行组合产生更好的模型。我们首先在CIFAR上用多个网络和知识蒸馏和注意力转移测试了这一说法(表4)。我们发现Furlanello等人 有 几 个 警 告 。 的 结 果 。 首 先 , 对 于 某 些 模 型(ResNet 8和ResNet 14),序列中的最后一个学生实际上不如从头开始训练的学生模型。这表明,网络架构在很大程度上决定了顺序知识蒸馏的成功第二,我们发现,虽然从整个序列的学生模型的集合优于从零开始训练的单个模型,但它并不优于从零开始训练的相同数量的模型这可能是因为通过一系列知识蒸馏步骤获得的学生可能彼此相关,因此可能不会产生强的系综。如果顺序知识蒸馏确实提高了模型的准确性,那么一个自然的问题是,最终的模型是否能成为更好的老师。为了评估这一点,我们进行了以下实验。我们选择WRN 16 - 1作为学生模型,WRN 16 -3作为老师(注意,这是图2所示的最佳老师)。然后,我们使用知识蒸馏的5次迭代序列来训练教师。我们比较了这种模式作为教师的有效性,与从头开始培训的教师相比。如表5所示,经过一系列知识蒸馏迭代训练的教师虽然更准确,但实际上并不是更好的教师。如上所述,我们可能对这种想法的变体感兴趣,我们首先尝试从“大型”模型提取到“中型”模型,然后从“中型”模型提取到“小型”模型。 如果这一做法奏效,它可能有助于我们避免学生和教师能力不同的问题。我们将这种逐步的知识提取与直接从大模型提取到小模型,或者从中等模型提取到小模型进行比较。这可能是一种绕过我们在图2中观察到的效果的方法,其中较大的模型不一定是更好的教师。我们使用WRN 16 -1作为小模型,WRN 16 -3(WRN 16 - 1的最佳教师)作为中模型,WRN 16 -8作为大模型进行了本实验。我们发现这种逐步蒸馏不起作用:它的性能几乎与直接使用大模型与小模型进行蒸馏完全相同(表6)。连续的升华不能帮助大模型成为更好的老师。我们在ImageNet上重复了其中的一些实验,并在表7中显示了结果。我们在基于上一节的结果执行知识蒸馏时使用早期停止。 序贯知识提取 在ImageNet上也是无效的。最佳结果对应于从“小”模型到另一个“小”模型的单一知识蒸馏是ResNet50,所有这些结果表明,尽管最初的承诺顺序蒸馏,它不是一个万能药,它特别是不帮助我们使用一个大的老师来训练一个小的学生显着不同的能力。5.5. 早期停止的教师是更好的教师在前一节中,我们已经证明了顺序知识蒸馏是无效的。 这可能是因为它没有解决核心问题:大个子教师找到的解根本不在小个子学生的解空间中。唯一的解决办法是找到一个老师,他发现的解决方案实际上是学生可以达到的。24799模型#参数方法上一代呃。所有一般Ensmeble错误擦除错误。划痕包围错误。ResNet80.07MAT+KD13.46912.78612.569*10.176ResNet140.17MAT+KD9.2268.6539.078*6.675WRN 16 -20.69MKD6.1015.1816.4284.865公司简介0.69MAT+KD5.6965.3106.4185.003表4.进行了5代知识蒸馏,并对最后一代蒸馏序列(Err.”),所有世代(Ensemble Err.第一代(以及相同数量的划痕模型的集合(“划痕包围错误”)。本文报告带有(*)的错误显示了重复知识蒸馏甚至降低性能的情况,并且对于所有模型都支持重复知识蒸馏无效的说法。老师老师学生培训误差(%)误差(%)刮擦5.345 KD迭代4.897.61(7.68±0.259)7.79(7.67±0.19)表5.知识的连续升华即使提高了准确性,也不会成为更好的教师。 学生是WRN 16 - 1,它实现了(8)的误差。759± 0.129.第129章从零开始老师是WRN 16 -3。培训程序大中小表6.利用序贯知识蒸馏从 从大型模型(WRN 16 -8)到中型模型(WRN 16 -3),以及从后者到小型模型(WRN 16 -1)没有帮助。最佳方法仍然是直接从中等模型提取训练过程第一教师第二位教师学生误差(%)误差(%)误差(%)大→小→小21.6929.4529.41中等→小→小23.8529.3529.35小→小→小30.2429.0129.15小→小→小[23]--30.12*小→小×5[23]--29.60*表7.序贯早停知识蒸馏(ESKD)的图像网络实验。 最后两行与顺序知识蒸馏的其他变体进行比较[*]表示编号继承自原始纸张。表8. ImageNet实验的总体结果。ESKD:早期停止的知识蒸馏,AT:注意力转移[26]。括号内的数字是教师培训提前停止时的总课时数。*报告的数字。我们可以执行网格搜索来找到最佳的教师网络架构,但这太昂贵了。相反,我们建议在培训教师时将其正规化。特别是,我们建议尽早停止对大教师的培训。有一些证据表明,一个只有几个epoch训练的大型网络表现得像一个小型网络,同时仍然包含比小型网络更大的搜索空间[3,18]。这种方法非常简单和便宜,因为只需要总历元数的三分之一到四分之一。我们在CIFAR10和ImageNet中评估了这个想法的有效性。图4绘制了错误率与CIFAR10上的总时期,其中X轴 表 示 每 个 教 师 被 训 练 的 时 期 的 总 数 。 与 其 他CIFAR10实验相同的超参数用于培训教师,除了总数方法老师前1位误差(%)划痕-30.24全KD [12]ResNet1830.57全KD [12]ResNet3430.79全KD [12]ResNet5030.95Seq.全KD [23]3 Gen.30.12*Seq.全KD [23]6 Gen.29.6米KD+ONE [17]3个分支29.45±0.23*全KD + AT [26]ResNet3430.94全KD + AT [26]ResNet3429.3*ESKDResNet1829.01ESKDResNet3429.16ESKDResNet5029.35ESKDResNet15229.45ESKD中文(简体)29.02ESKD中文(简体)29.05ESKD中文(简体)29.26Seq. ESKDL→S→S29.41Seq. ESKDM→S→S29.35Seq. ESKDS→S29.15ESKD + ATResNet3428.84ESKD + AT中文(简体)28.61误差(%)误差(%)误差(%)大号→中号→小号4.414.808.04(7. 99 ±0。二十四)中等→小-7.614(7. 68 ±0。第二十六章)大→小4.41-七块九毛(8. 03 ±0.14)248003方法老师前1位误差(%)前5名误差(%)划痕-47.3818.51ESKDResNet1847.0918.13完整KDResNet3447.8618.61ESKD中文(简体)47.1418.32完整KDResNet5047.9218.72ESKD中文(简体)47.0218.14ESKD中文(简体)47.2518.25表9.ImageNet实验中的每个学生网络都被微调到Places-365数据集,持续12个epoch,初始学习率为−1γ= 0。1和重量每3个时期衰减10方法老师前1位误差(%)前5名误差(%)划痕-30.2410.92完整KDResNet1830.7511.11完整KDResNet5030.9810.20完整KDResNet15231.2711.59ESKDResNet1829.009.91ESKDResNet5029.009.76ESKD中文(简体)28.899.76表10.在IamgeNet数据集上进行温度τ= 20的实验。高温增加了ESKD方法的总体结果(下半部分),而完全KD方法无差异(上半部分)。图4. CIFAR10结果检验了早期停止教师知识蒸馏的有效性。对于这两种学生类型(WRN 16 -1和WRN 28 -1),有明显的和学习率时间表。为了训练教师网络,学习率下降0。2每其中n是epoch的总数。 我们选择n∈ {35,50,65,80}。请注意,对于两个学生模型(WRN 16 -1和WRN 28 -1),所有提前停止的教师都支持比最佳的训练有素的教师(WRN 16 -3和WRN 28 -3)更好地引导学生。鉴于这些有希望的结果,我们接下来将注意力转向ImageNet。我们选择n∈ {35,50},对于35,学习率下降时间表为(15,25,30),对于50,学习率下降时间表为(20,35,45)其他超参数和设置是相同的与之前的ImageNet实验进行比较。表8显示了ImageNet上的结果,我们还将我们的结果与使用知识蒸馏或其变体的先前结果进行了比较。 简单地提前停止知识蒸馏与最大的,受过充分训练的教师的关系优于大多数先前的工作(2009年)。百分之四十五)。我们最好的老师是早期停止的ResNet34和训练有素的ResNet18。01%),其具有≈1。与从零开始训练的模型相比,性能提高了23点。2%,来自[17]的该架构的最知名结果。表8还显示了使用注意力转移的变体[26],24801对知识蒸馏的改进。教师和学生的提前停止都与注意力转移非常相容,导致比基线提高1.6分,比注意力转移获得的最佳数字提高0.7分[26]。5.6. 影响知识提炼的其他因素在上面的实验中,我们从同一个模型家族中抽取了学生和老师。我们现在的实验对象是来自其他可能不同的模范家庭的教师和学生。图5显示了作为学生和教师的DenseNets和Wide ResNets的各种组合。我们的结论,无论是无效的知识蒸馏从大的教师和利益,提前停止,在这些结果是明显的。α和τ的影响到目前为止,我们已经修复了KD和交叉熵之间的权衡,α=0。温度τ=4。 虽然温度的标准选择是τ∈ {3,4,5},但人们可能会怀疑我们关于早期停止的结论是否对这些选择敏感。 所示图6我们发现,在CIFAR10的这些超参数值范围内,早期停止的教师始终优于训练有素的教师 我们进一步研究了ImageNet数据集上的高温情况(表10);我们使用τ=20。高温理论上可以缓解24802图5.在所有不同的学生和教师配置中,从早期停止的教师培训的学生始终优于从正规教师培训的学生。使用DenseNet 40 -12和WideResNet 16 -1作为学生网络,使用具有不同宽度和深度的DenseNet和WideResNet模型作为教师(x轴)[13,25]。更多的结果在补充。教师的峰值逻辑下降并且可能导致更好的表现。我们发现,高温确实增加了早期停止知识蒸馏(最早停止的老师仍然表现得最好。虽然我们已经看到ImageNet的准确性存在差异,但卷积网络的一个重要方面是它们如何很好地转移到其他任务。在表9中,我们检查了蒸馏网络是否可以针对Places365上的分类进行微调,迁移学习的结果与CI-FAR和ImageNet实验一致(完全KD对完全KD)。早期停止KD,小型与大的教师,和定期与早期停止的教师),证明我们的研究结果也适用于转移。图6. CIFAR10结果检验了使用早期停止网络作为教师的有效性对于不同的超参数设置是一致的。WRN 16 -8(ES)与最佳老师WRN 16 -3相比具有相同/更好的选择WRN 16 -1作为学生网络。6. 结论在本文中,我们提出了一个详尽的研究影响因素的知识蒸馏。我们的关键发现是,知识升华不是灵丹妙药,当学生能力太低而无法成功时,他们无法完全模仿老师。我们已经提出了一种方法来缓解这个问题,通过停止教师培训早期,恢复一个更适合学生的解决方 案 。 最 后 , 我 们 展 示 了 这 种 方 法 在 CIFAR10 和ImageNet上的好处,以及在Places365上的迁移学习。我们认为,在它作为一种普遍而实用的方法取得成功之前,有必要进一步研究解释的细微差别。24803引用[1] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗?在NIPS,2014。[2] CristianBuciluaˇ , RichCaruana , andAle xandruNiculescu-Mizil.模型压缩。第12届ACM SIGKDD知识发现和数据挖掘国际会议集,2006年。[3] 里奇·卡鲁阿纳史蒂夫·劳伦斯和C·李·贾尔斯神经网络中的过拟合:反向传播,共轭梯度和早期停止。神经信息处理系统的进展,第402-408页,2001年[4] Yevgen Chebotar和Austin Waters从神经网络集合中提取知识用于语音识别。InInterspeech,pages 3439[5] 陈国斌,崔元根,项羽,韩东,和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。在重症盖永诉卢森堡S. Bengio,H.瓦拉赫河Fergus,S. Vishwanathan和R.Garnett,编辑,神经信息处理系统进展,第742-751页Curran Associates,Inc. 2017年。[6] Tommaso Furlanello , Zachary C Lipton , MichaelTschan-nen,Laurent Itti,and Anima Anandkumar.重生的神经网络在ICML,2018。[7] Ariel Gordon、Elad Eban、Ofir Nachum、Bo Chen、HaoWu、Tien-Ju Yang和Edward Choi。Morphnet:快速简单的在CVPR,2018年6月。[8] Chuan Guo , Geoff Pleiss , Yu Sun , and Kilian QWeinberger.现代神经网络的校准。ICML,2017。[9] Saurabh Gupta,Judy Hoffman,and Jitendra Malik.监督转移的交叉模态提取。在CVPR,第2827-2836页[10] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。ICLR,2016年。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[12] Geoffrey Hinton Oriol Vinyals和Jeffrey Dean在神经网络中提取知识。在NIPS深度学习和表示学习研讨会,2015年。[13] Gao Huang,Zhuang Liu,Laurens van der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在CVPR,2017年。[14] 黄泽浩和王乃艳随你喜欢:通过神经元选择性转移进行知识提取.arXiv预印本arXiv:1707.01219,2017。[15] 黄泽浩和王乃艳随你喜欢:通过神经元选择性转移进行知识提取.arXiv预印本arXiv:1707.01219,2017。[16] Yoon Kim 和 Alexander M. 急 序 列 级 知 识 蒸 馏 。 在EMNLP中。计算语言学协会,2016年。[17] 徐澜,朱夏天,龚少刚。通过即时本地集成进行知识蒸馏。在NIPS,2018年。[18] Maren Mahsereci,Lukas Balles,Christoph Lassner,andPhilipp Hennig.在没有验证集的情况下提前停止。arXiv预印本arXiv:1703.09580,2017年。[19] Zhong Meng,Jinyu Li,Yifan Gong,and Biing-HwangJuang. 无监督领域自适应的对抗式师生学习在ICASSP,2018年。[20] Asit Mishra和黛比·马尔Apprentice:使用知识蒸馏技术来提高低精度网络的准确性。在ICLR,2018年。[21] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。教师是更好的榜样:加权平均一致性目标改善了半监督深度学习结果。在NIPS,第11952017年。[22] Jiaxiang Wu , Cong Leng , Yuhang Wang , QinghaoHu,and Jian Cheng.用于移动设备的量化卷积神经网络。 在IEEE计算机视觉和模式识别会议论文集,第4820- 4828页[23] 杨成林,谢灵犀,乔思远,艾伦·尤耶。知识在世代中升华:更宽容的老师能教出更好的学生.在AAAI,2018。[24] Junho Yim,Donggyu Joo,Jihoon Bae,and Junmo Kim.知识升华的礼物:快速优化、网络最小化和迁移学习。在CVPR,2017年。[25] Sergey Zagoruyko和Nikos Komodakis广泛的残余网络。在BMVC,2016年。[26] Sergey Zagoruyko和Nikos Komodakis更加注意的:通过注意转移提高卷积神经网络的性能。在ICLR,2017。[27] 张颖,陶翔,Timothy M. Hospedales和Huchuan Lu.深度相 互 学 习 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)上,2018年6月。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功