通过量化知识解释知识蒸馏

163 浏览量更新于2023-10-25 收藏 16.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1129250通过量化知识解释知识蒸馏0徐程上海交通大学0xcheng8@sjtu.edu.cn0饶哲帆华中科技大学0rzf19971013@gmail.com0陈怡兰西安交通大学0chenyilan@stu.xjtu.edu.cn0张全时上海交通大学0zqs1022@sjtu.edu.cn0摘要0本文提出了一种通过量化和分析深度神经网络（DNN）中间层所编码的与任务相关和与任务无关的视觉概念来解释知识蒸馏成功的方法。具体而言，提出了以下三个假设。1.知识蒸馏使得深度神经网络学习更多的视觉概念，而不是从原始数据学习。2.知识蒸馏确保深度神经网络同时学习各种视觉概念，而在从原始数据学习的情况下，深度神经网络是按顺序学习视觉概念的。3.知识蒸馏比从原始数据学习产生更稳定的优化方向。因此，我们设计了三种数学指标来评估深度神经网络的特征表示。在实验中，我们对各种深度神经网络进行了诊断，并验证了以上假设。01. 引言0知识蒸馏的成功已在各种研究中得到证明。它将知识从一个已经学习得很好的深度神经网络（即教师网络）传递给另一个深度神经网络（即学生网络）。然而，解释知识蒸馏为何胜过从原始数据学习仍然是一个挑战。在这项工作中，我们旨在从新的角度分析知识蒸馏的成功，即量化深度神经网络中间层所编码的知识。我们定量比较了通过知识蒸馏学到的深度神经网络和通过原始数据学到的深度神经网络所编码的知识量。在这里，通过原始数据学到的深度神经网络被称为基准网络。在这项研究中，一个特定层的知识量被衡量为视觉概念的数量（例如，物体的部分）。01. 编码02. 更容易同时学习各种视觉概念03. 不做做0量化视觉概念0从知识蒸馏中学到的深度神经网络0从原始数据学到的深度神经网络0比0更多的前景，较少的背景0比0图1.通过量化视觉概念解释知识蒸馏。提出并验证了三个假设，如下所示。1.知识蒸馏使得深度神经网络学习更多的视觉概念，而不是从原始数据学习。2.知识蒸馏确保深度神经网络同时学习各种视觉概念，而在从原始数据学习的情况下，深度神经网络是按顺序学习视觉概念的。3.知识蒸馏比从原始数据学习产生更稳定的优化方向。0像尾巴、头部等），如图1所示。这些视觉概念激活了特定层的特征图，并用于预测。我们设计了三种数学指标来分析与任务相关和与任务无关的视觉概念。然后，这些指标被用来定量验证以下三个假设。假设1：知识蒸馏使得深度神经网络学习更多的视觉概念。在本文中，视觉概念被定义为一个图像区域，其信息丢失显著程度低于背景区域的平均信息丢失，并且主要被深度神经网络使用。我们将与任务相关的视觉概念与其他概念区分开来，即与任务无关的概念。以分类任务为例，如图1所示，前景上的视觉概念通常被认为与任务相关，而背景上的视觉概念被认为与任务无关。129260根据信息瓶颈理论[41,36]，DNN倾向于暴露与任务相关的视觉概念并丢弃与任务无关的概念以学习判别性特征。与基线网络（从原始数据中学习）相比，通常认为经过良好训练的教师网络编码了更多与任务相关的视觉概念和/或更少与任务无关的概念。因为学生网络模仿教师网络的逻辑，所以学生网络应该包含更多与任务相关的视觉概念和更少与任务无关的概念。假设2：知识蒸馏确保DNN倾向于同时学习各种视觉概念。相比之下，基线网络倾向于按顺序学习视觉概念，即在不同的阶段关注不同的概念。假设3：知识蒸馏通常比从原始数据中学习产生更稳定的优化方向。当从原始数据中学习时，DNN通常在早期阶段试图对各种视觉概念进行建模，然后在后期丢弃非判别性的概念[41,36]，这导致优化方向不稳定。我们在本文中将不同阶段的不一致优化方向现象称为“detours”。相比之下，在知识蒸馏过程中，教师网络直接指导学生网络以目标视觉概念为导向，没有明显的detours。让我们以鸟类分类为例。基线网络倾向于在早期阶段从头部、腹部、尾部和树枝中提取特征，然后在后期丢弃树枝的特征。而学生网络直接从头部和腹部学习特征，detours较少。方法：我们提出了三种数学度量方法来量化DNN中隐藏的中间层视觉概念，并分析学习过程中如何学习视觉概念。这些度量方法分别衡量了1.视觉概念的数量，2. 不同概念的学习速度，3.优化方向的稳定性。我们使用这些度量方法来分析学生网络和基线网络，在比较研究中验证上述三个假设。具体而言，学生网络通过知识蒸馏进行学习，基线网络通过从原始数据中学习构建，其架构与学生网络相同。需要注意的是，视觉概念应该在没有主观手动注释的情况下进行量化。主要有两个原因。1）人们不可能对世界上所有潜在的视觉概念进行注释。2）为了进行严格的研究，人类注释中的主观偏见不应影响定量度量。为此，[14,26]利用熵来量化编码在中间层的视觉概念。01. “Detours”指的是DNN在早期阶段试图对各种视觉概念进行建模，然后在后期丢弃非判别性的概念。0贡献：我们的贡献可以总结如下。1.我们提出了一种量化DNN中编码的视觉概念的方法。2.基于视觉概念的量化，我们提出了三种类型的度量方法，从知识表示的角度解释了知识蒸馏。3.提出并验证了关于知识蒸馏的三个假设，为解释知识蒸馏提供了启示。02. 相关工作0尽管深度神经网络在各种任务中表现出优越的性能，但它们仍然被视为黑盒子。以前对DNN的解释研究可以粗略地总结为语义解释和表示能力的数学解释。DNN的语义解释：解释DNN的直观方法是可视化编码在DNN的中间层中的视觉概念。特征可视化方法通常显示可能显著激活特定层的特定神经元的概念。基于梯度的方法[47, 37, 46,27]使用输出相对于输入图像的梯度来衡量中间层激活单元或输入单元的重要性。基于反演的方法[5]将卷积层的特征图反演为图像。通过可视化结果，人们大致了解了DNN中编码的视觉概念。例如，低层的滤波器通常编码简单的视觉概念，如边缘和纹理，而高层的滤波器通常编码对象和模式等概念。其他方法通常估计输入图像的像素级归因/重要性/显著性，衡量每个输入像素对最终输出的影响[30, 25, 20,9]。一些方法使用中间层特征探索输入图像的显著性，例如CAM [52]，Grad-CAM [34]和Grad-CAM++[2]。Zhou等人[51]计算了特征图中神经激活的实际图像分辨率感受野。Bau等人[1]使用人类注释将特征表示解开为语义概念。Fong和Vedaldi[8]证明了DNN使用多个滤波器来表示特定的语义概念。Zhang等人使用解释图[48]和决策树[50]来表示CNN中的分层组合部分表示。TCAV[19]衡量了用户定义的概念对分类的重要性。可解释AI的另一个方向是以无监督或弱监督的方式学习具有可解释特征表示的DNN。在胶囊网络[33]中，每个胶囊的活动编码了各种属性。可解释的CNN[49]在没有部件注释的情况下学习了对象部分特征。InfoGAN [4]和β-H(X′) s.t. ∀x′ ∈ X′, ∥ f(x′) − f ∗ ∥2≤ τ(1)H(X′) =n�i=1Hi(2)129270VAE [ 15 ]学习了生成网络的可解释的分解潜在表示。相比之下，在这项研究中，中间层视觉概念的量化需要我们设计具有连贯性和普适性的度量标准。即，与以往的研究不同，我们使用输入的条件熵来量化视觉概念。熵是一种具有强大连接性的通用工具，例如信息瓶颈理论 [ 41 , 36]。此外，连贯性使得同一度量标准能够在DNN的不同层之间以及在不同时期学习的DNN之间进行公平比较。对DNN的表示能力进行数学解释：通过数学方式评估DNN的表示能力为解释提供了新的视角。信息瓶颈理论 [ 41 , 36 ]使用互信息来评估DNN的表示能力 [ 13 , 43 ]。刚度 [ 10 ]被提出来诊断DNN的泛化能力。CLEVER分数 [ 40 ]用于估计神经网络的鲁棒性。傅里叶分析 [ 44 ]用于解释随机梯度下降学习的DNN的泛化。Novak等人 [28 ]研究了训练的神经网络的敏感性与泛化之间的相关性。规范相关分析（CCA）[ 21 ]用于衡量神经网络表示之间的相似性。Chen等人 [ 3 ]提出了基于互信息的逐实例特征选择方法用于模型解释。Zhang等人 [ 23 ]探索了DNN之间的知识一致性。与以往的方法不同，我们的研究旨在弥合数学解释和语义解释之间的差距。我们使用输入的熵来衡量DNN中的视觉概念数量。此外，我们根据输入图像对背景和前景进行视觉概念量化，探索DNN是否同时或顺序地学习各种概念，并分析优化方向的稳定性。知识蒸馏：知识蒸馏是一种流行且成功的知识传递技术。Hinton等人 [ 16 ]认为“软目标”导致了知识蒸馏的卓越性能。Furlanello等人 [ 11 ]将从教师到学生的黑暗知识解释为重要性加权。从理论角度，Lopez-Paz等人 [ 24 ]将知识蒸馏解释为一种带有特权信息的学习形式。Phuong等人 [ 29 ]从数据分布、优化偏差和训练集大小的角度解释了知识蒸馏的成功。然而，据我们所知，对知识蒸馏的数学解释是很少见的。在本0论文中，我们从一个新的角度解释了知识蒸馏，即通过数学方式量化、分析和比较由知识蒸馏学习的中间层之间编码的视觉概念与纯粹从原始数据学习的DNN之间的差异。03. 算法0在本节中，我们给定一个预训练的DNN（即教师网络），然后将其蒸馏成另一个DNN（即学生网络）。通过这种方式，我们旨在比较和解释学生网络与纯粹从原始数据学习的DNN之间的差异（即基准网络）。为了简化故事，我们将注意力限制在目标分类任务上。设 x ∈ R n表示输入图像，f T ( x ) 和 f S ( x ) ∈ R L分别表示教师网络和相应的学生网络的中间层特征。知识蒸馏被用来强制 f S ( x ) 近似于 f T ( x)。教师和学生的分类结果分别表示为 y T = g T ( f T ( x ))和 y S = g S ( f S ( x )) ∈ Rc。我们比较基准网络和学生网络中编码的视觉概念，以解释知识蒸馏。为了公平比较，基准网络与学生网络具有相同的架构。03.1. 预备知识：信息丢弃的量化0根据信息瓶颈理论[41,36]，输入图像的信息逐渐通过层进行丢弃。[14,26]提出了一种方法来量化在DNN的特定中间层中编码的输入信息，即衡量DNN提取该层特征时忽略了多少输入信息。信息丢弃可以表示为给定中间层特征 f � = f ( x )时输入的条件熵 H ( X ′ ) ，如下所示。0X ′表示一组图像，对应于特定对象实例的概念。假设对象的概念由特征范围 ∥ f ( x ′ ) − f � ∥ 2 ≤ τ 表示，其中 τ是一个小的正标量。假设 x ′ 服从独立同分布的高斯分布，x′ � N ( x, Σ = diag ( σ 2 1 , . . . , σ 2 n )) ，其中 σ i控制每个像素的扰动大小。n表示输入图像的像素数。通过这种方式，高斯分布的假设确保整个图像的熵 H ( X ′ ) 可以分解为像素级熵 { H i }，如下所示。N bgconcept(x) =�i∈Λbg w.r.t. x✶(H − Hi > b),N fgconcept(x) =(3)1292802 log(2 πe )用于衡量逐像素信息的丢失。详细信息请参见[14, 26]。03.2. 视觉概念的量化0假设1：知识蒸馏使得深度神经网络学习到的可靠视觉概念比从原始数据中学习更可靠。0本节旨在比较基线网络和学生网络中编码的视觉概念的数量，以验证上述假设。使用注释的概念或不使用注释的概念：为了比较，我们尝试定义和量化DNN（学生网络或基线网络）中间层编码的视觉概念，以验证上述假设。请注意，我们不研究由人工注释定义的视觉概念。例如，Bau等人[1]使用手动注释定义了对象、部件、纹理、场景、材料和颜色的视觉概念。然而，这项研究要求我们使用和量化没有明确名称的视觉概念，这些概念无法准确标记。这些视觉概念通常被称为“暗物质”[42]。使用暗物质视觉概念而不是传统的语义视觉概念主要有两个原因：1.语义视觉概念没有标准定义，而且语义视觉概念的分类法可能存在显著的主观偏差。2.注释所有视觉概念的成本通常是无法承受的。度量标准：本文从信息论的角度量化暗物质视觉概念。给定一个预训练的DNN，一组训练图像 I 和一个输入图像 x ∈ I，让我们关注中间层特征 f � = f ( x ) 相对于像素级信息丢弃H i 。高像素级熵 { H i }（如公式（2）所示）表示DNN忽略了这些像素的更多信息。而DNN主要利用像素级熵较低的像素来计算特征 f �。通过这种方式，像素级熵较低的图像区域 { H i }可以被认为是相对有效的视觉概念的表示。例如，图2中鸟的头部和翅膀主要用于DNN的细粒度分类。因此，度量标准定义如下。0i∈Λfgw.r.t. x �(H−Hi>b),0λ = Ex∈I[Nfgconcept(x)/(Nfgconcept(x)+Nbgconcept(x))]0其中Nbgconcept(x)和Nfgconcept(x)分别表示编码在背景和前景上的视觉概念的数量。Λbg和Λfg分别是相对于输入图像x的背景和前景上的像素集合。�(∙)是指示函数。如果内部条件成立，�(∙)返回1，否则返回0。0前景0背景0前景上的视觉概念0背景上的视觉概念0输入图像{��}视觉概念0图2.视觉概念的可视化。第二列显示了不同图像的{Hi}。像素熵{Hi}较低的图像区域被认为是视觉概念，显示在第三列中。0其中内部条件成立时，�(∙)返回1，否则返回0。H =Ei∈Λbg[Hi]表示背景上的平均熵值，它衡量了与背景像素相关的信息丢弃的重要性。背景上的像素被认为代表与任务无关的视觉概念。因此，我们可以使用H作为基准熵。熵值明显低于H的图像区域可以被视为有效的视觉概念，其中b是一个正标量。度量λ用于衡量特征的区分能力。如图2所示，为了提高计算的稳定性和效率，{Hi}在16×16的网格中计算，即每个局部网格中的所有像素共享相同的σi。图2中的深色表示低熵值Hi。在统计学中，前景上的视觉概念通常与任务相关，而背景上的视觉概念主要与任务无关。因此，一个学习良好的DNN应该在前景上编码大量的视觉概念，在背景上编码很少的概念。因此，较大的λ值表示更具有区分性的DNN。广泛性和一致性：度量的设计应该同时考虑广泛性和一致性。广泛性指的是度量应该与现有的数学理论有强烈的联系。一致性确保在不同情况下进行全面和公平的比较。在本文中，我们旨在量化和比较不同网络架构和不同层之间的视觉概念数量。如[14,26]所讨论的，现有的解释DNN的方法通常依赖于特定的网络架构或特定的任务，例如基于梯度的方法[47, 37, 46,27]，基于扰动的方法[9,20]和基于反演的方法[5]。与先前的方法不同，输入条件熵确保了不同网络架构和不同层之间的公平比较，如表1所总结。Dmean = EI∈I�ˆm�k=1∥wk − wk−1∥∥w0∥Dstd = V arI∈I�ˆm�k=1∥wk − wk−1∥∥w0∥�(4)��=1�� − ��−1��0ρ =∥SM(I)∥∥ �Mj=1 Sj(I)∥(5)129290广泛性一致性0层网络0基于梯度的[47, 37, 46, 27] 否否否0基于扰动的 [9, 20] 否否否0基于反演的[5] 否否否0基于熵的是是是0表1.不同方法在广泛性和一致性方面的比较。基于熵的方法提供了跨层和跨网络的一致结果。03.3. 同时学习还是顺序学习0假设2：知识蒸馏确保DNN倾向于同时学习各种概念。而从原始数据学习的DNN通过不同的时期顺序学习概念。0在本节中，我们提出了两个指标来证明假设2。给定一组训练图像I，g1，g2，...，gM表示在不同时期学习的DNN。这个DNN可以是学生网络或基准网络。在最后一个时期M之后获得的gM被视为最终的DNN。对于每个特定的图像I∈I，我们量化前景上的视觉概念，这些概念是DNN在不同时期之后学习到的Nfg1(I)，Nfg2(I)，...，NfgM(I)。通过这种方式，我们可以分析DNN是否同时学习视觉概念的两个方面：1.Nfgj(I)是否随着时期数量的增加而快速增加；2.不同图像的Nfgj(I)是否同时增加。第一个方面表明DNN是否快速学习特定图像的各种视觉概念，而第二个方面评估DNN是否同时学习不同图像的视觉概念。为了进行严格评估，如图3所示，我们计算了时期数量ˆm=argmaxkNfgk(I)，其中DNN在前景上获得最丰富的视觉概念。让w0和wk分别表示初始参数和第k个时期学习后的参数。我们利用||wk−wk−1||作为计算的稳定性和效率，其中DNN在前景上编码了大量的视觉概念，而在背景上只编码了很少的概念。因此，较大的λ值表示更具有区分性的DNN。0∥ w 0 ∥ ，称为“权重距离”，用于衡量第m个时期[12,7]更新参数w k的总路径。因此，我们使用权重距离的平均值D mean和标准差值D std 来量化DNN是否同时学习视觉概念。0�，0前景视觉概念0权重距离0主要丢弃0与任务无关的概念0主要学习新概念0信息瓶颈0图3.学习前景视觉概念的过程，关于权重距离。根据信息瓶颈理论，DNN倾向于在早期阶段主要学习各种视觉概念，然后在后期主要丢弃与任务无关的概念。严格来说，DNN在整个阶段都会学习新概念并丢弃旧概念。我们可以认为 ˆ m 的学习阶段编码了最丰富的概念。0D mean代表平均权重距离，其中DNN获得最丰富的任务相关视觉概念。D mean 的值表示DNN是否快速学习视觉概念。Dstd描述了权重距离在不同图像上的变化，其值表示DNN是否同时学习各种视觉概念。因此，D mean 和 D std的较小值表示DNN快速且同时学习各种概念。03.4. 以更少的绕路学习0假设3：知识蒸馏比从原始数据中学习更稳定的优化方向。0在知识蒸馏过程中，教师网络直接指导学生网络学习目标视觉概念，没有显著的绕路1。相比之下，根据信息瓶颈理论[41,36]，当从原始数据中学习时，DNN通常试图建模各种视觉概念，然后丢弃非判别性的概念，这导致优化方向不稳定。为了量化DNN优化方向的稳定性，提出了一种新的度量标准。让 S 1 ( I ) ，S 2 ( I ) ，...，S M ( I ) 表示由 g 1 ，g 2，...，g M 编码的图像 I的前景上的视觉概念集合。这里，每个视觉概念 a ∈ S j ( I) 被称为图像 I 前景上的特定像素 i ，满足 H − H i > b。优化方向的稳定性可以如下衡量。0分子反映了最终选择用于目标分类的视觉概念的数量（在图4中显示为黑色框）。分母表示在学习过程中临时学到的视觉概念Epoch 0Epoch 1Epoch M...�� =��(��)⋃��=1��(��)== 0.789129300并集0图4.学习视觉概念的绕路1。我们可视化不同时期学习到的前景视觉概念集合。绿色框表示在所有时期学习到的视觉概念的并集。 (1 − ρ )值表示在学习过程中被丢弃的视觉概念与概念的并集之比。因此，较大的 ρ 值表示DNN以更少的绕路学习。0学习过程如图4中的绿色框所示。（�Mj=1Sj(I)\SM(I)）表示已尝试但最终被DNN丢弃的视觉概念的集合。ρ的值越高，表示DNN优化的路径越少，稳定性越高；反之亦然。04. 实验04.1. 实现细节0数据集和DNNs：我们设计了比较实验来验证三个提出的假设。为了全面比较，我们基于AlexNet[22]、VGG-11、VGG-16、VGG-19[38]、ResNet-50、ResNet-101和ResNet-152[18]进行了实验。将每个DNN作为教师网络，从教师网络蒸馏知识到具有与教师网络相同架构的学生网络，以进行公平比较。同时，基线网络也需要具有与教师网络相同的架构。我们基于ILSVRC-2013DET数据集[35]、CUB200-2011数据集[39]和Pascal VOC2012数据集[6]训练这些DNNs。在4.3、4.4、4.5节中，所有教师网络都是在ImageNet数据集[32]上进行预训练，然后使用这三个数据集进行微调。同时，所有基线网络都是从头开始学习的。对于在ILSVRC-2013DET数据集上的训练，我们进行了陆地哺乳动物类别的分类比较实验，考虑到计算负担较大。对于ILSVRC-2013DET数据集和Pascal VOC2012数据集，应用数据增强[17]以防止过拟合。对于CUB200-2011数据集，我们使用物体边界框裁剪的物体图像进行训练和测试。特别是对于Pascal VOC2012数据集，通过使用原始物体边界框的1.2倍宽度×1.2倍高度来裁剪图像，以获得稳定的结果。对于ILSVRC-2013DET数据集，我们通过使用原始物体边界框的1.5倍宽度×1.5倍高度来裁剪每个图像。因为没有物体分割的真值注释。0在ILSVRC-2013DET数据集中，我们将物体边界框作为前景区域。物体边界框内的像素被视为前景Λfg，物体边界框外的像素被视为背景Λbg。蒸馏：在知识蒸馏的过程中，我们选择一个全连接（FC）层l作为目标层。使用∥fT(x)−fS(x)∥2作为蒸馏损失，以模拟教师网络相应层的特征，其中fT(x)和fS(x)分别表示教师网络和对应的学生网络的第l层特征。仅使用蒸馏损失学习目标FC层l下的学生网络参数。因此，学习过程不受除教师网络中编码的知识之外的其他人工注释信息的影响，确保了公平比较。然后我们冻结目标层l下的参数，仅使用分类损失学习目标层l上方的参数。层的选择：对于每对学生网络和基线网络，我们旨在量化FC层中编码的视觉概念，因此进行了比较实验。我们发现这些选择的DNN通常有三个FC层。为了简洁起见，我们分别将这三个FC层命名为FC1、FC2、FC3。请注意，对于ILSVRC-2013 DET数据集和Pascal VOC2012数据集，FC3层中编码的中间层特征的维度远小于FC1和FC2层的特征维度。因此，在学习ILSVRC-2013DET数据集和Pascal VOC2012数据集时，目标层被选择在FC1和FC2层之间。对于CUB200-2011数据集，三个FC层都被选为目标层。请注意，ResNet通常只有一个FC层。通过这种方式，我们将唯一的FC层替换为一个包含两个卷积层和三个FC层的块，每个块后面跟着一个ReLU层。因此，我们可以测量学生网络和基线网络相对于每个FC层的视觉概念。对于超参数b（在公式（3）中显示），对于AlexNet，它设置为0.25，对于其他DNNs，它设置为0.2。这是因为AlexNet的层数比其他DNNs少得多。04.2.教师网络、学生网络和基准网络中视觉概念的量化0根据我们的假设，教师网络是从大量的训练数据中学习的。因此，教师网络比基准网络学习到了更好的表示，即在前景上编码了更多的视觉概念，而在背景上编码了较少的概念。因此，从教师学习的学生网络应该包含更多的前景视觉概念。CUBVGG-16 FC1T34.000.78S29.570.75B22.500.68VGG-16 FC2T34.620.80S32.920.75B23.310.67VGG-16 FC3T33.970.81S29.780.63B23.260.71ILSVRCVGG-16 FC1T36.800.87S35.980.84B36.470.81VGG-16 FC2T38.760.89S42.740.82B36.350.82129310数据集层 N fg concept ↑ λ ↑0表2.教师网络（T）、学生网络（S）和基准网络（B）中编码的视觉概念的比较。教师网络在前景N fgconcept上编码了更多的视觉概念，并获得了更大的比率λ，而学生网络的N fg concept和λ的值大于基准网络。0在本节中，我们旨在比较教师网络、学生网络和基准网络中编码的视觉概念数量。我们从头开始学习了一个教师网络，使用ILSVRC-2013DET数据集和CUB200-2011数据集。为了提高教师网络的性能，使用了数据增强[17]。学生网络的蒸馏方式与第4.1节相同，具有与教师网络和基准网络相同的架构。基于VGG-16的结果报告在表2中。我们发现教师网络的前景N fgconcept和比率λ的概念数量大于学生网络的数量。同时，学生网络的N fgconcept和λ的值大于基准网络。这样，教师网络、学生网络和基准网络之间的假设关系得到了初步验证。我们还注意到，教师网络的N fgconcept值小于学生网络的值的例外情况。这是因为教师网络的平均背景熵值H大于学生网络。04.3. 假设1的验证0假设1认为知识蒸馏确保了学生网络学习更多与任务相关的视觉概念，而减少了与任务无关的视觉概念。因此，我们在方程（3）中利用N fg concept，N bgconcept和λ指标来验证这个假设。在使用CUB200-2011数据集、ILSVRC-2013数据集和Pascal VOC2012数据集学习的每个DNN的FC 1和FC 2层评估的N fgconcept，N bgconcept和λ的值在表3中显示。大多数结果证明了假设1。即学生网络倾向于学习比基准网络更多的视觉概念。0以编码更多的前景视觉概念和较少的背景概念，从而展现出比基准网络更大的比率λ。图5显示了VGG-11的FC1层中编码的视觉概念，也证明了假设1。需要注意的是，很少有学生网络编码了更多的背景视觉概念N bgconcept。这是因为用作教师网络的DNN在第4.3、4.4、4.5节中是在ImageNet数据集上预训练的，以验证假设1-3。预训练的教师网络编码了1000个类别的视觉概念，远远超过了需要的数量。这会使学生网络的N bgconcept值比基准网络更大。04.4. 验证假设20对于假设2，我们旨在验证知识蒸馏使得学生网络具有更高的学习速度，即同时学习不同的概念。我们使用Dmean和D std来验证这个假设。如表3所示，学生网络的Dmean值和Dstd值都小于基线网络，从而验证了假设2。需要注意的是，仍然存在一些失败的情况。例如，在AlexNet的FC1层或VGG-11的FC 2层测量D mean和Dstd。原因是AlexNet和VGG-11都具有相对较浅的网络结构。当从原始数据中学习时，具有较浅网络结构的DNN会学习更多的概念并避免过拟合。然而，除了极少数例外情况，知识蒸馏在大多数DNN中优于从原始数据中学习。04.5. 验证假设30假设3旨在证明与基线网络相比，知识蒸馏使得学生网络优化时更少地绕弯。度量指标ρ描述了优化方向的稳定性，并用于验证上述假设。表3中报告的结果表明，在大多数情况下，学生网络的ρ值大于基线网络的ρ值。当我们通过AlexNet和VGG-11进行测量时，由于这两个网络的浅层结构，会出现失败的情况。因此，学生网络的优化方向倾向于不稳定，并且会绕更多的弯路。05. 结论和讨论0在本文中，我们从量化DNN中间层中编码的知识的角度解释了知识蒸馏的成功。在分类场景中，提出了三种类型的度量指标来验证三个假设。即知识蒸馏确保DNN学习更多与任务相关的概念和较少与任务无关的概念，具有更高的学习速度，并且优化时绕弯更少。NetworkLayerN fgconcept ↑N bgconcept ↓λ ↑Dmean ↓Dstd ↓ρ ↑N fgconcept ↑N bgconcept ↓λ ↑Dmean ↓Dstd ↓ρ ↑N fgconcept ↑N bgconcept ↓λ ↑Dmean ↓Dstd ↓ρ ↑FC1S36.604.000.908.3525.090.57ILSVRC-2013 DET dataset49.460.660.990.480.100.6225.845.860.791.140.560.43B24.135.650.814.8114.540.5241.000.920.981.320.310.6120.306.080.772.002.210.44FC2S38.133.500.923.773.970.4957.861.700.980.280.010.6031.817.290.810.620.070.47B23.335.480.805.3620.790.4942.240.960.981.150.150.6021.856.560.772.041.460.44FC3S33.204.310.898.1339.790.51−−−−−−−−−−−−B22.734.940.8313.57137.740.42−−−−−−−−−−−−VGG-11FC1S30.6910.650.751.210.610.5644.484.680.910.260.060.5030.568.360.781.090.300.38B24.2610.770.702.013.180.5528.277.800.800.930.080.5320.317.280.731.410.540.44FC2S36.5110.660.785.2219.320.4954.206.980.890.180.020.4838.0810.340.790.700.290.45B26.8610.710.726.6216.210.5429.688.640.791.190.520.4720.037.420.721.651.800.36FC3S34.5314.210.724.154.550.50−−−−−−−−−−−−B24.5310.950.6920.6695.290.49−−−−−−−−−−−−VGG-16FC1S43.778.730.840.640.060.6656.293.130.950.020.00010.4742.2611.540.800.330.090.52B22.5011.270.682.384.980.5036.067.710.830.400.130.4426.878.260.761.650.610.48FC2S36.8311.030.770.800.370.5437.794.310.900.170.020.3231.198.700.780.830.450.35B23.3111.560.675.4322.960.5038.419.660.800.790.520.4329.378.040.782.651.900.46FC3S32.3210.210.776.1732.630.47−−−−−−−−−−−−B23.269.970.7117.53216.050.46−−−−−−−−−−−−VGG-19FC1S40.7410.420.800.660.150.6046.502.520.950.160.00020.3946.3814.050.770.250.070.45B22.4211.190.672.333.670.4729.715.830.840.330.120.3928.657.930.781.100.800.41FC2S40.209.030.821.160.630.5650.905.960.910.060.00060.3747.0313.660.780.100.030.45B24.0010.400.704.6419.070.4730.316.150.840.450.180.3728.468.200.782.141.920.41FC3S28.606.370.824.8911.570.48−−−−−−−−−−−−B21.297.770.7420.61143.610.46−−−−−−−−−−−−ResNet-50FC1S43.0210.150.8124.43166.760.4856.006.500.903.454.740.4542.5410.760.803.4319.600.40B42.1511.830.7920.78122.790.5343.805.750.892.736.820.3639.659.810.811.6415.200.39FC2S48.589.750.8337.62206.220.5552.576.540.900.251.450.4041.0312.370.771.8513.030.41B42.0611.880.7929.28248.030.5243.636.930.870.020.020.3538.0010.000.802.6830.910.38FC3S41.3811.730.77926.61142807.000.43−−−−−−−−−−−−B42.0311.480.79111.183299.200.53−−−−−−−−−−−−ResNet-101FC1S45.9311.140.8123.32236.760.5148.595.060.911.992.200.3942.549.370.821.3932.870.35B44.1812.550.7840.41828.720.5242.948.160.845.4110.390.3543.339.300.8315.2848.710.39FC2S51.599.020.8567.60947.850.5449.276.390.890.980.650.3741.719.160.823.30100.970.38B43.2212.320.7843.401155.220.5041.797.300.856.5817.160.3441.358.320.842.2648.610.39FC3S47.7110.240.8273.332797.150.53−−−−−−−−−−−−B42.4010.530.80162.6816481.930.49−−−−−−−−−−−−ResNet-152FC1S44.8112.090.7926.35289.590.4844.905.630.896.255.860.3641.0910.090.810.333.590.39B45.6210.680.8136.92767.580.5439.935.400.896.086.740.3340.1510.820.790.5911.390.37FC2S43.7910.040.817.1342.770.5240.986.900.864.645.710.3241.3612.040.7814.2917.330.38B45.0810.850.8144.591200.970.5240.295.560.897.8612.240.3338.5712.070.7718.0367.520.36FC3S44.2111.890.7947.281463.550.50−−−−−−−−−−−−B44.8910.770.81167.4116331.280.52−−−−−−−−−−−−129320学生网络0基线网络0前景0背景0前景上的视觉概念0背景上的视觉概念0图5. 可视化VGG-11的FC 1层中编码的视觉概念。通常情况下，学生网络的N fg概念值较大，N bg概念值较小，而基线网络则相反。0AlexNet0表3. 学生网络（S）与基准网络（B）之间的比较。↑/↓表示较大/较小的值更好。总体而言，与基准网络相比，学生网络的 N fgconcept、λ、ρ值较大，N bg concept、D mean、D std值较小，证明了假设1-3。0我们的工作存在一些限制。本文仅关注分类任务。然而，将我们的方法应用于其他任务（例如目标分割）或其他类型的数据（例如视频）

下载后可阅读完整内容，剩余1页未读，立即下载