基于信息流建模的异构知识蒸馏方法

87 浏览量更新于2023-10-20 收藏 873KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2339基于信息流建模的异构知识提取N. Passalis，M. Tzelepi和A. 特法斯希腊塞萨洛尼基亚里士多德大学信息学系{passalis，mtzelepi，tefas}@ csd.auth.gr摘要知识蒸馏（KD）方法能够将大而复杂的教师中编码的知识转移到小而快的学生中。早期的方法通常仅限于在网络的最后几层之间传输知识，而后期的然而，尽管这些方法的性能得到了改进，但它们仍然受到一些限制，这些限制限制了它们的效率和灵活性。首先，现有的KD方法通常忽略了神经网络在训练过程中经历不同的学习阶段，这通常需要对每个阶段进行不同类型的监督。此外，现有的多层KD方法通常不能有效地处理具有显著不同的架构（异构KD）的网络。在本文中，我们提出了一种新的KD方法，其工作原理是通过建模的信息流，通过教师模型的各个层，然后训练一个学生模型来模仿这个信息流。所提出的方法能够通过在训练过程的不同阶段期间使用适当的监督方案，以及通过设计和训练适当的辅助教师模型来克服上述限制，所述辅助教师模型充当能够向学生“解释”教师工作方式的代理模型。使用四个图像数据集和几个不同的评价设置证明了所提出的方法的有效性1. 介绍尽管深度学习（DL）在广泛的领域取得了巨大的成功[12]，但大多数DL方法都有一个明显的缺点：训练和部署DL模型需要强大的硬件。这极大地阻碍了资源稀缺环境（如嵌入式和移动设备）上的DL应用，导致开发了各种克服这些限制的方法。其中最突出的方法为这项任务图1.现有的知识提炼方法忽略了知识转移过程中关键学习期然而，正如[1]中所指出的，在最初的几个训练时期之后，信息可塑性迅速下降，降低了知识蒸馏的有效性。另一方面，所提出的方法模拟教师网络中的信息流，并在最初的几个关键学习时期提供适当的监督，以确保网络的连续层之间形成必要的连接。请注意，即使这个过程最初稍微减慢了网络的收敛速度（epoch 1-8），它也允许在关键学习期结束后（epoch 10-25）快速提高收敛速度。参数α控制在不同学习阶段从中间层传递知识的相对重要性，如第3节中详细描述的。知识蒸馏（KD）[9]，也称为知识转移（KT）[30]。这些方法旨在将编码在大型复杂神经网络中的知识以这种方式，可以增加较小模型的准确性，与在不采用KD的情况下训练的相同模型一致。通常，较小的模型被称为学生模型，而较大的模型被称为教师模型。早期的知识传授方法侧重于在教师和学生模型的最后一层之间传递关键形成的连接1.9级进一步拟合与压缩<0.01成形临界连接2≤≤1002340els [4，9，19，26，28，31].这允许为学生模型提供更丰富的训练目标，从而捕获更多的信息。第4层的学生精度关于不同sam之间的相似性，无中间层76.18%积极77.39%无中间层监督减少过度拟合，提高学生正则化效果牧师后来的方法进一步提高了KD通过建模和传递编码的知识老师学生助理教师过正则化在教师的中间层[22，30，32]。这些方法通常试图隐式地对信息通过网络的各个层进行转换的方式进行建模，为学生模型提供额外的提示，说明教师模型处理信息的方式尽管这些方法确实能够进一步提高使用KD训练的模型的准确性，但它们也层1净捐助国：46.40%层2净捐助国：69.19%层3净捐助国：86.18%层4净捐助国：92.14%76.32%74.30%69.78%74.98%层1净捐助国：41.04%层2净捐助国：48.82%层3净捐助国：59.70%层4净捐助国：65.95%77.27%77.93%77.76%76.40%层1净捐助国：43.09%层2净捐助国：57.39%层3净捐助国：65.75%层4净捐助国：74.71%正确的图层匹配但是存在限制其效率和灵活性的几个局限性。首先，请注意，神经网络表现出不断演化的行为，在训练过程中经历了几个不同且不同的阶段对于前-ResNet-18CNN-1-A表示折叠例如，在最初的几个时期，形成了关键的连接[1]，几乎永久地定义了网络上未来的信息流在修复这些路径后，训练过程只能微调它们，而在关键学习期结束后形成新路径的可能性显著降低[1]。在形成这些关键连接之后，接下来是装配和压缩（适用时）阶段[24，23]。尽管神经网络具有这种动态的时间依赖性，但几乎所有现有的KD方法都忽略了神经网络在训练期间所经历的阶段。这一观察将我们引向本文的第一个研究问题：在学生的不同学习阶段是否需要不同类型的监督，是否有可能使用更强的教师来提供这种监督？为此，我们提出了一种简单而有效的方法来利用KD来训练模仿教师信息流路径的学生，同时还提供了进一步的证据，证实了在神经网络的训练阶段存在关键学习期，如[1]中最初所述。事实上，如图1B所示的消融研究1、在神经网络的关键学习期提供正确的关于本消融研究的更多信息见第4节。值得注意的是，额外的监督，这是用来确保学生将形成类似的信息路径给老师，实际上放慢了学习过程，直到关键的学习期完成。然而，在信息流路径形成后，与不考虑关键学习期存在的学生网络相比，收敛速度明显加快现有KD方法的另一个局限性是，图2.考察知识转移的效果，将教师模型的不同层合并到学生模型的第三层中。使用两个不同的教师，一个强教师（ResNet-18，其中每个层引用每个层块）和一个辅助教师（CNN-1-A）。针对从每个层提取的表示报告最近质心分类器准确度（NCC）最终的精度是针对学生模型报告的，该学生模型通过不使用中间层监督（上部黑色值）或使用教师的不同层（4个后续精度值）进行训练当知识从不同的层转移时，观察到几种不同的现象，而所提出的辅助教师允许实现最高的精度，并提供一种简单的方式来匹配模型之间的层（辅助教师以更接近学生模型的方式转换数据表示，如通过NCC精度所测量的）。采用多个中间层是它们处理异构多层知识蒸馏的能力，即，在具有截然不同架构的教师和学生之间传递知识。现有方法几乎排他性地使用在学生层和教师层之间提供简单的一对一匹配的网络架构，例如，经常使用具有相同块数量的ResNet，仅改变每个残差块内部的层数[30，32]。许多这些方法，如[30]，甚至更具限制性，还要求教师和学生的层具有相同的维度。结果，在具有非常不同的架构的网络之间执行多层KD是特别困难的，因为即使教师模型的仅仅一个层与学生模型的一个层不正确地匹配，那么学生的准确性也会显著降低，这是由于过度正则化网络或者通过强制提前压缩学生的表示。这是-2341图中展示了该方法。2，其中知识从两个不同教师的第三层转移到学生的各个层。这些发现将我们引向本文的第二个研究问题：是否有可能以结构化的方式处理异质KD以避免此类现象？为此，在这项工作中，我们提出了一个简单的，但有效的方法来训练辅助教师模型，这是更接近的学生模型的架构这个辅助教师负责向学生模型解释较大教师的工作方式事实上，这种方法可以显着提高教师的准确性，如图2所示，以及在本文中进行的其余实验。值得注意的是，在我们最初的实验中，几乎不可能找到一个层匹配，它实际上可以帮助我们提高学生模型的准确性，而不是首先设计一个适当的辅助教师模型，突出了在异构KD场景中使用辅助教师的重要性，也在[16]中强调。本文的主要贡献是提出了一种KD方法，通过教师模型的信息流建模，然后训练学生模型来模仿这个信息流。然而，正如前面所解释的和本文中实验证明的那样，这个过程通常非常困难，特别是当教师和学生模型之间没有明显的层匹配时，这通常会以截然不同的方式处理信息。事实上，即使单层失配，即，过度正则化网络或强制对表示进行早期压缩会显著降低学生模型的准确性。为了克服这些局限性，所提出的方法通过以下方式工作：a）设计和训练适当的辅助教师模型，该模型允许学生和教师模型的层之间的直接和有效的一对一匹配，以及b）采用关键学习感知KD方案，该方案确保将形成关键连接，从而允许有效地模仿教师的信息流，而不是仅仅学习一个模仿学生输出的学生。所提出的方法的有效性是证明使用几个不同的任务，从度量学习和分类模仿手工制作的特征提取器，为低功耗嵌入式硬件提供快速的基于神经网络的实现。实验评估还包括广泛的表征学习评估，因为其在许多嵌入式DL和机器人应用中的重要性日益增加，并且遵循最近提出的KD方法的评估协议[19，31]。在https://github.com/passalis/pkth 中提供了所提出的方法的开源实现。本文其余部分的结构如下。一是简要讨论了相关工作，并与第2节中提出的方法进行了比较。然后，在第3节中提出了所提出的方法，而在第4节中提供了实验评估。最后，在第5节中得出结论。2. 相关工作已经提出了大量建立在神经网络蒸馏方法基础上的知识转移方法[2，4，9，26，28]。这些方法通常使用教师模型来生成软标签，然后使用这些软标签来训练较小的学生网络。值得注意的是，已经提出了例如，软标签可用于预训练大型网络[25]和执行域自适应[28]，而在[20]中提出了一种基于嵌入的方法来传输知识。此外，在线蒸馏方法，如[3，33]，采用共同训练策略，同时训练学生和教师模型。然而，这些方法都没有考虑到深度神经网络通过几个学习阶段过渡，每个阶段具有不同的特征，这需要以不同的方式处理它们。另一方面，所提出的方法建模的教师模型中的信息流，然后采用一个加权方案，提供适当的监督，在初始的关键学习期间的学生，确保关键的连接和信息路径中形成的教师模型将被转移到学生。此外，已经提出了几种支持多层KD的方法，例如使用提示[22]，求解过程矩阵（FSP）[30]的流程，注意力转移[32]或奇异值分解从每个层中提取主要特征[13]。然而，这些方法通常仅针对具有兼容架构的网络，例如，残差网络具有相同数量的残差块，用于教师和学生模型。此外，使用它们来成功地在异构模型之间转移知识并不简单，因为即使是轻微的层不匹配也会对学生的准确性产生破坏性影响，如图所示。二、还值得注意的是，我们实际上不能将这些方法中的大多数有效地应用于异质KD，因为它们不支持在不同维度的层之间传递知识[30]，或者它们倾向于过度正则化或表示崩溃（如图所（2）降低学生的整体表现与上述方法相比，所提出的方法提供了一种通过适当地设计和训练辅助网络并利用由该网络的较早层编码的知识通过这种方式，建议2342我该方法通过采用与学生模型的体系结构接近的辅助网络而不考虑教师模型的体系结构，提供了一种用于处理任何可能的网络体系结构使用Pro-信息为：ΣΣTω t：= I（X（1），Z），. - 是的- 是的，I（X（NLt），Z）∈RNLt，（1）设定的辅助网络策略确保教师模型将以与学生模型兼容的方式转换从数据中提取的表示，其中N Lt是教师模型的层数。类似地，学生模型的信息流向量定义为：用于在网络的中间层之间提供一对一的匹配也不值得说，ωs：=ΣI（Y）（一），Z），. . .，I（YΣT（NLs），Z）∈RN Ls，（2）在[16]中也提出了使用类似的辅助网络，其用作KD的然而，与所提出的方法相比，[16]中使用的辅助网络仅用于提高最终分类层之间的KD性能，而不是设计可以促进有效多层KD的辅助网络最后，据我们所知，在这项工作中，我们提出了第一个架构不可知的概率KD方法，其中NLs是学生模型的层数。所提出的方法通过最小化教师和学生模型中的信息流之间的分歧来工作，即，DF（ωs，ωt），其中DF（·）是用于测量两个可能异质的网络之间的分歧的度量为此，信息流发散度被定义为信息流向量的每个成对元素之间通过对各个层的信息流进行建模，D （ω，ω）=NLs.[ω]-[ω]Σ2，（三）使用混合核公式化的教师模型的核，可以支持异构网络架构，并且可以F s tS Ii=1tκ（i）有效地监督学生模型在其关键的学习时期。3. 该方法其中选择教师κ（i）的层以便最小化与教师的对应层的发散 .设T ={tl，t2，. . .，tN}表示传递集，κ（i）=NLtifi=NLsargminj（[ωs]i-[ωt]j）2，否则（四）包含N个传输样本，用于传输从教师模型到学生模型。注意，所提出的方法也可以以纯无监督的方式工作还有，让x（l）=f（t，l）表示从并且符号[x]i用于表示向量x的第i个元素。该定义采用层之间的最佳匹配（考虑每层的辨别能力），除了对应于任务手的最后一层通过这种方式，它允许测量流量不同架构的网络之间的并且y（l）=g（ti，l，W）表示从学生模型g（·）的第l层提取的表示。注意，学生模型的可训练参数由W表示。所提出的方法旨在训练学生模型g（·），即，学习适当的参数W，以便尽可能地“模仿”f（·）的行为。此外，令X（l）表示描述从教师模型的第l层提取的表示的随机变量，并且Y（l）表示学生模型的对应随机变量。此外，让Z表示描述教师模型的训练目标的随机变量。在这项工作中，教师网络的信息流被定义为网络的每一层表示和训练目标之间的互信息的进展I（X（l），Z）l.请注意，即使训练目标是建模信息流所必需的在KD过程中实际上并不需要，我们稍后将演示。然后，我们可以定义表征网络处理信息的方式的信息流向量同时，还期望最小化过度正则化和/或表示崩溃现象的影响，例如图1B中所示的那些。2，这通常发生在用于传递知识的层之间存在较大分歧时。然而，这也意味着对于具有非常不同的架构的网络或对于尚未针对手头的任务进行训练的网络，教师的同一层可以用于将知识传递到学生模型的多个层，从而导致KD期间的粒度的显著损失并导致稳定性问题。在3.2小节中，我们提供了一个简单而有效的方法来克服这个问题，通过使用辅助教师模型。注意，也可以使用更高级的方法，例如在不同的层集合之间采用模糊分配。3.1. 基于二次互信息的易处理信息流发散为了在两个不同的网络之间有效地传递知识，我们必须提供一种有效的方式2343C不C不K（x ，x）1个以上||a−b||计算互信息，以及训练，其中D（·）是概率密度度量，并且学生模型来匹配两层不同的网络。近日有站P（t，lt）和P（t，lt）用于表示条件，证明了当使用二次互信息（QMI）[27]时，可以通过适当放松优化问题[19]来有效地最小化教师和学生的特定层的互信息之间的差异。更具体地说，匹配两层之间的互信息的问题可以简化为一个更简单的概率匹配问题，该问题只涉及两层之间的成对相互作用。教师的概率计算使用的共同-sine和T-student核函数。同样，用于KD的表示是从第1t/1s层提取的。学生概率分布类似地表示为P（s，ls）和P（s，ls）。这两者之间的差异可以使用对称版本计算分布Kullback-Leibler（KL）发散，Jeffreys发散[10]：转移样本。因此，要传递知识-D（P（t，lt）||P（s，ls））=（八）在学生的特定图层和另一个图层教师的，这是足够的，以尽量减少分歧ΣNΣN.Σp（t，lt）−p（s，ls）.Σ· logp（t，lt）−logp（s，ls），教师和学生的条件概率分布之间的关系i=1j=1，i/=jJ|我J|我J|我J|我K（x（lt），x（lt））其可以在测量期间在有限数量的点处被采样优化，例如，使用64-128个样品的批次。这p（t，lt）=ij∈[0，1]，（5）和我|JN（lt）（lt）i=1，i/ =ji j基于批处理的策略已经成功地受雇于许多不同的作品[19，31]，对优化过程没有任何显着影响。K（y（ls），y（ls））p（s，ls）=ij∈[0，1]，（6）3.2. 辅助网络与信息流我|JNK（y（ls），y（ls））i=1，i ji j其中，K（·）是内核函数，并且lt和ls是指用于传输的学生层和教师这些概率还表示每个样本选择它的每一个邻居[14]，以这种方式对特征空间的几何形状进行建模，同时匹配这两个分布也确保了模型和一组（可能是未知的）类之间的互信息得到维护[19]。请注意，在此过程中不需要实际的训练标签，因此，所提出的方法可以以纯粹无监督的方式工作。核的选择可以对KD的质量产生显著影响，因为它改变了相互信息的估计方式[19]。除了众所周知的高斯内核，然而，这往往是难以调整，其他内核的选择包括余弦为基础的内核[19]，例如，Kc（a，b）=即使在（3）中定义的流发散度量考虑到不同网络处理信息的方式，它有一个显著的缺点：如果与学生相比，教师以显著不同的方式处理信息，则教师模型的同一层可能用于将知识传递到学生模型的多个层，导致用于KD的信息流的粒度的显著损失。此外，即使当学生模型能够以与教师兼容的方式处理信息，但尚未针对手头的任务进行适当的训练时，也会出现该问题为了更好地理解这一点，请注意，（3）中的信息流发散是基于估计的互信息而不是每个模型的实际学习能力计算的。因此，直接使用（3）1（ aTb）其中a和b是两个向量，并且2||一||2 ||B||2T-student内核，即，K T（a，b）=1d，其中d是2通常设置为1。选择最合适的内核因为手头的任务可以导致显著的性能改进，例如，基于余弦的内核对于检索任务执行得更好，而使用内核集合，即，使用多个核估计概率分布也可以提高互信息估计的鲁棒性。因此，在本文中，使用了一种混合目标，其旨在最小化使用余弦内核和T-student内核计算的散度L（lt，ls）=D（P（t，lt）||P（s，ls））+D（P（t，lt）||P（s，ls）），（7）对于KD来说不是最佳的值得注意的是，这一问题在对于采用多层的每个KD方法来说，这一点尤其重要，因为正如我们在第4节中所展示的，如果没有仔细选择层对，学生模型的准确性通常低于完全不使用多层传输训练的模型。不幸的是，由于对神经网络转换输入数据的概率分布的方式的理解不足，目前没有办法选择最合适的层来传递先验知识。这个过程可能特别困难和乏味，特别是当学生和教师的架构差异很大时。为了克服这项工作中的这一关键限制，我们建议为教师模型构建一个适当的辅助代理，这将允许直接匹配辅助模型和学生模型的所有层，cc T T2344W教师模型图3.首先，知识被转移到一个适当的辅助教师，这将更好地促进KD的过程然后，所提出的方法最小化两个模型之间的信息流分歧，考虑到临界学习周期的存在。如图3.第三章。通过这种方式，所提出的方法采用了一个辅助网络，该网络具有与学生模型兼容的架构，以更好地促进KD的过程。在这项工作中采用了一种简单而有效的辅助网络设计方法：辅助网络遵循与学生模型相同的体系结构，但是每层使用两倍的神经元/卷积滤波器。因此，辅助网络的更大的学习能力确保了足够的知识将总是可用于辅助网络（当与学生模型相比时），从而与直接从教师模型转移知识相比产生更好的设计最合适的辅助网络是一个开放的研究领域，可能存在比所提出的方法好得多的方法。然而，即使是这种简单的方法也足以显著增强KD的性能，并证明信息流建模的潜力，如第4节中提供的消融研究中进一步证明的那样。此外，请注意，辅助教学的层次结构-其中η是就业学习率。3.3. 关键期感知发散最小化神经网络在训练过程中会经历不同的学习阶段，前几个时期对于网络的后期行为尤其关键[1]。使用更强的教师模型提供了在最初的关键学习阶段指导学生模型的然而，仅仅最小化信息流分歧并不能确保形成适当的连接。为了更好地理解这一点，我们必须考虑通过网络反向传播的梯度既取决于训练目标，也取决于网络的初始化。因此，对于随机初始化的学生，在中间层之间形成适当连接的任务可能不会促进手头的最终任务（直到达到某个临界点）。这在图1中得到了清楚的证明，其中当使用所提出的方法时，网络的收敛最初较慢，直到达到关键学习期结束的点，并且网络的收敛加速。因此，在这项工作中，我们提出使用适当的加权方案来计算训练过程中超参数αi更具体地说，在关键学习期间，给出显著更高的权重以匹配较早层的信息流因此，参数αi计算如下：.1，如果i=NLS正如[16]中所提出的，可以以这种方式训练ER。最终损失用于优化学生模型，当αi=α初始值·γk，否则，（十）采用辅助网络，计算如下：NLs其中k是当前训练时期，γ是衰减因子，α init是用于匹配中间层中的信息流的初始权重。设定参数γL=αi L（i，i），（9）至07，而αinit 设定为100 对于所有实验i=1其中，αi是控制将知识从教师的第i层转移到学生的第i层的相对权重的超参数，并且使用辅助教师来计算（7）中定义的损失L（i，i），而不是最初的老师。αi的值可以在训练过程中动态选择，以确保所应用的KD方案考虑到网络的当前学习状态，如第3.3小节中进一步讨论的。最后，采用随机梯度下降来训练学生模型：<$W= −η<$L，其中W是矩阵在本文中进行（除非另有说明）。因此，在最初的几个时期（1-10），手头的最终任务对优化目标的影响最小。然而，随着训练过程的进行，匹配中间层的信息流的重要性逐渐降低，并且优化切换到针对手头的任务微调网络。4. 实验评价本节提供了所提出的方法的实验评估所提出的方法是评估-层1助理教师模型第二步：信息流发散最小化学生模型层2层1层1层3层2层2层4层3层3⋮⋮⋮层NLt层NLs层NLs第一步：KD至辅助信息流发散关键期感知优化教师信息流矢量学生信息流矢量2345表1.指标学习评估：CIFAR-10方法mAP（e）mAP（c）前100名（e）前100名（c）基线模型教师（ResNet-18）87岁18九十4792. 1592.26Aux. （CNN1-A）62. 1266岁。78七十三。7275.91建设性监督无建设性监督学生（CNN1）三十五3039岁0055. 87五十八77蒸馏三十七39四十53五十六17五十八56Hint.四十三99四十八99六十岁。6962. 42MKT三十六26三十八岁。2050块5552岁72PKT四十八0751岁56六十岁。0262. 50Hint-H四十二65四十六岁。46五十八51六十岁。59MKT-H41岁16四十三9955. 10五十七63PKT-H四十八0551岁73六十岁。3963岁01提出四十九20五十三0661岁54六十四24表2.分类评价：CIFAR-10方法列车精度测试精度蒸馏七十二50七十68Hint.七十一29七十59MKT69岁。7369岁。13PKT七十二70七十44Hint-H七十9369岁。52MKT-H69岁。6768岁82PKT-H七十三。43七十一44提出七十三。24七十一97使用四种不同的数据集（CIFAR-10 [11]，STL- 10[6]，CUB-200 [29]和SUN Attribute [21]数据集）进行评估，并与四种竞争性KD方法进行比较：神经网络蒸馏[9]，基于提示的转移[22]，概率知识转移（PKT）[19]和度量知识转移（缩写为MKT）[31]。各种不同的eval- uation设置被用来评估所提出的方法的各个方面。有关所用网络和评估设置的详细说明，请参阅补充材料首先，使用CIFAR-10数据集（表1）在度量学习设置中评估了所提出的方法。在两种不同的设置下评价了这些方法：a）使用对比监督（通过在损失函数中添加对比损失项[8]），以及b）使用纯无监督设置（克隆强大的教师模型的响应）。简单的变体（Hint、MKT、PKT）指的是仅从教师的倒数第二层传递知识，而“-H”变体指的缩写首先，请注意，使用所有层来提取表3. 度量学习评估：STL分布偏移方法mAP（e）mAP（c）前100名（e）前100名（c）教师（ResNet-18）五十七4061岁2066岁。7569岁。70Aux. （CNN1-A）44. 89四十八48五十三54五十六26学生（CNN1）三十60三十三岁。0439岁0841岁69蒸馏三十三岁。56三十六23四十三32四十六岁。01Hint.三十七11四十33四十六岁。60四十九46MKT三十三岁。46三十五91四十65四十三23PKT三十七22四十2644. 73四十七98Hint-H三十五56三十七85四十三83四十六岁。13MKT-H三十三岁。57三十五23四十20四十二11PKT-H三十七5639岁7744. 76四十七17提出三十八岁。11四十35四十八4450块57除了MKT方法（当在没有任何形式的监督下应用时）之外，知识对检索精度的改善很小甚至没有。实际上，在某些情况下（例如，当采用基于提示的传送时），使用多层时的性能更差。这种行为进一步证实并突出了在异构体系结构之间应用多层KD方法此外，使用对比监督似乎为竞争方法提供了更一致的结果，特别是对于MKT方法。使用所提出的方法导致mAP的显着增加，以及在top-K精度。例如地图(c)与次佳性能方法（PKT-H）相比，增加了2.5%以上（相对增加）。同时，请注意，当没有额外的监督时，所提出的方法似乎会导致总体上更好的结果。这也与关键学习期的存在有关。如前所述，当网络随机初始化时，形成适当的信息流路径几乎不需要来自最终层的监督（因为形成这些路径通常会改变网络处理信息的方式，暂时增加与手头的最终任务相关的损失）。从使用CIFAR- 10数据集的分类评价中也可以得出类似的结论。结果报告于表2中。同样，所提出的方法导致比下一个最佳性能方法相对增加约0.7%。接下来，使用STL-10数据集（表3）在分布偏移设置下评价了所提出的方法对于这些实验，使用CIFAR-10数据集训练教师模型，但使用STL数据集的未标记分割进行KD同样，观察到与CIFAR-10数据集类似的结果，所提出的方法在所有评估的指标上优于其余评估的方法。同样值得注意的是，在网络的所有层之间直接传输知识通常会损害竞争方法的检索精度使用更具挑战性的CUB-200数据集（表4）也证实了这一行为，其中所提出的方法在检索评价和分类评价方面再次优于其他评价方法对于后者，一个相当大的学生（CNN1）四十七69四十八72五十七46五十八50Hint.四十三56四十八73六十岁。4462. 43MKT四十五34四十六岁。8455. 89五十七10PKT四十八87四十九95五十八44五十九48Hint-H四十三24四十七46五十八9761岁072346表4.度量学习和分类评估：CUB-200方法mAP（e）mAP（c）前十名（e）前十名（c）Acc.老师63岁1778岁17七十六。0281. 64七十二16Aux.十七岁01十八岁98二十五77二十七岁07三十二33学生十五岁60十七岁2423岁40二十四岁89三十四08蒸馏十六岁40十八岁55二十四岁82二十六岁57三十五21Hint.十四岁34十五岁98二十二岁3123岁4128岁71MDS12个。99十三岁3920块6020块59三十46PKT十六岁36十八岁57二十四岁68二十六岁70三十四96Hint-H十三岁94十五岁3721岁75二十二岁6128岁34MDS-H十三岁83十五岁3921岁27二十二岁76三十二08PKT-H十五岁58十七岁7723岁50二十五39三十三岁。83提出十六岁7019号。01二十五41二十七岁67三十六95表5.猪克隆网络：SUN数据集方法mAP（c）top-1（e）前十名（c）生猪三十二06 ±1。2062. 55 ±1。10四十七93 ±1。73Aux.29岁69 ±2。0955. 26 ±3。03四十二34 ±3。71提示20块87 ±2。1344. 14 ±4。1131岁15 ±4 48MDS21岁65 ±2。79四十三43 ±4。8731岁29 ±4。24PKT二十七岁22±2。60四十九90 ±3。67三十六92 ±2。64提出二十七岁63±0。6251岁18 ±1。74三十八岁。59±1。00观察到改进，因为精确度比下一个最佳执行方法提高了1.5%以上。此外，我们还进行了HoG [7]克隆实验，其中知识是从手工制作的特征提取器转移的，以证明所提出的方法的灵活性。使用与先前实验中相同的策略，即，首先将知识转移到辅助模型，然后进一步提取到学生模型。值得注意的是，这种设置有几个新兴的应用，如各种最近的作品[19，5]中所讨论的，因为它允许针对难以获取大型注释数据集的领域预训练深度神经网络，以及提供一种直接的方式来利用高度优化的深度学习库为嵌入式设备提供基于神经网络的实现。手工制作的特色。表5中报告了该设置的评价结果，再次证实了拟定方法优于其余评价方法。最后，进行了几项消融研究首先，在图1我们评估了使用建议的加权方案的效果，该方案考虑了关键学习期的存在。所提出的方案确实导致更快的收敛速度比使用PKT方法的单层KD，以及超过多层PKT-H方法。为了验证改进的结果是由于在关键学习期间赋予中间层更高的权重而产生的，我们对PKT-H方法使用了相同的衰减方案，但初始αinit设置为1而不是100。接下来，我们还演示了图1中匹配正确图层的影响。二、从图2所示的结果中可以得出几个有趣的结论。例如，请注意，当从教师层传输知识时，表6. 使用不同大小的辅助网络的效果（根据参数的CNN顺序：CNN-1-H> CNN-1-A> CNN-1> CNN-1-L）方法mAP（e）mAP（c）前100名（e）前100名（c）CNN1-L →CNN1三十五03三十七89四十六岁。31四十九27CNN1-A →CNN1四十九20五十三0661岁54六十四24CNN1-H →CNN1四十八8252岁7761岁2563岁99CNN1 →CNN1-L三十六4939岁25四十八2150块88CNN-1-A →CNN-1-L三十五72三十八岁。61四十七2550块13CNN-1-H →CNN-1-L三十四90三十七51四十五83四十八50与目标的MI较低（NCC准确度较低）。另一方面，使用具有较低区分能力的层（ResNet-18的第1层）可以具有稍微积极的正则化效果。同时，使用太有区别的层（ResNet-18的第3层和第4层）可能导致表示的早期崩溃，损害学生的精度。只有当辅助教师的正确层与学生相匹配时，学生的准确性才会增加（CNN-1-A的层2和3）。此外，我们还评估了使用不同大小的辅助模型对用所提出的方法训练的学生模型的精度的影响评价结果见表6。使用了两种不同的学生模型：CNN-1（15 k参数）和CNN-1-L（6 k参数）。正如预期的那样，与更复杂和不太复杂的教师相比，更接近学生复杂性的辅助模型导致了提高的也就是说，当CNN-1模型被用作学生时，CNN-1-A教师达到最好的结果，而当CNN-1-L被用作学生时，较弱的CNN-1教师达到最高的精度。请注意，随着学生复杂性的增加，KD过程的效率会下降。5. 结论在本文中，我们提出了一种新的KD方法，该方法的工作原理通过建模的信息流通过教师模型的各个层所提出的方法能够克服现有KD方法的几个局限性，特别是当用于训练非常轻量级的深度学习模型时，其架构与教师显著不同，通过a）设计和训练适当的辅助教师模型，以及b）采用关键学习感知KD方案，确保关键连接以有效地模拟辅助教师的信息流程。确认这项工作得到了欧盟Hori- zon 2020研究和创新计划（OpenDR）under Grant 871449的支持本出版物仅反映作者的观点。欧盟委员会不对可能使用其所含信息的任何行为2347引用[1] Alessandro Ruple，Matteo Rovere，and Stefano Soatto.深度神经网络的关键学习期。 arXiv 预印本 arXiv ：1711.08856，2017。一、二、六[2] Sungsoo Ahn，Shell Xu Hu，Andreas Damianou，Neil DLawrence，and Zhenwen Dai.知识转移的变分信息在IEEE计算机视觉和模式识别会议论文集，第9163-9171页，2019年。3[3] Rohan Anil，Gabriel Pereyra，Alexandre Passos，RobertOr- mandi，George E Dahl，and Geoffrey E Hinton.大规模分布式神经网络的在线训练. arXiv预印本arXiv：1804.03235，2018。3[4] 克里斯特是一个布西尔，里奇卡鲁阿纳，和阿尔和xandru尼古列斯库-米齐尔。模型压缩。ACM SIGKDDInternational Conference on Knowledge Discovery andData Mining，第535-541页，2006。二、三[5] Zhenghua Chen ， Le Zhang ， Zhiguang Cao ， and JingGuo.从手工特征中提取知识用于人类活动识别。IEEETransactions on Industrial Informatics，14（10）：4334-4342，2018。8[6] Adam Coates，Andrew Ng，and Honglak Lee.无监督特征学习中单层网络的分析人工智能和统计会议论文集，第215-223页，2011年。7[7] N. Dalal和B. Triggs用于人体检测的定向梯度直方图。在 Proceedings of the Computer Society Conference onComputer Vision and Pattern Recognition ，第 886-893页，2005年。8[8] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习不变映射进行降维。在 Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第2卷，第1735-1742页，2006中。7[9] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识神经信息处理系统深度学习研讨会论文集，2014年。一、二、三、七[10] 哈罗德·杰弗里斯。估计问题中先验概率的一种不变形式。伦敦皇家学会会刊。系列 A. Mathematical andPhysical Sciences，186（1007）：453-461，1946. 5[11] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，2009年。7[12] Yann LeCun，Yoshua Bengio，and Geoffrey Hinton.深度学习Nature，521（7553）：436-444，2015. 1[13] Seung Hyun Lee，Dae Ha Kim，and Byung Cheol Song.基于奇异值分解的自监督知识提取。欧洲计算机视觉会议，第339-354页。Springer，2018. 3[14] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research ， 9 ：2579-2605，2008。5[15] 克里斯·麦库尔，特里斯坦·佩雷斯，本·厄普克罗夫特。轻量级深度卷积神经网络的混合：应用于农业机器人。IEEE Robotics and Automation Letters，2（3）：1344[16] Seyed-Iman Mirzadeh ， Mehrdad Farajtabar ， Ang Li ，and Hassan Ghasemzadeh.通过教师助理改进知识提炼：弥合学生和老师之间的鸿沟。 arXiv 预印本：1902.03393，2019年。三、四、六[17] 丹尼尔·帕罗西，弗朗西斯科·孔蒂，卢卡·贝尼尼。一个开源和开放硬件的深度学习驱动的视觉导航引擎，用于自主纳米无人机。在传感器系统分布式计算国际会议论文集，第604-611页[18] Daniele Palossi，Antonio Loquercio，Francesco Conti，Eric Flamand，Davide Scaramuzza和Luca Benini。超低功耗深度学习驱动的自主纳米无人机。IEEE/RSJ智能机器人与系统国际会议论文集，2018年。[19] Nikolaos Pass

下载后可阅读完整内容，剩余1页未读，立即下载