基于奇异值分解的神经网络知识蒸馏方法

138 浏览量更新于2023-10-13 收藏 1.31MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于奇异值分解的Seung Hyun Lee[0000−0001−7139−1764]Dae Ha Kim[0000−0003−3838−126X]和宋炳哲[0000−0001−8742−3433]大韩民国仁川仁荷大学{lsh910703，kdhht5022，}@ gmail.com，bcsong@inha.ac.krAbstract. 为了解决传统的分布式神经网络（DNN）的数据量大和计算量大的问题，提出了将传统的师生（T-S）DNN的知识转化为S-DNN的师生（T-S）DNN。然而，现有的T-S-DNN具有有限的使用范围，并且T-DNN的知识不足以转移到S-DNN。为了提高从T-DNN转移的知识的质量，我们提出了一种新的知识蒸馏使用奇异值分解（SVD）。此外，我们将知识转移定义为一个自我监督的任务，并提出了一种从T-DNN连续接收信息的方法。仿真结果表明，计算成本为T-DNN的1/5的S-DNN在计算成本方面比T-DNN好1.1%。分类精度。同样假设相同的计算成本，我们的S-DNN优于由最先进的蒸馏驱动的S-DNN，性能优势为1.79%。代码可在https://github.com/sseung0703/SSKDSVD上获得。关键词：统计方法和学习，优化方法，识别：检测，分类，索引，匹配1介绍最近，DNN已经在分类和识别等研究领域压倒了其他机器学习方法[1，2]。作为具有高计算能力的通用图形处理单元（GP-GPU）的发展的结果，可以实现和验证具有巨大复杂度的DNN，从而产生在DNN中优于人类识别能力[3-5]。另一方面，由于有限的存储器和计算能力，在移动终端或嵌入式系统上操作DNN仍然具有挑战性。最近，已经提出了各种轻量级DNN模型以减少存储器负担和计算成本[6，7]。然而，这些小尺寸模型的性能低于最先进的模型，如ResNext [5]。另一个问题是，不仅是常规DNN，轻量级DNN模型也需要庞大的数据在学习上。作为这两个问题的解决方案，Hinton等人。[8]定义了知识蒸馏的概念，并在此基础上提出了一种师生（T-S）DNN。2Seung Hyun Lee，Dae Ha Kim，Byung CheolSong然后研究了几种知识蒸馏技术[9，10]。例如，在[10]中，Yim et al.提出了一种方法，将由T-DNN生成的特定特征图之间的相关性在这种情况下，S-DNN分两个阶段学习：第一阶段使用所传递的知识初始化网络参数，第二阶段学习主任务。然而，现有的T-S知识提取方法存在以下几个局限性：（1）他们还没有从T-DNN中提取和提取丰富的信息。(2)此外，T-S-DNN的结构非常有限。(3)最后，由于来自T-DNN的知识仅出于初始化S-DNN的参数的目的而被学习，因此随着下一个主任务的学习的进行，它逐渐消失为了解决这一问题，本文从两个角度进行了探讨。第一种是适当地处理知识，以减少记忆和降低计算量。因此，我们通过利用奇异值分解（SVD）来优雅地压缩知识数据，奇异值分解主要应用于信号处理领域的特征降维[11-13]。我们还通过径向基函数（RBF）[14，15]分析了压缩特征图之间的相关性，该函数通常用于内核化学习。因此，使用SVD和RBF的知识蒸馏可以比传统技术更有效地提取T-DNN的信息，并且可以传输而不管特征图的空间分辨率如何。第二，通过自我监督学习的训练机制[16-18]，它学会自己创建标签，确保传递的知识不会消失并被持续使用。也就是说，它可以计算出T-DNN知识的消失问题。此外，自监督学习可以提供额外的性能改进，因为它允许更强大的正则化[8]。实验结果表明，当视觉几何组（VGG）模型[19]应用于所提出的网络时，CIFAR-100的T-DNN具有64.4%的准确率，可以将S-DNN的性能提高65.1%，计算成本为T-DNN的1/5。除了VGG，最先进的模型，如作为MobileNet[7]和ResNext[5]也被应用于所提出的知识蒸馏方法，证实了类似的效果，并证明所提出的方法可以推广。最后，我们引入了自监督学习来持续提供T-DNN的知识。结果，我们确认S-DNN的性能进一步提高了最大1.2%，并且最终S-DNN的性能优于T-DNN 1.79%。2相关作品2.1知识蒸馏知识转移是从相对复杂和深入的模型转移信息的技术，即，T-DNN到较小的DNN模型，即，S-DNN，最终提高了S-DNN的性能[8]。[9]第一次出现基于奇异值分解的3在转移T-DNN的通过学习从T-DNN提取的知识，S-DNN可以具有比随机初始化好得多的初始Yim等人[10]将从T-DNN转移到S-DNN的知识定义为特征图的变化而不是层参数。他们确定了网络中的某个层组，并将层组的输入和输出特征图之间的相关性定义为Gram矩阵，以便S-和T-DNN的特征相关性变得相似。然而，由上述技术定义的知识仍然缺乏信息，并且通过初始化进行的知识转移仍然有限。2.2SVD和RBFSVD主要用于降维或从特征图中提取重要信息[11-13]。在[11]中，Alter etal.结果表明，利用奇异值分解可以提取数据集的信息。Lonescu等人根据SVD的链式规则定义了梯度，并证明了即使在DNN中使用SVD也可以实现端到端学习[13]。他们还表明，在特征图中汇集高级信息在识别和分割等特征分析任务中非常有效。径向基函数是一个函数，它重新映射每个特征在距离中心的角度，使得该特征具有较高的维度。RBF可以用于各种核学习或RBF网络（RBFN）[14，15]。特别地，使用RBF（诸如高斯函数）分析特征使得可以更鲁棒地分析噪声数据。如果这两种方法能够很好地结合起来，将有可能从模糊和噪声数据中有效地提取重要信息。提出的知识蒸馏方法有效地提取核心知识从一个给定的特征图使用SVD和有效地计算两个特征图之间的相关性使用RBF。2.3培养机制自我监督学习生成标签并自行学习它们。最近，人们研究了各种自监督学习任务[16-18]，因为它们可以有效地初始化网络模型。在[18]中，已经提出了一种通过将各种自监督任务捆绑到多任务中来一次学习各种自监督任务的方法，并且已经证明该方法比传统方法更有效。另一方面，半监督学习是另一种学习方案，当标记数据不足时，同时使用标记和未标记数据。为了解决缺乏训练目的数据集的根本问题，已经积极地进行了关于半监督学习的各种研究[20，21]。我们将介绍上述自监督学习作为比现有T-S-DNN中通过知识转移进行参数初始化更有效的转移方法4Seung Hyun Lee，Dae Ha Kim，Byung CheolSong图1：提出了基于知识蒸馏的网络的概念3方法本节详细介绍了拟议的知识转移方法。受[10]思想的启发，我们推导出从T-DNN中提取的两个特征图之间的相关性，并将其作为知识进行传输。图1示出了所提出的基于知识蒸馏的网络。首先，取决于目的，T-DNN和S-DNN都由预定卷积层和全连接层组成例如，VGG[19]，MobileNet [7]，ResNext [5]等。可以作为DNN。然后，为了提取每个DNN固有的特征图特征，我们在DNN中指定两个特定的层点，并感测相应的两个特征图。两点之间的层被定义为层模块。在层模块的输入处感测的特征图被称为前端特征图（FFM），并且在输出处感测的特征图被称为后端特征图（BFM）。例如，在MobileNet中，层模块可以由几个深度可分离卷积组成。设FFM和BFM的深度分别为DF和DB。另一方面，可以在每个DNN中定义若干非重叠层模块以用于鲁棒蒸馏。在本文中，每个DNN中的层模块的最大数量是G。现在我们可以通过蒸馏模块得到某一层模块的FFM和BFM之间的相关性。蒸馏模块从FFM和BFM两个输入输出具有k×DF×DB大小的蒸馏特征向量（DFV）。参见第第3.1条最后，我们提出了一种新的训练机制，使得来自T-DNN的知识不会在第二阶段消失，即，主任务学习过程我们改进了[8]中提出的自监督学习，以实现更有效的知识转移。参见第3.2.3.1拟定蒸馏模块一般来说，DNN通过多个层生成特征图以适应给定的任务。在[10]的蒸馏方法中，首先将从DNN获得的特征图之间的相关性定义为知识。建议的方法也接受基于奇异值分解的5图2：所提出的知识蒸馏模块。[10]的思想，并使用特征图之间的相关性来提取知识。然而，通过多个卷积层产生的特征图通常太大而不能使用，因为它们不仅计算昂贵，而且难以学习。解决这个问题的一个直观方法是减少特征图的空间维度。我们引入SVD有效地去除空间冗余的特征映射，并获得有意义的隐含特征信息的过程中减少特征维数。本节详细描述如何生成DFV，即，使用SVD进行蒸馏的知识图2示出了所提出的知识蒸馏模块的结构。假设定义了图层模块的输入和输出特征图在T-DNN中，即，FFM和BFM是该蒸馏模块的输入。第一、我们通过使用截断的SVD来消除特征图的空间冗余。然后，从截断的SVD和奇异值矩阵获得的右手奇异向量V被后处理以便于学习，并且然后获得k个最后，通过RBF计算从FFM和BFM获得的特征向量之间的相关性以获得rank-kDFV。截断SVD如图所示。如图3（a）所示，蒸馏模块的第一步是截断SVD，其用于压缩特征图信息并同时降低维度。在应用SVD之前，执行预处理以将H×W×D的3D特征图信息转换成具有（H×W）×D大小的2D矩阵M。则M可以是由SVD的形式U VT的VT是V的共轭转置。U的列和V的列分别称为M的左奇异向量和右奇异向量。M的非零奇异值（在Σ的对角项上找到）是MT M和MMT两者的非零特征值的平方根。另一方面，通过SVD分解的U和V具有不同的信息[11]。U是M的每个特征的唯一模式信息，并且V可以被解释为特征集合的全局信息。并且具有奇异值的尺度或能量信息由于我们的目标是获得压缩的特征信息，因此我们仅使用具有特征图的全局信息的V及其能量Σ。为了最小化内存大小以及计算成本，我们使用截断SVD。截断SVD指的是将给定矩阵分解为仅6Seung Hyun Lee，Dae Ha Kim，Byung CheolSong=1T预定的秩k。也就是说，V和Σ的维数分别为k×D和k×在这种情况下，由于重构矩阵和原始矩阵之间的差异被最小化，所以可以尽可能多地保持给定矩阵M的信息因此，FFM和BFM被压缩，信息损失最小，如图所示。第3（a）段。另一方面，为了应用反向传播的链式法则对于学习过程中的截断SVD部分，M的梯度必须被定义。所以，我们修改[13]中定义的梯度。注意，与[13]不同，所提出的方案仅使用分解向量中的V和Σ。由于Σ仅用作比例因子，因此不需要获得其梯度。因此，仅获得V的梯度，并且M的梯度被重新定义，如在等式（1）中。(1)等式（二）、UET−U .ETV.ΣT. diagVΣΣHW≤D（M）=−2U.K◦ΣT VT E.symΣΣΣTVT，（一）2UΣKT◦VT（V）sym VT，否则.1−122，i=j，（1≤i，j≤k）E=（V）Σ，K=σi−σj0，否则（二）其中（A）sym.Σ2 A+A和（A） diag 是一个使所有非对角线零组件◦表示Hadamard乘积，σ表示对角线Σ的分量我们不需要对（Σ）和（U）执行不必要的操作，并且由于每个矩阵的维数较低，因此可以将计算成本整体最小化。因此，截断SVD是所提出的知识提取模块的关键元素因此，建议的知识蒸馏功能，以适应小规模的网络。后处理截断SVD乘积V和Σ包含足够的FFM和BFM信息，但由于以下两个问题而难以直接使用。首先，由于SVD分解一个给定的矩阵的能量降序，具有类似的能量奇异向量的顺序可以颠倒。第二，由于奇异向量的每个元素的值为[-1，1]，因此可能存在具有相同信息但方向相反的奇异因此，即使使用相似的特征图，分解它们的结果可能看起来非常不同。因此，T-DNN和S-DNN的对应奇异向量基于T-DNN被不同地后处理，因为T-DNN将其信息递送到S-DNN。首先，在图1中描述了T-DNN的后处理。3（b）款。归一化T-DNNT的奇异值，使得平方和变为1。基于奇异值分解的7(a)(b)（c）第（1）款图3：（a）截断SVD（b）T-DNN的后处理（c）S-DNN的后处理归一化通过将归一化的ΣT与T-DNNVT的奇异向量相乘来执行，如等式（1）所示。(4)以获得一组压缩的特征向量FT，如等式（1）所示。（三）、FT={fT，i|1≤i≤k}（3）fT，iσT，i=v||ΣT||2T我（四）其中σT，i是T-DNN的第i个奇异值，并且VT，i是对应的奇异向量。由于奇异值意味着相应奇异向量的能量，因此按照重要性的顺序学习每个奇异向量。接下来，S-DNN的奇异向量被后处理，如图2所示。3（c）款。首先，我们根据教师奇异值对齐学生奇异向量因此，具有与教师奇异向量最相似的信息的学生奇异向量以相同的顺序对齐。这里，奇异向量之间的相似度被定义为余弦相似度的绝对该过程描述于等式2中。（5-6）。2-x x=0 （ |vT ， i·vS ， j| ）、（ 1≤i≤k ）、（ 1≤j≤k+1 ）（ 5）JvAlign，i= sign。vT，i·vS，sjΣvS，sj（6）这里，vS，j指示S-DNN的V的第j个向量，并且v Align，i是S-DNN的V的对齐版本的第i个请注意，为了有效对齐，学生特征图再分解一个向量。此外，通过T-DNN的奇异值来归一化S-DNN的奇异向量，使得进一步学习更高重要性的奇异这在等式中示出。（7-8）。FS={fS，i|1≤i≤k}，8Seung Hyun Lee，Dae Ha Kim，Byung CheolSong（7）基于奇异值分解的9fS，iσT，i=v||ΣT||2Align，i（八）因此，由于后处理，可以有效地使用噪声和随机分解的奇异向量信息。使用径向基函数计算相关性本节描述了通过上一节中获得由于从奇异向量导出的特征信息因此，我们采用高斯RBF，这是用于分析噪声数据的常用核函数[14，15]，作为获得相关性的一种方式。另一方面，通过将所提出的SVD和后处理应用于FFM和BFM而获得的特征向量基本上是彼此独立的因此，我们将从FFM和BFM获得的特征向量集之间的相关性定义为逐点L2距离，如在等式2中。(10)，并且秩kDFV通过将高斯RBF应用于如等式（1）中所计算的相关性来完成。(9)对于尺寸扩展。DFV=.exp.−dm，n，lβΣ，1≤m≤DF ，1≤n≤DBΣ，1≤l≤k（九）FFMBFMdm，n，l=¨fm，l−fn，l（10）2β在方程中(9)是用于平滑DFV的超参数，并且应当针对噪声鲁棒操作来适当地选择它。如上所述，通过SVD和RBF可以有效地获得由噪声和模糊数据组成的特征图之间的相关性因此，通过所提出的方案从T-DNN中提取的知识可以为S-DNN提供非常有效的指导此外，与现有技术不同，DFV可以传输知识，而不管特征图的大小，因此它会导致一致的性能。实验结果在4.2节中讨论。3.2培养机制剩下的步骤是通过传递T-DNN的提取知识来学习改进S-DNN的性能，即，DFV至S-DNN。我们需要学习S-DNN以DFV作为中介来模仿T-DNN ，因此我们将 T-DNN 和 S-DNN 的知识对的 L2 损失函数 L 转移（DFVT，DFVS（十一）、¨ ¨2G¨DFV（g）−DFV（g）¨塞西L转移（DFVT，DFVS）=22G（十一）10Seung Hyun Lee，Dae Ha Kim，Byung CheolSong其中G是在所提出的T-S-DNN中定义的层模块的最大数量。在这种情况下，假设所有层模块具有相等的重要性，并且在没有附加加权的情况下进行训练如果S-DNN是通过基于等式（1）的学习将T-DNN的知识转移到S-DNN来初始化的。(11)，S-DNN的主任务的学习性能可以得到改善（参见第4.2节）。然而，即使如上所述在初始化之后学习S-DNN的主要任务，仍然存在随着学习进行T-DNN的知识逐渐消失并且性能改进有限的问题因此，我们引入自监督学习，同时训练主任务和转移任务。由于由S-DNN学习的T-DNN的知识是由T-DNN生成的标签，因此使用该特性可以进行自监督学习因此，用于学习S-DNNΘS的参数的最终损失函数被定义为等式（1）。（十二）、L总（ΘS）=L主（ΘS）+L转移（DFVT，DFVS）（12）如上所述，当通过多任务学习来一起学习主任务和转移任务时，可以连续地转移T-DNN的知识以进一步提高性能。另一方面，如果蒸馏损失远大于主任务损失，则知识转移的梯度变得过大，上述多任务学习可能不能正常工作。为了解决这个问题，有必要限制蒸馏任务的效果。因此，我们引入梯度裁剪[22]来限制知识转移的梯度。一般来说，限幅的阈值是恒定的，但是我们定义主任务和转移任务的L2(13)，和剪辑知识转移的梯度自适应地使用这一点。此外，由于随机初始化的S-DNN不同于T-DNN，因此难以快速跟随因此，我们使用S形函数，如等式（1）所示。(14)以设计裁剪的梯度以随着学习的进行而平滑地增长。τ=（ΘS）主2β-（ΘS）反式β-2（十三）（ΘS）clipped=.11+exp（−τ + p）S）反式，（ΘS）反式<（Θ S）主（十四）反式否则为（ΘS）反式由方程式在等式（14）中，p表示当前时期。因此，所提出的自监督学习方法可以更集中于主任务的学习，同时学习两个不同性质的任务。换句话说，从T-DNN中提取的丰富知识可以连续地转移到S-DNN而不会消失。此外，由于所提出的自监督学习方法具有S-DNN的硬正则化的效果，因此可以在没有过拟合的情况下提高S-DNN的性能（参见第4.3节）。（Θ基于奇异值分解的11(a)(b)（c）第（1）款图4：用于评估小网络增强的实验的一对T-DNN和S-DNN。（a）VGG，（b）MobileNet，（c）ResNext。这里，虚线框指示层模块。4实验结果为了评估所提出的知识蒸馏方法的性能，我们进行了以下三个实验。首先，我们验证了所提出的知识本身的有效性。为此，我们进行了所谓的小型网络增强实验，该实验使用T-DNN知识提高了相对较小的S-DNN的性能（参见第4.2节）。第二，我们检验了第二节中提出的培训机制的绩效3. 2（参见第4节）。（3）第三章。他说，该公司与Yi金属公司的价格相差甚远。的两种老化方法[10]。第4.3节还表明，即使在图像信息上没有硬约束时，所提出的方法也可以鲁棒地传递知识第三，在第4.4节中实验检查了根据DFV的数量所提出的方法的性能。4.1实验环境我们使用Tensorflow [23]在一台计算机上实现了所提出的方法，该计算机的规格为 Intel Core i7-7700CPU@3.60GHz x8 ， 16 GB RAM 和GeForce GTX 1070。我们使用CIFAR100 [24]。CIFAR100数据集由32x32小尺寸的彩色图像组成，包含50，000个训练数据和10，000个测试数据，分为100个类别或标签。这里使用的增强是随机移位、随机旋转和水平翻转。在与[10]相同的条件下对所提出的方法进行了测试，并将三个等效实验结果的平均值用作最终结果，以增加结果的可靠性10Seung Hyun Lee，Dae Ha Kim，Byung CheolSong4.2小型网络增强为了仅验证知识转移的效果，我们首先展示了两阶段方法的学习结果，如[10]所示。也就是说，在本实验中没有使用第3.2节的自监督学习。我们比较了所提出的方法和最先进的知识蒸馏方法[10]。此外，还显示了单独的T-DNN和单独的S-DNN的结果。所有方法都是使用CIFAR100数据集学习的我们采用VGG、Mo-bileNet、ResNext作为DNN来应用于所提出的方法。使用这些构建的4.第一章虽然VGG在准确率和参数大小方面比最先进的CNN模型稍差，但由于其结构简单和易于实现而被广泛使用。我们使用了CIFAR 100的T-DNN的修改版本，从[19]中提出的VGG网络中删除了最后三个卷积层 S-DNN仅由一个具有相同滤波器深度的卷积层组成，如图所示。第4（a）段。这里，层模块被定义为具有相同滤波器深度的卷积层。MobileNet是一种CNN，具有小参数大小和计算成本，设计用于移动或嵌入式环境。MobileNet的情况下，所提出的方法是能够提高性能，即使是小型网络。如图在图4（b）中，通过移除[7]中提出的最后四个深度可分离卷积层（DSC）来构建T-DNN以拟合CI-FAR 100。S-DNN通过仅使用一次相同滤波器深度的DSC来组成。这里，层模块由相同滤波器深度的DSC定义最后，ResNext是一个网络，其中卷积层被划分为几个瓶颈层。通过使用ResNext的实验，我们表明，即使在具有非常复杂的结构的网络中，所提出的方法也可以有效地传输知识我们使用[5]中提出的网络作为T-DNN，并且通过部分减少瓶颈层来构建S-DNN。在这里，层模块是通过将瓶颈层和一个卷积层相结合来定义的。层（见图4（c））。通过He's i nitial i z at i on [ 3]和L2正则化来确定网络k的wee i g t。衰减参数设置为10−4。批量设定为128，使用随机梯度下降（SGD）[25]进行优化，并应用Nesterov加速梯度[26]。初始学习率设为10−2，动量设为0.9。在总共200个epoch期间，网络被学习，并且学习率降低到每50个epoch的1/10。两个阶段使用相同的超参数。所提出的方法的超参数k被设置为1。换句话说，仅使用一个DFV，并且RBF的β在实验上固定为8。实验结果如表1所示，可以看出，所提出的方法总是优于[10]。在VGG的情况下，与S-DNN相比，所提出的方法具有3.68%的突出性能改进。它还显示出比[10]高约0.49%的性能，比单独的T-DNN高0.61%在Mobilenet的情况下，所提出的方法比S-DNN提高了约2%的性能，并且比[10]和[12]提高了1.62%。12Seung Hyun Lee，Dae Ha Kim，Byung CheolSong网络模型FLOPs参数精度网络模型FLOPs参数精度表1：针对三种不同网络的所提出的算法与[10]的比较这里，FLOPS表示加法、乘法和条件运算的次数之和参数表示权重和偏差的总和。T-DNN 576.3M 10.9M64.44VGGS-DNN[10个国家]121.3M121.3M3.8M3.8M61.3764.54提出121.3M3.8M65.05T-DNN98.4M2.3M57.85MobileNet S-DNN[10个国家]37.8M37.8M0.82M0.82M56.1556.53提出37.8M0.82M58.15T-DNN 547.3M 0.66M66.58ResNextS-DNN[10个国家]247.6M247.6M0.34M0.34M64.0063.60提出247.6M 0.34M65.43表2：所提出的网络对特征图的空间分辨率的敏感性T-DNN 576.3M 10.9M64.44VGGS-DNN15.6M3.8M54.17提出15.6M3.8M61.15比T-DNN高0.3%。这表明该方法比[10]更适合于小型网络在ResNext的情况下，所提出的方法仅将S-DNN的性能提高了1.43%，低于VGG或MobileNet，但比[10]具有超过1.83%的性能优势。该结果表明，所提出的方法在具有复杂结构的最先进的网络（如ResNext）中工作良好。因此，所提出的方法有效地压缩了T-DNN的知识，并且传输压缩的知识，而不管网络结构如何。另一方面，我们构建了另一个基于VGG的S-DNN，以表明所提出的方法可以传输知识，而不管特征图的分辨率在上面使用的S-DNN的卷积层中，不执行填充，并且通过将卷积层的步幅设置为2而不是池化来减小特征图的大小。当特征图通过卷积层时，这显著用于学习的超参数与以前相同。由于在这种T-S-DNN结构中使用[10]的知识转移是不可能的，因此表2仅示出了所提出的方法的结果我们可以看到基于奇异值分解的13模型机构精度表3：根据培训机制的绩效评估[10个国家]2阶段1阶段64.5464.89提出2阶段65.051阶段65.54S-DNN的FLOPS约为T-DNN的0.03倍，性能提高约6.98%。因此，无论特征图的空间分辨率如何，所提出的方法都可以有效地传递T-DNN的知识，并且对于需要小尺寸DNN的实际应用是有效的。4.3培养机制在本节中，我们将评估3.2节中提出的培训机制用于学习的网络是4.2节中使用的基于VGG的T-S-DNN超参数与第4.2节中使用的那些相同。表3示出了实验结果。当所提出的培训机制应用于[10]时，性能提高了0.35%，当所提出的培训机制与所提出的知识蒸馏技术一起应用时，性能提高了0.49%这是因为S-DNN被连续地正则化，而T-DNN的知识不会消失此外，由于与传统的两级结构相比，学习所需的时期的数量减少了一半，因此可以显著缩短学习时间。因此，使用知识蒸馏技术和训练机制，性能改进预计比单独的S-DNN高约4.17%。此外，所提出的方法可以比[10]提高1%的性能，比T-DNN提高1.1%。由于S-DNN的计算成本仅为T-DNN的1/5，因此我们可以看到S-DNN通过所提出的方法得到了很好的正则化。4.4根据DFV数量进行性能评估在建议的知识蒸馏中要转移的DFV的数量对整体性能有显著影响。例如，使用太多的DFV不仅会增加成本，而且会提供嘈杂的信息，因此我们需要找到一个最佳数量。在这个实验中，我们采用了4.2节中使用的基于VGG的T-DNN。我们在这个实验中考虑了两种类型的S-DNN：带池化的S-DNN和带步幅的S-DNN。所提出的方法的实验结果示于表4中。一般来说，无论DFV的数量如何，性能都得到了改善，但是在具有池化的S-DNN的情况下，我们可以观察到，随着DFV14Seung Hyun Lee，Dae Ha Kim，Byung CheolSongVGG模型DFV的数量-1 2 4 8 16表4：根据DFV数量的性能比较VGG S-DNN，含合并液61.37 65.54 66.33 66.17S-DNN w/stride 54.17 61.28 61.54 61.63 61.82 62.00当它变得太大时，精确度又上升又下降这是因为，如第3节所述，过多的知识的提取可能导致甚至不必要的信息的转移然而，具有步幅的S-DNN显示出性能的略微提高。这是因为与T-DNN的性能相比，S-DNN的性能相对较低，因此接收额外的知识将显著提高性能。因此，应根据可用成本使用合理数量的DFV，并且所需DFV的数量可根据网络的结构来确定。5结论和未来工作本文提出了一种新的知识提炼方法。现有的知识转移技术1）限于有限的网络结构，2）知识的质量低，3）随着学习的进行，T-DNN的知识迅速消失。我们已经提出了一种方法来传输非常丰富的信息，通过定义新的知识，使用SVD和RBF，这是经常使用在传统的机器学习，没有任何结构限制的网络。此外，与多任务学习相关联的自监督学习已经被应用，使得它能够在学习过程中继续接收T-DNN实验结果表明，与基于VGG网络[10]的准确性性能的3.17%的改进相比，所提出的方法具有约4.96%的显著改进。在未来，我们将开发一个半监督学习方案，通过建议的知识转移扩展自监督学习的概念鸣谢：本研究由韩国政府资助的韩国国家研究基金会资助（2016R1A2B4007353）。引用1. LeCun，Y.，博图湖Bengio，Y.，Haffner，P.：基于梯度的学习应用于D〇C〇m_n_t_cog_n。IEEE86（11）（1998）2278- 2324的出版物2. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展。（2012年）109 7基于奇异值分解的153. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。在：IEEE计算机视觉和模式识别会议论文集。（2016）7704. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。在：IEEE计算机视觉和模式识别会议论文集第1卷（2017年）35. Xie，S.， Gir shi ck，R.，做吧，P Tu，Z.， H e，K. ：一种用于深度神经网络的 ggregggatedresid ualtrans 形式。 In ： Computer Vision and PatternRecognition（CVPR），2017IE E EConferenceon，IEEE（2017）5987-59956. 张，X.，Zhou，X.，中国科学院，Lin，M.，孙杰：Shufflenet：一个非常有效的卷积神经网络的移动设备。arXiv预印本arXiv：1707.01083（2017）7. Howard，A.G.，Zhu，M.，陈伯，Kalenichenko，D.王伟，Weyand，T.，安德里托，M.，Adam，H.：Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861（2017）8. Hinton，G. Vinyals，O.，Dean，J.：在神经网络中提取知识。arXiv预印本arXiv：1503.02531（2015）9. Romero，A.北卡罗来纳州巴拉斯Kahou，S.E.，Chassang，A.，加塔角Bengio，Y.：Fitnets：薄而深的网的提示。arXiv预印本arXiv：1412.6550（2014）10. Yim，J. Joo，D.，Bae，J.，Kim，J.：知识升华的礼物：快速优化、网络最小化和迁移学习。IEEE计算机视觉与模式识别会议（CVPR）（2017年）11. Alter，O.，布朗，邮政编码，Botstein，D.：用于全基因组表达数据处理和建模的奇异值分解美国国家科学院院刊97（18）（2000）1010112. 张志，Ely，G. Aeron，S.，Hao，N.，Kilmer，M.：基于张量svd的多线性数据补全与去噪新方法。 In ： ProceedingsoftheIEEEConferenceonComuterVis isinandPater nRecognitin. （2014）384213. 约内斯库角Vantzos岛Sminchisescu，C.：具有结构化层的深度网络的矩阵反向传播In ： Proceedings of the IEEE International Conferenceo nComputerVisi n.（20 15）296514. Kim，N.，Byun，H.G.，Kwon，K.H.：气味传感系统随机梯度径向基函数网络算法的学习行为。ETRI期刊28（1）（2006）5915. Wang，X.X.，陈淑仪，哈里斯，C.J.：使用相关准则定位及成形rbf单元以进行增量建模。国际自动化与计算机杂志3（4）（2006）39216. Larsson，G.，Maire，M.，Shakhnarovich，G.：学习自动着色的表示。欧洲计算机视觉会议（ECCV）（2016年）17. Noroozi，M.，Favaro，P.：通过解决jigsawpuzzles进行视觉表示的无监督学习。In：EuropeanConferenceonComputerVision，Springger（2016）6918. Doersch， C.齐瑟曼， A.：多任务自监督视觉学习。IEEE InternationalConference on Computer Vision（ICCV）（2017年）19. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）20. Zhou，X.，中国科学院，贝尔金，M.：半监督学习在：学术出版社图书馆在SIGNNALPR OCESSING. 第1卷。2014年第1239- 1269号21. Su，H.，Zhu，J.，Yin Z Dong，Y.，Zhang，B.：稀疏正则图上的高效和鲁棒的半监督学习。 In： European Conference on ComputerVision，Springer（2016）58316Seung Hyun Lee，Dae Ha Kim，Byung CheolSong22. 帕斯卡努河Mikolov，T.，Bengio，Y.：论递归神经网络的训练难度。 In：Inter natina （2013）131023. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，Ghemawat，S.，古德费洛岛Harp，A.，Irving，G. Isard，M.，Jia，Y.，Jozefowicz，河凯泽湖Kudlur，M.，Levenberg，J.，我不去，D。，Monga，R.， More，S.， Mur ay，D. ，Olah，C.， S.h. s.t.r. S·L·N·S，J·，Steiner，B.，萨茨克弗岛Talwar，K.，Tucker，P. Vanhoucke，V.，Vasudevan，V.，Vi'egas，F.， Vinyals，O.， Warden，P.， M.， Wi cke，M.， Yu，Y.， Zeng，X.：TensorFlow：Large-scale machine learning on heterogeneous systems （ 2015 ）软件可从tensorflow.org获得。24. Krizhevsky，A.，Hinton，G.：从微小的图像中学习多层特征。（二零零九年）25. Kiefer，J.，沃尔福威茨：回归函数最大值的随机估计。《数学史》（1952）46226. Nesterov ， Y. ：一种求解无约束凸极小化问题的方法。 In ：DokladyANUSSR. 第269章. （1983年）543

下载后可阅读完整内容，剩余1页未读，立即下载