知识转移的变分信息蒸馏方法及其在卷积神经网络上的应用

131 浏览量更新于2023-10-18 收藏 613KB PDF 举报

知识转移

神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43219163面向知识转移的变分信息蒸馏安成秀韩国科学技术高等研究院，韩国sungsoo. kaist.ac.kr壳牌徐虎法国马恩河畔尚普桥高等学校hus@imagine.enpc.fr安德烈亚斯·达米亚努·亚马孙联合王国damianou@amazon.comNeil D. 劳伦斯·亚马逊联合王国lawrennd@amazon.com戴振文联合王国zhenwend@amazon.com摘要将知识从在相同或相似任务上预训练的教师神经网络转移到学生神经网络可以显著提高学生神经网络的性能。现有的知识转移方法匹配教师和学生网络的激活或相应的手工制作的功能我们提出了一个知识转移的信息理论框架我们将我们的方法与现有的知识转移方法在知识蒸馏和转移学习任务上进行了比较，并表明我们的方法considerably优于现有的方法。我们通过将知识从卷积神经网络（CNN）转移到CIFAR-10上的多层感知器（MLP），进一步证明了我们的方法在异构网络架构由此产生的MLP显著优于最先进的方法，并且它实现了与具有单个卷积层的CNN相似的性能。1. 介绍深度神经网络（DNN）在各种计算机视觉任务中发挥着重要作用，例如，深度估计[8]、姿态估计[26]、光流[7]、对象分类[11]、检测[10]和分割[25]。用于计算机视觉任务的典型如果有足够的数据量，这种方法通常可以提供最先进的性能在亚马逊实习期间做出了贡献图1：所提出的知识转移方法的概念图。学生网络通过最小化交叉熵（CE）损失同时保持与教师网络的高互信息（MI）来有效地学习目标任务通过学习估计教师网络中激活的分布，最大化互信息，激发知识的转移。然而，在许多情况下，不可能收集足够大的数据来训练DNN。例如，在许多医学图像应用[24]中，可用数据的量受到特定疾病患者数量的限制。处理这种数据缺乏的流行方法是迁移学习[19]，其目标是从源任务转移知识，以促进目标任务的学习。通常，人们认为源任务是43219164k=1k=1具有大量可用数据的通用，所述可用数据包含用于学习目标任务的有用知识，例如，来自自然图像分类[23]知识可能对细粒度鸟类分类[29]有用。Hinton等人[12]提出了师生框架，用于在分别在源任务和目标任务上训练的DNN之间传输这些知识高级思想是为在目标任务上训练的DNN引入额外的正则化，即，学生网络，其允许学习存在于DNN中的知识，该DNN是在源任务上预先训练的，即，教师网。虽然该框架最初是为同一数据集上的DNN之间的知识转移而设计的，但最近的工作[30，31]开始利用其潜力进行更一般的转移学习任务，即，当源数据和目标数据不同时。许多知识转移的方法已经提出了不同的直觉。Hinton等人[12]Ba和Caru- ana [2]建议匹配教师和学生网络的最后一层，因为教师网络最后一层的输出比原始标签提供更多的信息。罗梅罗等人[22]建议将学生网络的中间层与教师网络的相应层最近的工作[3，6，13，30，31]通过匹配从教师和学生网络的中间层提取的精心设计的特征/统计数据来放松匹配整个层的正则化，例如，注意力地图[31]和最大平均差异[13]。显然，知识转移的背后并没有一个公认的理论。这导致难以理解经验结果和开发新的方法，更有原则的方式。在本文中，我们提出变分信息蒸馏（VID）作为朝着这个方向的尝试，我们制定的知识转移作为最大化的教师和学生网络之间的互信息。该框架提出了一个可操作的知识转移的目标，并允许我们量化的信息量，从教师网络转移到学生网络。由于互信息是计算上难以处理的，我们采用变分信息最大化[1]方案来最大化变分下限。拟议知识转移的概念图基于变分信息最大化技术，通过最大化两个网络间的互信息，建立了循环知识转移框架。• 我们证明了VID概括了几种现有的知识转移方法。此外，我们的简单-在各种知识转移实验中，该框架的分割经验上优于现有技术的知识转移方法，包括在相同数据集或不同数据集上的（异构）DNN之间的知识转移。• 最后，我们证明了卷积神经网络（CNN）和多层感知器（MLP）之间的异构知识转移是有利的。CIFAR-10上的可接受性。我们的方法产生了一个学生MLP ，显着优于文献中报道最好的MLP[17，27]。2. 变分信息蒸馏在本节中，我们将VID描述为师生框架中知识转移的一般框架。具体来说，考虑在目标任务上训练学生神经网络，给定在类似（或相关）源任务上预训练的另一个教师神经网络注意，源任务和目标任务可以是相同的，例如，用于模型压缩或知识蒸馏。基本假设是教师网络中的层已经被训练成表示存在于源任务和目标任务中的给定输入的某些属性。为了进行有效的知识转移，学生网络必须学习如何将这些属性的知识纳入其自身的学习。从信息论的角度来看，知识转移可以表示为保持教师和学生网络层之间的高度相互信息。更具体地说，考虑从目标数据分布p（x）和K中提取的输入随机变量层对R={（T（k），S（k））}K ，其中每对（T（k），S（k））分别选自教师网络和学生网络。前馈输入x通过网络诱导K对随机变量法我们进一步表明，一些现有的知识，{（t（k），s（k））}K其指示所选择的转移方法[16，22]可以通过选择不同形式的变分下界作为我们框架的具体实现而导出。我们经验验证VID框架，显着优于现有的方法。我们观察到的差距是特别大的情况下，小数据和异构体系结构。总之，我们的论文的总体贡献如下：• 我们提出变分信息蒸馏，一个主要的，层，例如，t（k）=T（k）（x）。随机变量对（t，s）之间的互信息由下式定义：I（t; s）= H（t）− H（t|个）=−Et[log p（t）]+ Et，s[log p（t）|s）]、（1）其中熵H（t）和条件熵H（t|s）是从联合分布p（t，s）导出的。根据经验，联合分布p（t，s）是各层上的聚合结果，输入x从输入分布43219165KCHCC˜˜Nnp（x）。直观地，I（t;s）的定义可以理解为当学生层s已知时，在其层t中编码的教师的知识的不确定性的减少我们现在定义以下损失函数，其旨在学习目标任务的学生网络，同时学习与教师网络的高互信息：L=LS−<$λk I（t（k），s（k）），（2）k=1μ（·）和同方差σ作为变分q（t|s），即，平均值μ（·）是s的函数，而标准差σ不是。接下来，μ（·）和σ的参数化由对应于t的层的类型进一步指定。当t对应于中间层时具有分别指示通道、高度和宽度的空间维度的教师网络的，即， t ∈ RC×H×W，我们选择的变分分布表示如下：CHW其中LS是目标任务的任务特定损失函数，λk>0是为正则化引入的超参数-log q（t|s）= −log q（t c，h，w|（5）c=1h=1w=1每一层的互信息。等式⑵需要相对于学生网络的参数最小化然而，最小化是困难的，因为精确计算的互信息是棘手的。=c=1h=1w=1 logσc+（tc，h，w-µc，h，w2σ2（s））2+常数，相反，我们提出了每个互信息项I（t;s）的变分下界，其中我们定义了变分分布q（t|s）近似于p（t|s）：I（t;s）= H（t）−H（t|个）=H（t）+Et，s [log p（t|s）]=H（t）+Et，s [log q（t|s）]+ Es [DKL（p（t|个）||q（t|（s））]≥H（t）+Et，s[log q（t|s）]、（3）其中期望值在分布p（t，s）上，最后一个不等式是由于Kullback-Leiber方差DKL（·）的非负性。这种技术被称为变分信息最大化[1]。最后，我们通过对每个互信息项应用变分信息最大化其中，t，c，h，w表示t的标量分量，（c，h，w）。此外，µ c，h，w表示来自由卷积层组成的神经网络工作的单个单元的输出，并且使用softplus函数确保方差为正，即，σ2=log（1+exp（αc））+ σ其中αc∈R是待优化的参数，为保证数值稳定性，引入了最小方差通常情况下，可以从学生网络中选择s，其层次结构和空间维度与t相似。当两个层的空间维度相等时，1×1卷积层通常用于有效参数化μ（·）。否则，可以使用具有较大核大小的卷积或转置卷积来匹配空间尺寸.我们还考虑层t=I（t（k），s（k））在（2）中，导致以下最小化-T（logit）（x） ∈RN 对应于教师网在这里，我们选择的变分离散-损失函数：KΔ k表示如下：L=LS−λkEk=1t（k），s（k）[logq（t（k）|s（k））]。（四）-log q（t|s）=−Σn=1logq（tn|s)(6)目标L在学生网络的参数和变分分布q（t）上联合最小化|s）的情况。注意，熵项H（t）已经从=logσn+n=1（tn— µn2σ2（s））2+常数，方程（3），因为它相对于要优化的参数是恒定的。或者，可以将目标（4）解释为针对目标任务联合训练学生网络，并最大化条件似然以拟合来自教师网络的选定层的激活。通过这样做，学生网络获得恢复教师网络中所选层的活动所需的2.1. 算法公式我们通过选择变分分布q（t）的形式来进一步指定我们的框架|s）的情况。一般来说，我们采用具有异方差均值WN43219166其中tn表示向量t的第n个条目，µn表示神经网络工作µ（·）的单个单元的输出，σn再次由softplus函数参数化以强制正性。对于这种情况，学生网络中的对应层s是倒数第二层S（pen），而不是logit层，以匹配两个层的层次结构，对学生网络的输出限制太大。此外，我们发现，使用一个简单的线性变换的参数化的平均函数是足够的，在实践中，即，μ（s）=Ws对于某个权重矩阵W。上述实现在实验中得到了令人满意的结果我们亦认为-43219167Σ(a) 输入（b）第0个时期（c）第40个时期（d）第160个时期（e）无传输（f）Th，w的幅度图2：对应于针对教师网络中的中间层的空间维度评估的变分分布的热图的图，即，logq（th，w|s）=clogq（t c，h，w|s）的情况。每个图对应于（a）原始输入图像，（b，c，d）对数似然log q（t，h，w|s）进行归一化和插值以拟合输入图像的空间维度（红色像素对应于高概率），（d）针对学生网络优化的变分分布的对数似然在没有应用任何知识转移的情况下训练，以及（f）对于每个空间维度平均的层t的幅度用异方差方差σ（·）进行训练，但训练结果不稳定，改进效果明显。其他类型的参数化，如重尾分布或混合密度网络[5]可以用于获得额外的性能。我们把这些想法留给未来的探索。关于使用基于等式（5）的实现的训练VID的图示，参见图2在这里，我们显示了变分的估计对数似然的变化，在信道上聚集的分布，即， log q（th，w|s）=最大化变分分布的对数似然。2.2. 与现有工程的Infomax原则我们首先描述了我们的框架与应用于表征学习的著名的infomax原则n/clogq（tc，h，w|s), given input x (Figure 2a) throughout在相应的输入中尤其是这样一个原则，已成功应用于半监督学习VID培训过程。有人说，学生对于变分分布，逐步训练网络，以从教师网络估计中间层的密度（图2b，2c和2d）。作为比较，我们还优化了在没有知识转移的情况下训练的学生网络的变分分布（图2e）。在这种情况下，我们观察到变分分布的这个特定实例未能获得高对数似然，表明教师和学生网络之间的互信息较低。有趣的是，对应于背景的部分通常与前景的部分获得更高的幅度。我们的解释是，与背景相对应的层的输出主要对应于零激活（图2f），并且包含较少的信息，这是一个相对容易的目标。对于神经网络，通过最大化中间层的输入和输出之间的互信息作为学习目标任务的正则化，例如，学习基于自动编码器重构输入[21]。我们的框架可以类似地被视为半监督学习的一个实例，修改了infomax原则：教师网络的层包含目标任务的重要信息，而学生网络的良好表示可能会保留它们的大部分信息。当我们在等式（2）中设置t（k）=x广义均方误差匹配。接下来，我们解释现有的知识转移方法是如何基于43219168k=1均方误差匹配可以被看作所提出的框架的一个具体实例。一般来说，这些方法将通过进行特定因为这样的尺寸使得其对总损耗的贡献是可接受的，从而允许以有效的方式“过滤”掉这样的层的选择R={（T（k），S（k））}K对知识异方差均值的传递和参数化在变分分布中：与特征匹配比较。除了基于均方误差匹配的知识传递方法外-logq（t|s）= 0（tn— µn（s））2+常数。（七）一些作品[6，13，30，31]已经提出了直接匹配从2n=1注意，等式（7）对应于在教师网络中的层的每个维度上具有单位方差的高斯分布。Ba和Caruana [2]表明，知识可以在为同一任务设计的教师和学生网络之间转移，- 关于平均值匹配来自教师和学生网络的logit层T（logit）、S（logit）平方误差这样一个公式是从方程（7）中推导出来的，即在方程（7）中设R={（T（logit），S（logit））}和μ（s）=s。这后来被扩展为教师和学生之间的知识转移网络，由Li和Hoiem [16]为不同的任务设计，通过在学生网络中的倒数第二层S（pen）的顶部添加附加的线性层以与教师网络中的logit层T（logit ）这类似地，通过令R={（T（logit），S（pen））}，μ（·）是线性变换，即，µ（s）=Ws。接下来，罗梅罗等人[22]提出了一种知识转移损失最小化均方来自教师和学生网络的中间层之间的误差，引入额外的卷积层以适应每对匹配层之间的不同维度大小。这是通过选择层来从方程（7）中的正则化项恢复的。知识转移是教师和学生网络工作的中间层，而μ（·）是对应于单个1×1卷积层的线性卷积这些方法都类似于我们的因为它们都使用高斯分布作为变分分布。然而，我们的方法在两个关键方面有所不同：（a）允许使用更灵活的非线性函数用于异方差均值，以及（b）为变分分布中的每个维度建模不同的方差。这允许以更灵活的方式传输互信息，而不会浪费模型容量。特别是，教师网络中层t的所有维度的建模单位方差对于学生网络可能是高度限制性例如，教师网络层可能包含一个激活tn，其中包含与学生网络任务无关的信息，但需要很大的容量才能将µn（s）回归到tn。这将引起过度正规化的问题，浪费了学生网络的大部分容量来尝试适应这样的单元。相反，建模高同方差方差σn中间层更具体地说，Zagoruyko和Komodakis [31]提出匹配从层激活生成的“注意力地图”。Huang和Wang [13]后来将注意力地图推广到匹配激活的最大平均差异。Yim等人[30]提出了匹配的功能称为解决方案流程（FSP）定义的格拉姆矩阵的层相邻的同一网络。Chen等人[6]考虑匹配来自教师和学生网络的中间层的重建输入图像。这些方法可以被视为通过使用专家知识过滤教师网络中的信息来巧妙地避免上述过度正则化问题然而，当特征提取方法不适于特定的知识转移任务时，这样的方法潜在地导致次优结果，并且可能以不可逆的方式丢弃来自教师网络层的重要信息3. 实验我们证明了所提出的知识转移框架的性能比较VID的国家我们将VID应用于两个不同的位置：（a）教师和学生网络的中间层之间的VID（VID-I）和（b）教师网络的logit层和学生网络的倒数第二层之间的VID（VID-LP）。为了进行比较，我们考虑以下知识转移方法：原始的知识蒸馏（KD）[12]、无遗忘学习（LwF）[16]、基于提示的转移（FitNet）[31]、基于激活的注意力转移（AT）[31]和基于多项式核的神经选择性转移（NST）[13]。请注意，我们认为FitNet是训练学生网络的正则化[31]，而不是[22]中首次提出的阶段式训练过程。我们比较了相同和不同数据集之间的知识转移方法，通常分别称为知识蒸馏和转移学习任务。在所有的实验中，我们选择了相同的中间层对基于VID-I，FitNet，AT和NST的知识转移。类似地，用于知识转移的相同层对所有方法的所有超参数都是根据验证集上的性能来选择的，验证集是N43219169M50001000500100（d，w）(40，2）(16、2）(40、1）(16、1）老师94.26---老师74.16---学生90.7284.6779.6358.84学生74.3470.4268.7965.46KD91.2786.1182.2364.24KD75.8072.8770.9966.03FitNet90.6484.7880.7368.90FitNet74.2970.8968.6665.38在91.6087.2684.9473.40在74.7671.0669.8565.31NST91.1686.5582.6164.53NST74.8171.1968.0064.95VID-I91.8589.7388.0981.59VID-I75.2573.3171.5166.32KD + AT91.8187.3485.0176.29KD + AT75.8673.1371.467.07KD + VID-I91.788.5986.5378.48KD + VID-I76.1173.6972.1667.19表1：CIFAR-10数据集上从教师网络（WRN-40-2）到学生网络（WRN-16-1）的知识蒸馏的实验结果（测试准确性），每个类的数据点数量不同（由M表示）。训练集。我们仔细挑选超参数的候选值集合，使得原始作品中提出的所有值都包括在内。所呈现的性能是三次重复运行的平均值有关实验的更多该算法的实现将很快公开。3.1. 知识蒸馏我们首先比较了知识转移方法的培训知识蒸馏任务，其中一个学生网络的工作是在相同的任务作为教师网络的训练。通过将知识从大型教师网络中提取到小型学生网络中，我们可以加快预测的计算速度。我们进一步研究了两个问题，这项任务：我们是否可以受益于知识转移的小数据制度，我们失去了多少性能，减少学生网络的大小？请注意，我们不评估VID-LP和LwF的性能，因为它们是为迁移学习而设计的当应用时，KD、VID- LP和LwF提供类似的性能。减少训练数据。知识转移可能是一项计算成本很高的任务。给定一个在整个训练数据集上预先训练好的教师网络，我们探索了使用一小部分训练集进行知识转移的可能性。我们通过在CIFAR-10上应用知识蒸馏来证明减少训练集的效果[15]有四种不同大小的训练数据。我们对教师网络（WRN-40-2）和学生网络（WRN-16-1）使用了宽残差网络（WRN）[15]，其中教师网络是在 CIFAR-10的整个训练集上进行预训练的。知识蒸馏应用于四种不同大小的训练集：5000（全尺寸）、1000、500、100个数据点。表2：在CIFAR-100数据集上从教师网络（WRN-40-2）到学生网络（WRN-d-w）的知识蒸馏的实验结果（测试精度），其中深度d和宽度w的因子变化。我们将VID-I与KD，FitNet，AT和NST进行了比较。我们还提供了教师网络（教师）和在没有任何知识转移的情况下训练的学生网络（学生）的性能我们选择四对中间层，类似于[31]，每一个都位于在一组残差块的末尾。我们使用三个1×1卷积层实现VID-I，隐藏通道大小是输出通道大小的两倍。结果示于表1中。我们的方法，VID-I，优于其他知识转移方法，在整个所有政权。性能差距随着数据集大小变小而增加，例如，VID-I只下降10。26%的准确率，即使每个班级提供100个有一个31。88%的下降没有知识转移和15。最佳基线下降52%，即，KD + AT。改变学生网络的规模。学生网络的规模在知识传递的速度和性能之间进行权衡我们评估了不同规模的学生网络上的知识转移方法的性能。教师网络（WRN-40-2）在CIFAR-100的整个训练集上进行预训练。一个学生网络有四种大小选择，WRN-40- 2、WRN-16-2、WRN-40-1、WRN-16-1在CIFAR-100的整个训练集上训练。我们将我们的VID- I与KD，FitNet，AT和NST以及教师和学生基线进行比较。中间层的选择与前面的实验相同。结果如表1所示。正如Furlanelloet al. [9]在所有的知识传递方法中，与教师网络规模相同的学生网络的性能都优于教师人们观察到VID-I始终优于FitNet、AT和NST，这对应于用于知识转移的层的相同选择。它也优于KD除了案件4321917044当学生网络的结构与教师网络的结构相同时，即，WRN-40-2，其中两种方法可以组合以产生最佳性能。3.2. 迁移学习我们评估了迁移学习的知识转移方法。教师网络是在ImageNet数据集[23]上预训练的残差网络（ResNet-34）[11]。我们应用迁移学习来提高两个单独的图像分类任务的性能。第一个任务是基于CUB- 200-2011数据集[29]进行细粒度鸟类分类，该数据集包含200种鸟类的11，788张图像。第二个任务是基于MIT-67数据集[20]的室内场景分类，该数据集包含67类室内场景的15，620张图像。对于这两个任务，每个类都有相对较少的图像，这可以从ImageNet分类任务的知识转移中受益匪浅。为了评估不同数据稀缺程度下的知识转移，我们将两个数据集分成三个不同的大小（MIT-67每类50，25，10和CUB-200-2011每类20，10，5）并比较知识转移方法。我们在两个方面评估了知识转移方法：相同架构（ResNet-18）和不同架构（VGG-9）的较小学生网络[25]。我们比较了我们的 VID-I 和 VID-LP 与 LwF ，FitNet ， AT 和 NST 。我们评估了没有迁移学习（Student）作为基线的学生网络的性能。对于具有ResNet架构的教师和学生网络，我们选择第三和第四组残差块的输出（来自输入）作为知识传递的中间层。在VGG-9学生网络的情况下，我们选择第四和第五个最大池层作为知识转移的中间层，3.3. 从CNN到MLP的迁移学习实验表明，知识转移方法对小的架构变化的鲁棒性。这就引出了一个有趣的问题：知识转移方法是否可以在两个完全不同的网络架构之间工作。这一问题的解决，可以为知识转化开辟一个新的方向。提供并潜在地提供许多问题的解决方案，例如，通过将知识从 RNN 转移到 CNN 来加速递归神经网络（RNN）的预测，通过将知识从CNN转移到多层感知器（MLP）来加速CPU或低能量设备上的CNN的预测。在本文中，我们评估了CIFAR-10上从CNN到MLP的知识传递性能。 CNN和MLP在CIFAR-10上存在众所周知的性能差距[17，27]。采用MLP的CIFAR-10的最新性能为78.62%，采用自动编码器[17]进行初始化，采用知识验证[27]进行初始化，达到74.32%。Urban等人[27]还训练了单个卷积层，使用知识蒸馏实现了84.6%的性能。我们在3.1节提到的知识蒸馏设置中应用知识转移方法。我们使用一个教师网络，其卷积层（WRN-40-2）在CIFAR-10上进行了预训练。我们使用一个具有五个全连接隐藏层的MLP作为学生网络，该网络由一个线性层、三个瓶颈线性层和一个线性层依次堆叠而成。每一个之后都是中间的这里，瓶颈层指示没有非线性的两个线性层的组合，引入非线性是为了通过减少参数的数量来加速学习所有隐藏层具有相同的h个单元，瓶颈线性层为对应于与中间体相同的空间维度由两个尺寸为h×h的线性层组成和ate从教师网络中选择的图层。为了将VID-I应用于ResNet-18学生网络，我们使用两个1 ×1卷积层，中间通道的大小为输出通道大小的一半。当学生网络是VGG-9时，单个1×1卷积层没有使用非线性结果示于表 3 中。对于所有知识转移方法，从ResNet-34 到 VGG-9 的知识转移与从 ResNet-34 到ResNet-18的转移具有非常相似的性能。这表明知识转移方法对小的架构变化是鲁棒的。我们的方法优于其他知识转移方法在所有地区的比较。VID-I和VID-LP的表现都优于与知识转移层的相同选择相对应的基线。对于MIT-67数据集，我们观察到我们的算法甚至优于微调方法，该方法需要在源任务上对学生网络进行预训练。h× h。中间层之间的知识转移是定义在教师网络的四个剩余组的输出和学生网络的前四个完全连接的层的输出之间。我们将VID-I与KD和FitNet进行了比较，因为这些知识转移方法不依赖于空间结构。出于同样的原因，AT和NST不适用于多层感知器。VID-I是用多个转置卷积层实现的，没有非线性。具体而言，输入对于变分分布，即，MLP的隐藏层被视为具有1×1空间维度的张量。具有4×4内核、单位步幅和零填充的单个转置卷积层之后是具有4×4内核、两个步幅和单个填充的多个转置卷积层，以匹配卷积层的空间维度。教师网络的相应层进行知识转移。更多关于student实现的细节43219171M≈80502510M≈80502510学生48.1337.6927.0114.25学生53.5843.9629.7015.97微调70.9766.0458.1347.91微调65.9758.5151.7239.63LWF63.4351.7941.0422.76LWF60.9052.0141.5727.76FitNet71.3460.4554.7836.94FitNet70.9064.7054.4840.82在58.2148.6643.6627.01在60.9052.1642.7625.60NST55.5246.3433.2120.82NST55.6046.0435.2221.64VID-LP67.9158.5147.0931.94VID-LP68.8861.6450.2239.25VID-I71.3463.6660.0750.97VID-I72.0167.0159.3345.90LwF + FitNet70.9760.3754.4838.73LwF + FitNet70.5264.1054.6340.15VID-LP + VID-I71.8765.7561.7950.37VID-LP + VID-I71.7266.4958.9645.89(a)MIT-67，ResNet-34 to ResNet-18（b）MIT-67，ResNet-34 to VGG-9M价格29.9520105M价格29.9520105学生37.2224.3312.007.09学生44.5932.1015.699.66微调76.6971.0059.2544.07微调60.9651.8646.8839.98LWF55.1842.1326.2314.27LWF52.1838.0525.5713.93FitNet66.6356.6346.6831.04FitNet68.9661.5248.0432.89在54.6241.4428.9016.55在56.2843.9628.3313.98NST55.0141.8723.7615.63NST56.5544.9528.4314.66VID-LP65.5954.1239.2027.86VID-LP66.8255.9438.1030.47VID-I73.2567.2056.8646.21VID-I71.5165.6953.2938.09LwF + FitNet68.6958.8148.8631.30LwF + FitNet70.5662.4447.3630.52VID-LP + VID-I69.7163.9452.8741.12VID-LP + VID-I70.0065.1453.7838.76(c)CUB-200-2011，ResNet-34至ResNet-18表3：针对MIT-67/CUB-200-2011数据集，从教师网络（ResNet-34）到学生网络（ResNet-18/VGG-9）的迁移学习的实验结果（测试精度），每个类的数据点数量不同（用M表示）。我们使用MMavg来表示每个类的数据点数量不均匀且平均为Mavg微调在迁移学习上给出了很好的结果，但由于它不是一种知识迁移方法，因此不能直接比较工作 VID-I 在不同大小的 MLP 上的性能明显优于FitNet。此外，MLP-4096优于Lin等人报道的MLP的最新性能。[17]（78.62%）和Baet al. [27]（74.32%）显著。更重要的是，我们的方法弥合了CNN（84.6%使用一个卷积层[27]）和MLP之间的性能差距。表4：在CIFAR-10上从卷积教师网络（WRN-40-2）到具有不同大小的隐藏维度h的完全连接的学生网络（MLP-h）的迭代的实验结果（测试精度）。网络和辅助分布在材料中结果示于表4中。FitNet和VID- I都提高了性能，与直接训练学生网中间层4. 结论在这项工作中，我们提出了有效的知识转移的VID框架，通过最大化两个神经网络之间的互信息的变分下界。我们的算法的实现是基于高斯观测模型，经验表明，优于其他基准的蒸馏和转移学习任务。使用更灵活的识别模型，[14]为了准确地最大化互信息和互信息的备选估计，例如，[4]这两个想法都是未来感兴趣的。网络MLP-4096MLP-2048MLP-1024学生70.6070.7870.90KD70.4270.5370.79FitNet76.0274.0872.91VID-I85.1883.4778.57Urban等人[27日]74.32Lin等[17个]78.6243219172引用[1] D. B. F.阿加科夫IM算法：变分方法的信息最大化。2004年[2] J. Ba和R.卡鲁阿纳深网真的需要深吗？神经信息处理系统的进展，第2654-2662页，2014年[3] 诉Belagiannis，A.Farshad和F.加拉索对抗性网络压缩。欧洲计算机视觉会议，第431-449页。Springer，2018.[4]I. Belghazi，S. Rajeswar，A. 巴拉廷河 D. Hjelm，以及A.考维尔我的：互信息神经估计。arXiv预印本arXiv：1801.04062，2018。[5] C. M.主教混合密度网络技术报告，Citeseer，1994年。[6] S. Chen C.，马缨丹属Zhang和M.动耦合端到端传输学习与广义Fisher信息。在计算机视觉和模式识别，2018年。[7] A. 多索维茨基山口Fischer、E.Ilg，P.豪塞尔角哈齐尔巴斯Golkov，P. Van Der Smagt，D. Cremers和T.布洛克斯Flownet：使用卷积网络学习光流在IEEE计算机视觉国际会议论文集，第2758-2766页[8] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展，第2366-2374页，2014年[9] T. Furlanello，Z. C. 利普顿M. 查嫩湖 Itti，还有A. Anandkumar重生的神经网络在ICML，2018。[10] R. 娘娘腔。快速 r-CNN 。在 Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[12] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取arXiv预印本arXiv：1503.02531，2015。[13] Z. Huang和N.王.喜欢你喜欢的：通过神经元选择性传递进行知识提取. arXiv预印本arXiv：1707.01219，2017。[14] D. P. Kingma，T. 萨利曼人，R. 约泽福维奇，X.陈先生，I. Sutskever和M.威林用逆自回归流改进变分神经信息处理系统进展，第4743-4751页，2016年[15] A.克里热夫斯基从微小的图像中学习多层特征。技术报告，Citeseer，2009年。[16] Z. Li 和 D. 霍伊姆学而不忘。 IEEE Transactions onPattern Analysis and Machine Intelligence，2017。[17] Z.林河，巴西-地Memisevic和K.近田没有卷积我们能走多远：完善全连接网络。 arXiv 预印本 arXiv ：1511.02580，2015年。[18] R.林斯克最大信息保持原理在线性系统中的应用。神经信息处理系统的进展，第186-194页，1989年[19] S. J. 潘角，澳-地yang等人迁移学习研究综述2010年。[20] A. Quattoni和A.托拉尔巴识别室内场景。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第413-420页。IEEE，2009年。[21] A. 拉斯穆斯贝格伦湾洪卡拉河瓦尔波拉，T. 莱子使用梯形网络的半监督学习神经信息处理系统进展，第3546-3554页，2015年[22] A.罗梅罗，北巴拉斯，S。E.卡胡A.查桑角Gatta和Y.本吉奥。 Fitnets ：薄而深的网的提示。 arXiv 预印本arXiv：1412.6550，2014。[23] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨蒂希S.妈Z。Huang，黄背天蛾A.卡帕西A.科斯拉，M。Bernstein 等人图像网大规模视觉识别挑战。International Journal of Computer Vision，115（3）：211-252，2015.[24] T. Schlegl，J.Ofner和G.兰斯跨图像域的无监督预训练改进了肺组织分类。医学计算机视觉国际MICCAI研讨会，第82-93页。Springer，2014.[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[26] A. Toshev和C.赛格迪Deeppose：通过深度神经网络进行人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第1653-1660页[27] G. Urban，K.J. Geras，S.E. 卡胡岛阿斯兰，S.小王，A.穆罕默德，M。Philipose，M. Richardson，和R.卡鲁-安娜。深度卷积网络真的需要深度和卷积吗？在ICLR，2017。[28] P. Vincent，H.拉罗谢尔岛Lajoie，Y. Bengio和P A.曼扎戈尔堆叠去噪自动编码器：在深度网络中使用局部去噪算法学习有用的表示。Journal of Machine LearningResearch，11（Dec）：3371[29] P. Welinder，S.Branson，T. 米塔角Wah，F.Schroff，S.Be- longie和P.佩洛娜200.第200章大结局技术报告CNS-TR-2010-001，加利福尼亚理工学院，2010年。[30] J. Yim，D. Joo、J.Bae和J. Kim.知识升华的礼物：快速优化、网络最小化和迁移学习。[31] S. Zagoruyko和N.小木多加注意：通过注意力转移提高卷积神经网络的性能。ICLR，2016年。

下载后可阅读完整内容，剩余1页未读，立即下载