基于关系匹配的跨任务知识提取模型：RE-FILLED

105 浏览量更新于2023-10-25 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12396基于关系匹配的跨任务知识提取叶汉佳南京大学yehj@lamda.nju.edu.cn苏璐南京大学lus@lamda.nju.edu.cn南京大学zhandc@lamda.nju.edu.cn摘要来自高容量深度神经网络（也称为深度神经网络）的判别知识可以被用于识别 “教师”）可以被提炼以促进浅对应物（也称为“ 教师”）的学习效果。“学生”）。本文讨论了一种通用的跨任务教师知识重用模型--两种模型都针对非重叠标签空间。我们一个来自非重叠类的预训练模型在老师的帮助下学习当前任务（学生）模型。强调实例间的比较能力是知识跨域传递的关键因素，提出了REFILLED方法，该方法将知识提取流程分解为嵌入分支和顶层分类器。特别是，与协调模型之间的实例标签置信度不同，RE FILLED要求教师重新加权学生推送的硬三元组，以便匹配实例之间的相似性比较水平。教师引入的局部嵌入诱导分类器进一步监督学生的分类信心。RE-FILLED在重用跨任务模型时证明了其有效性，并且在标准知识蒸馏基准测试中也达到了最先进的性能。论文的代码可以在https：//github上访问。com/njulus/ReFilled.1. 介绍知识蒸馏[6，20，64]通过重用来自另一个模型的“暗知识”来提高深度神经网络的学习效率详细地，强分类器，例如，用更深层次的架构[43]、高质量的图像[65]或精确的优化策略[13，60]训练的神经网络充当这种基于模型的知识重用提高了目标学生模型的区分能力，并减轻了模型训练和存储的负担[20，43，64，13]。它的成功已经在广泛的应用中得到了证明，例如模型/数据集压缩[56，2，35，36，8]，多任务学习[68，27]，增量图像分类[69，24]。图1.一个从十字架上重新使用知识的例子任务型教师。在分类任务中，教师从具有非重叠类的图像中学习，而其学习经验被提取以促进学生模型的训练。知识升华的主要思想是指定一种暗知识，在此基础上要求学生与教师保持一致例如，教师指定实例与可didate类别的相似程度的比例，而不是极端的尽管预测匹配能够实现知识流在不同神经架构之间的转换[20，35]，但其对实例-标签关系的依赖性将教师和学生限制在相同的标签空间中。在本文中，我们使学生能够利用跨任务教师的学习经验，即，一种具有非重叠标签空间的神经网络，将知识重用方法推广到更多的应用中。教师和学生之间的标签差异阻碍了直接学习经验的转变[22]。嵌入的比较能力-测量两个实例的相似程度-捕获了模型的一种不变性质[1]，并且不受标签约束[47，33，22]。对于一个老师和一个学生辨别'哈士奇与。比尔曼”和“贵宾犬与波斯语”，教师对“狗-猫”相关特征进行编码的判别嵌入能够估计学生任务中实例的相似关系。因此，我们强调实例-实例的关系来连接不同任务之间的知识传递，并利用教师的比较能力来实现嵌入式和顶层分类器的知识重用。图1说明了跨任务蒸馏的概念。为此，我们提出了一个两阶段的方法RElationship学习教师模型学习学生模型嵌入主干顶层分类器教师模型知识蒸馏嵌入主干顶层分类器学生模型12397i=1工厂化局部放大蒸馏（REFILLED）。首先，强调特征的区分能力。对于由学生嵌入决定的硬三胞胎换句话说，教师通过为每个对象指定不同的冒充者应该远离目标最近邻的比例来促进学生接下来，教师通过测量其与本地嵌入中心的相似性来构建用于对每个实例进行分类的软监督具体地，学生模型的分类置信度和嵌入诱导实验结果表明，RE-FILLED有效地将分类能力从跨任务教师转移到学生。同样的机制获得了国家的最先进的性能标准知识蒸馏基准以及。我们还研究了中间点学习问题，并且REFILLED优于一些流行的元学习方法。总之，我们通过重用来自跨任务模型的知识来提高深度神经网络的训练所提出的REFILLED方法以局部方式对齐模型之间的高阶比较关系，并且在跨任务和同任务蒸馏问题中都很好地工作。第二节和第三节首先介绍了相关的文献和本文的研究背景.然后我们在第4节中形式化我们的REFILLED方法。经过详细的讨论，最后是实验和结论.2. 相关工作利用相关预训练模型的学习经验来促进当前任务中的模型训练是一种有效的方法[70]。与微调[16]或参数正则化[28，11，30，48，62]不同，知识蒸馏/重用从固定的强模型（也称为“强模型”）中提取各种暗知识/特权信息[53，51，52]“教师”），并丰富目标模型（a.k.a.学生）训练更多的信号。从一个模型到另一个模型的知识提取已经被研究用于模型可解释性[71]和压缩[6]，这在软目标的帮助下广泛应用于深度神经网络[20，44，35教师通常被设置为高容量深度神经网络或当前任务中的先前模型生成[5，13，60]。探索了更丰富的监督，如隐藏层激活[43，67，9，25]，参数流[64]和变换[29]理论当前和相关领域/任务，以填补标签/分布差异的空白[27]。异构模型重用利用了相关任务中的模型，减轻了数据存储的负担，从而降低了隐私泄露的风险[62，59]。元学习还被用于跨不同标签空间传递知识，例如，少数镜头学习[54，46，12，41]，但它需要一个特殊的培训策略的教师。与匹配模型之间的实例标签预测不同，嵌入[7，2]，成对距离[39，49]和相似性图[31]已经被研究以提高特征对区分性嵌入的质量，从而建议的REFILLED方法是通用的同任务和跨任务蒸馏，其中教师的分类能力通过匹配高阶局部比较转移到学生嵌入学习通过将相似的实例拉到一起并将不相似的实例推开来改进特征表示[57，45，33，63]。根据实例关系，收集诸如对[10]和三元组[57随机嵌入[32，50，3]学习隐藏的表示来解释所提供的关系，并且在REFILLED中，由跨任务教师模型测量的相对实例比较利用最近中心均值分类器的本地版本[34，46]来提取具有良好特征的分类能力。3. 通过蒸馏实现在本节中，我们首先介绍从具有软标签的高容量教师分类器中提取知识的方法，然后描述跨任务提取问题。3.1. 背景和注释对于C类分类任务，我们将具有N个样本的训练数据表示为D={（xi，yi）}N，其中xi∈RD和yi∈{0，1}C分别是实例和独热标签。y i的下标为1表示x i的类。目标是学习分类器f（x）：RD→ {0，1}C（例如，深度神经网络），其将实例映射到其标签。 f可以分解为一个特征提取器φ：RD<$→ RD和一个线性分类器W ∈ RD×C，使得f（x）= W <$φ（x）. 1学习模型f的目标是ΣN关于知识蒸馏的理论分析和实证研究见[40，15，19，8]。minFi=1f（xi），yi）（1）由于量词与范畴之间的对应性很强，分类词的重用很困难是诸如交叉熵之类的损失，其测量预测与真实标签之间的差异。跨任务教师的知识异构迁移学习或多任务学习训练联合模型1为了讨论简单，我们省略了偏差项。1239823.2. 从同一任务教师那里为了提高f的训练效率，[20]建议通过对齐软目标从另一个预先训练的教师模型中提取ΣN通过将学生与教师的高阶实例方式的比较对齐来提取特征的区分能力，这弥合了非重叠标签空间之间的间隙。然后，教师minfSi=1<$（fS（xi），yi）+λR（sτ（fT（xi）），sτ（fS（xi）（二）4.2.提取嵌入实证研究验证了嵌入提取的下标λ >0是一个折衷参数。sτ将logit转换为软化的C向概率：s（f（x））= softmax（f（xi））（3）τ iττ是非负温度，τ值越大，输出越平滑。R（·）测量两个分布之间的差异，例如，Kullback-Leibler发散由方程式2，学生不仅最小化从实例到其标签在D上的映射f，而且保持其预与老师的说法一致注意，学生老师可以使用不同的温度。由于教师模型通常拥有更大的容量[20，7，35]或更好的参数[13，60]，因此其预测编码了实例与其可能的类之间的关系。还研究了沿着实例标签映射线程的其他形式的暗知识，例如隐藏激活[43]和参数流[64]。3.3.从交叉任务教师那里Eq. 2要求教师网络以与学生模型相同的标签为目标，以便他们在同一实例上的分类结果可以匹配。而在一般情况下，有必要从跨任务教师那里汲取学习经验，即，一个预先训练好的老师fT和学生fS在不重叠的课堂上。学习条件的放宽使得知识在相关任务之间的重用。4. 用于跨任务蒸馏的REFILLED本文介绍了REFILLED方法的基本思想，并对其两个阶段进行了分析和讨论。4.1. REFILLED的主要思想为了重用来自跨任务教师的知识，REFILLED将模型分解为两个组成部分，即，嵌入和顶层分类器，使得可以分别提取每个组件的知识。有两个阶段在REFILLED。的深度神经网络的倒数第二层具有区分属性[58，18，1]，其中相似的实例很近，而不相似的实例很远。由于实例嵌入揭示了两个对象是否相似，并且不依赖于每个类的特定标签，因此它可以跨不同的标签空间使用[57，4，45，47，33，22]。直接包埋蒸馏。匹配教师和学生之间的实例关系的一种直观方式是直接对齐他们的嵌入，例如，最小在当前任务中的所有实例上计算损失2[7，14，25]。这个约束要求两个模型具有相同的嵌入大小，这太强了，特别是在两个模型之间存在架构差距。[31，38，39，49]重用教师的基于嵌入的成对关系，其中由学生的嵌入测量的成对相似性它仍然存在着结构差异--即使学生具有正确的相似关系，由于他们的尺度差异，仍然可能被教师错误地纠正。因此，考虑到嵌入空间之间的差异，在RE-FILLED中，我们要求教师以三元组的形式提供其对实例之间的相对比较的估计，并要求学生对齐这种相对相似性确定以获得判别嵌入。对齐三元组。一个三元组（xi，xj，xk）包含一个锚点xi、它的相似目标邻居xj和它的相异冒名顶替者xk。2基于嵌入φ的（xi，xj）之间的距离是Distφ（xi，xj）=||φ（xi）−φ（xj）||二、一个好的嵌入使得Distφ（xi，xj）小于Distφ（xi，xk）.我们使用随机三重概率[50]作为一种pijk（φ）=⑷exp（−Distφ（xi， xj）/τ）exp（−Distφ（xi， xj）/τ）+exp（−Distφ（xi， xk）/τ）当量 4以三元组形式测量相对实例相似性。如果目标邻居xj靠近anchor，而冒名顶替者远离awa y，则pijk为lar ge，否则2通常，如果两个实例来自同一个类，我们认为它们相似，如果它们有不同的标签，我们认为它们不相似。12399提取嵌入教师更新学生对准三胞胎提取分类器教师学生学生预测更新学生对齐局部分类器图2.所提出的RELATIONSHIP FACILITated L ocal c L assifi E r D istillation（REFILLED）的图示，其具有两个阶段：它首先通过对准三元组来提取区分性嵌入，例如，两个冒名顶替者之间的相对相似性（用红色和蓝色箭头表示）由教师指定;然后，REFILLED通过基于局部嵌入的分类器提取分类能力。通过类原型（用星号表示），教师提供了分类置信度的良好估计更多细节可以在文本中找到概率很小。与仅具有“相似或不相似”二元信息的标签生成的普通三元组不同我们还使用温度τ来软化方程中的概率，但有点滥用符号。4.第一章在R EFILLED中，通过提取教师的三元组比较知识，提高了嵌入φ S的学生模型的判别能力. 定义伯努利分布Pijk（φ）=[pijk（φ），1−pijk（φ）]，我们在所有生成的三元组上最小化KL发散：相似性比例的具体度量在计算它们的距离之前，我们对所有嵌入进行归一化，并且只应用Pijk（φT）中的温度。讨论。定义ρijk=1−pijk（φT）和i（x）=ln（1 +exp（−x））作为逻辑损失，我们可以重新考虑等式中的目标。5通过重新制定KL（Pijk（φT）<$Pijk（φS））（6）=ρijk（DistφS（xi，xk）−DistφS（xi，xj））+i（DistφS（xi， xk）−DistφS（xi，xj））minφSΣijk.ΣKLPijk（φT）<$Pijk（φS）（五）=n e选择常量。除了优化具有损失1的嵌入三元组之外，Eq.6在最小化时添加不同的权重（分别为最大化）之间通过将新类型的暗知识对准在Eq. 5、希望学生有较好的比较能力，与老师一样强。三重态匹配有两个主要优点在老师的帮助下，Eq。5不仅对实例之间的高阶关系进行编码，而且还指定了所生成的三元组之间的差异例如，虽然三个“黑燕鸥”的图像类似于一个“红翼黑鸟”的图像，但两个飞行的黑燕鸥应该比一个喝水的此外，对齐不同模型之间的三重比较消除了神经架构之间的规模和它仍然是收集三胞胎关系蒸馏的一个关键组成部分。在我们的实现中，我们根据学生的嵌入生成DistφS（xi，xk）比DistφS（xi，xj））。因此，如果学生发现一些三胞胎难以评估，它会询问老师相似（resp.不同的）对基于教师的估计。例如，如果（xi，xj）与（xi，xk）不太相似，则教师将指定相对较低的概率pijk来补偿三元组中相似性/相异性的过度强调，并且i中的DistφS（xi，xj）的最小化被权重ρijk削弱。4.3.提取局部分类器学生考虑到标签空间之间的转换，REFILLED进一步提出通过基于嵌入的局部分类器从教师中提取分类能力。基于嵌入的局部分类器。在对学生模型进行随机优化时，略加注释，记（X∈RN×D，Y∈ {0，1}N×C）为124002实例和独热标签中采样的小批量，重新排序。请注意，批处理可能不会覆盖数据中的所有利用教师在X上的嵌入φ T（X）∈ R N × d，我们通过下式算法1：REFILLED的流程。要求：预培训教师提取嵌入：对于所有Iter = 1，.，MaxIterdoP= diag（1<$（Y<$1））Y<$φ（X）∈RC×d（7）对小批量{（xi，yi）}进行采样。生成三元组{（xi，xj，xk）}与学生表示按元素划分。P的每一行pc∈Rd对应于批中第c类的中心批次中实例的标签可以通过以下方式确定：.Σp（y| x）= softmax−φ（x）−p/τ（8）dings{φS（x）}。计算三元组pijk（φT）的概率，如下式： 4.第一章通过对齐等式中的三元组来优化φS五、端提取分类器：φTiiTic2用φS初始化fS。它在一组负距离上归一化，把φ（xi）嵌入到P中的所有类中心。pφT（yi|如果φT（xi）在教师的嵌入空间中接近pc，则φT（xi）是大的。τ是温度。当量8作品在与局部最近中心均值分类器[34]相同的方式，其中仅考虑当前采样批次中的类。它甚至可以应用于跨非重叠标签空间的分类任务[46，61]。地方知识蒸馏。配备Eq。8，跨任务教师的分类能力可以进一步被因此，我们将一个本地知识蒸馏项与方程。一曰：用等式优化fS 9 .第九条。从vanilla损失来看，当考虑来自教师的软监督时，不仅来自目标类的实例，而且来自有用的相关类的实例（具有大rgepc′的那些）也将被并入以指导分类器的更新由于Eq. 10是在所有C个类上计算的，如果C很大，则归一化的类后验qc变小因此，我们考虑一个本地版本的知识蒸馏长期方程。9，其中仅考虑当前小批量中的类，即，一个有帮助的相关类的影响，minfSΣNi=1.n（fS（xi），yi）+λKLpφTΣ（y i|x i），s τ（fS（x i））在更新的工作守则中，教师的角色会更受重视。（九）由于教师嵌入的局部分类器，学生的分类器可以由跨任务教师进一步监督。在Eq.9，而不是对齐数据集中所有类的两个模型这种本地知识在从同一个班级的教师中提取时也有帮助（参见第5.2节），其中两个模型匹配小批量中抽样班级的预测。在实现中，我们还研究了一个指数衰减的权重来设置λ，使得学生在学习初期依赖于教师讨论。通过将嵌入φ和线性分类器W解耦，可以通过其在第c类分类器wc上的梯度来分析知识分类的有效性2为0）：两级R E F ILLED Approach.总的来说，在REFILLED中有两个步骤来重用整体知识-通过其嵌入，教师的边缘，从而提高学生的嵌入和分类器的识别能力图2和Alg中说明了用于跨任务蒸馏的REFILLED1.一、5. 实验我们验证了REFILLED的各种任务，即通过重用跨任务模型，标准知识蒸馏，和中枪学习的分类。5.1. 跨任务知识蒸馏REFILLED能够重用跨任务教师来帮助训练学生模型。数据集。Caltech-UCSD Birds-200-2011（CUB）[55]构建了一个超过200的细粒度分类问题OOOwcΣΣ=−pc+XΣCc′=1Σpc′qcφ（x）（10）不同种类的鸟。我们用前100节课对教师进行培训，并在剩余的100个班级中学习学生模型qc和pc分别是给定实例x的第c个类的教师不同实施详情。我们使用不同的MobileNets配置 [21]并调整模型复杂度不12401表1.CUB数据集上跨任务蒸馏的平均准确度，其中教师和学生使用MobileNets培训非重叠“教师”行中的三个值宽度倍增器10.75 0.50.25教师1 NN：45.31，LR：53.82，FT：65.72学生71.2567.5666.8564.48RKD [38]70.8368.8067.4463.97RE FILLED73.3870.4269.7767.10具有不同的通道（复杂型号具有较大的通道）。教师使用交叉熵损失和宽度乘数1进行训练。0的情况。我们改变宽度乘数学生在{1，0. 75，0。5，0。25}。评价。对于每个100路分类任务，我们将每个类中70%的数据用于训练，剩余的用于测试。教师模型首先在前100个类上训练，直到收敛，然后用于在非重叠类上指导学生模型的训练报告了3次试验的平均分类精度。神经网络采用SGD w/ momentum进行优化。详细配置见supp。结果跨任务蒸馏的结果见表1。我们首先通过调整教师进行跨任务分类来研究三个基线，即，基于教师的嵌入的1个当学生学习更复杂的模型（具有更大的宽度乘数值）时，其测试准确率更高。我们还与一种代表性的基于嵌入的方法关系知识蒸馏（RKD）[38]进行了比较，并在从跨任务教师获得蒸馏嵌入后对模型进行了微调。RKD有时比vanilla student模型获得更好的准确性。我们的REFILLED在所有情况下都实现了最佳分类性能。通过对教师知识的重用，分类算法得到了进一步的改进。香草训练REFILLED中的所有组件都有帮助吗？给定教师的预训练权重并将学生的宽度倍数固定为1，除了直接训练学生模型（Vanilla）之外，我们还研究了图3中的三种微调变体，即，在第一阶段的REFILLED（REFILLED1st）之后使用蒸馏嵌入进行微调，使用Eq. 9使用固定λ（RE FILLED−），和RE-图3.左：用于跨任务蒸馏的R E-FILLED在CUB上的不同变体的平均准确度;右：当每个类（镜头）的实例数变化时，精度的变化。[001 pdf 1st-31 files]已填充（具有指数衰减的λ）。分类结果的逐步改进验证了REFILLED中各分量的有效性。使用不同大小的目标任务数据填充RE 到为了测试RE-FILLED的知识提取能力的极限，我们构造了具有不同规模训练数据的目标分类任务。当有效训练数据较少时，训练学生模型的难度较大，因此教师的帮助就我们将学生任务中每个类的实例数量从5个变化REFILLED在所有情况下都使用比较方法保持了一个平均值。5.2. 标准知识蒸馏REFILLED是一种通用的方法，可以帮助同一个班级的老师训练学生。数据集。在[2]之后，我们在除CUB之外的另一个基准CIFAR- 100 [26]上测试了REFILLEDCIFAR-100包含100个类，每个类包含6000个小图像。在每个类中，有5，000张图像用于训练，1，000张图像用于测试。我们使用标准分割来训练教师和学生模型。我们还在CUB上评估REFILLED，其中所有200个类在训练期间基于标准分割使用。实施详情。我们在不同的架构上测试了REFILLED[17]，[18]，[19]。为了研究教师和学生的不同能力，我们改变了ResNet的深度（通过层数），Wide-ResNet的宽度和深度，以及MobileNets的宽度乘数。教师和学生都在同一训练集上训练，直到收敛。评价。教师和学生都是在同一个集合上训练的，有三个不同的初始化种子，我们报告了学生在测试集上的平均准确率。12402NMI=51.77NMI=54.39表2.基于Wide-ResNet的知识表示方法在CIFAR-100数据集上的平均分类结果。我们用（depth，width）=（40，2）固定教师，用不同的（depth，width）值设置学生容量。（深度、宽度）(40、2）(16、2）(40、1）(16、1）老师74.44学生74.4470.1568.9765.44KD [20]75.4771.8770.4666.54[43]第四十三话74.2970.8968.6665.38[第67话]74.7671.0669.8565.31NST [23]74.8171.1968.0064.95VID-I [2]75.2573.3171.5166.32KD+VID-I [2] 76.1173.6972.1667.19RKD [38]76.6272.5672.1865.22RE FILLED77.4974.0172.7267.56表3.基于MobileNets的CUB知识表示方法的平均分类结果。我们将教师的宽度乘数固定为1。0，并更改学生宽度乘法器10.750.50.25老师75.36学生75.3674.8772.4169.72KD [20]77.6176.0274.2472.03[43]第四十三话 75.1075.0372.1769.09[第67话]76.2276.1073.7070.74NST [23]76.9177.0574.0371.54KD+VID-I [2]77.0376.9175.6272.23RKD [38]77.7276.8074.9972.55RE FILLED78.9578.0176.1173.42从同一体系结构族蒸馏模型我们首先测试了教师和学生来自同一个模型家庭的情况。CIFAR-100和CUB的结果分别见表2和表3。在CIFAR-100上，我们完全遵循[2]中的评估协议，该协议使用Wide-ResNet实现教师和学生。我们重新实现了RKD [38]，并引用了[2]中其他比较方法的结果。对于 CUB ，我们使用MobileNets作为基本模型。由于教师具有较强的能力，一旦运用知识传授的方法，其学习经验对学生的训练起辅助作用。RE FILLED在所有环境下都取得了最好的分类性能，这验证了为嵌入和分类器传递知识是模型重用的关键因素之一。嵌入有助于知识蒸馏吗？我们使用归一化互信息（NMI）作为衡量嵌入质量的标准，越大越好。在表4中，我们计算了学生模型的嵌入式NMI表4.CIFAR-100上的NMI用于评价RE FILLED中的三重态对齐（TA）步骤前后的包埋质量。（深度、宽度）(40、2）(16、2）(40、1）(16、1）不含TA56.5054.9154.0251.77含TA59.6357.9857.6254.39表5.在CIFAR-100上的平均准确度，以评估REFILLED中本地知识蒸馏（LKD）的有效性。（深度、宽度）(40、2）(16、2）(40、1）(16、1）w/KD77.0873.5772.2467.14w/本地KD77.4974.0172.7267.56图4. vanilla student训练的tSNE [50]（左）和REFILLED第一阶段后的改进嵌入（右）超过从CIFAR-100中采样的10个类。丁在CIFAR-100中训练了教师的三胞胎和没有对齐图4显示了使用tSNE [50]的10个采样类定量和定性的结果都验证了三重态对齐步骤在REFILLED知识蒸馏中的有效性。地方知识蒸馏会有帮助吗？结果以Ta-表5验证了本地知识蒸馏（LKD）在方程中的进一步改进。9与基于REFILLED第一阶段后提取的嵌入进行训练时的香草知识提取（KD）进行比较。概率匹配的局部考虑是有帮助的。不同模型族的蒸馏。为了进一步评估REFILLED的性能，我们使用REFILLED从跨家庭教师那里提取知识。对于CIFAR-100，我们将教师设置为ResNet-110，并使用具有不同通道的MobileNets作为学生模型。表6展示了结果，并且在这种情况下，REFILLED更多结果在supp中。5.3. 中镜头学习用中等数据训练深度神经网络是一项艰巨的任务，其中模型容易过度拟合。在本小节中，我们将我们的REFILLED方法应用于中间镜头学习，其中来自在SEEN类上训练的教师的分类能力可以用于帮助学生针对UNSEEN中间镜头任务进行模型训练。12403表6.知识分类方法在CIFAR-100数据集上的平均分类精度。教师使用ResNet-110进行培训，其测试准确率为74.09%。学生通过MobileNets学习，其宽度乘数已更改。宽度乘法器10.75 0.5 0.25学生68.5767.9265.6660.87KD [20]70.3468.2166.0661.38[43]第四十三话67.9967.8565.1261.01[第67话]68.9767.8866.4462.15NST [23]KD+VID-I [2]RKD [38]70.62 70.49 69.1571.94 70.13 68.5160.41 68.93 66.24RE FILLED73.81 72.88 70.02数据集。我们使用流行的Mini ImageNet数据集[54]，其中包含100个类，每个类中包含600张图像。在[54，42]之后，有64个类（SEEN类）用于培训教师，16个类用于验证，我们从剩余的20个类中抽取任务来培训学生。实施详情。根据文献，我们研究了两个不同的主干，一个4层ConvNet [54，46，12]和ResNet [37，61]，它们分别输出64和640维的嵌入。我们使用ResNet或Con-vNet在SEEN类上训练教师模型，并使用教师模型帮助训练由UNSEEN类组成的任务的学生分类器。评价。定义一个K-shotC-way任务为一个C类分类问题，每个类有K个与K∈ {1，5}的少次学习设置不同，这里我们考虑每个类中有更多的实例，即，K={10，30}。请注意，即使K=30也不足以从头开始训练复杂的神经网络。我们从20个类中抽取5个任务来训练学生模型，并通过从5个抽样类中的每个类中分类另外15个实例来评估其性能。我们通过600次试验的平均准确度来评估最终性能更多的少数学习的结果在supp。比较方法。元学习是解决少样本分类问题的一种流行方法。为了模拟测试用例，它从SEEN类集合中对C-WayK-Shot任务进行采样，以学习任务级归纳偏差，如嵌入[54，46]或初始化[12，41]。然而，计算负担（例如，批量大小）在发射数量增加时变大。此外，元学习需要规范从SEEN类中获取元模型的方法。我们将我们的方法与基于嵌入的 Meta 学习方法（如ProtoNet [46]和FEAT [61]）进行了比较。我们可以直接用老师的嵌入式表7.平均准确率超过600次试验的中杆任务。我们将学生模型设置为ConvNet，并研究ResNet和ConvNet作为教师模型，用于我们的 REFILLED 方法。详细的结果和配置在 supp.REFILLED1表示重用ResNet教师的结果，RE-FILLED2表示重用ConvNet教师的结果。ProtoNet[46][第61话]RE FILLED1RE FILLED274.4274.8676.4275.3778.1078.8480.3378.94丁，教师的倒数第二层，通过利用最近邻居（1NN）。基于教师的嵌入，我们还训练线性分类器，如SVM或微调整个模型上的我们使用来自验证分割的采样中间任务来调整这些方法的超参数。结果显示了中间镜头学习的结果在表7中。当镜头数量变大时，微调是一个非常强大的基线，它比一些元学习方法获得更好的结果。我们的REFILLED方法取得了比微调更好的结果，这验证了重用跨任务教师的知识来训练分类器的重要性。6. 结论虽然知识蒸馏促进了学习经验在异构模型之间的转换，即，neural networks with different architectures, it isstill challenging to reuse models across non-overlappinglabel spaces. 在本文中，我们专注于匹配的比较能力，由于嵌入，它不仅摆脱了标签空间的限制，但也捕捉到高阶关系的实例。本文提出的基于关系因子的局部知识提取（REFILLED）方法分为嵌入对齐和局部知识提取两个阶段。除了通过重用跨任务模型来提高学习效率外，REFILLED在标准知识提取任务中也获得了更好的分类性能。致谢本工作得到了国家重点研发计划（ 2018YFB1004300 ）、国家自然科学基金（61773198、61773198、61632004）和国家自然科学基金与自然科学基金联合资助。研究项目（61861146001）。任务10-Shot 5路30-Shot 5路1NN66.5669.80SVM74.2477.87微调74.9578.6212404引用[1] 亚历桑德罗·阿奇里和斯特凡诺·索亚托。深层表征中的侵入和解开Journal of Machine Learning Research，19（50）：1-34，2018。第1、3条[2] 放大图片作者：Sungsoo Ahn，Shell Xu Hu，Andreas C.作者声明：Daniel D.劳伦斯和戴振文。知识转移的变分信息在CVPR中，第9163-9171页，2019年。一二六七八[3] Ehsan Amid和Antti Ukkonen。多视图三元组嵌入：学习多个地图中的属性。在ICML，第1472-1480页，2015中。2[4] Ehsan Amid和Antti Ukkonen。多视图三元组嵌入：学习多个地图中的属性。在ICML，第1472-1480页，2015中。3[5] Hessam Bagherinezhad 、 Maxwell Horton 、 MohammadRastegari和Ali Farhadi。标签精炼厂：通过标签进展改进图像网分类。CoRR，abs/1805.02641，2018。2[6] 克里斯蒂安·布西拉，里奇·卡鲁阿纳，亚历山德鲁·尼古列斯库-米兹尔。模型压缩。在KDD中，第535-541页，2006年。一、二[7] Hanting Chen，Yunhe Wang，Chang Xu，Chao Xu，andDacheng Tao.通过特征嵌入学习学生网络。CoRR，abs/1812.06597，2018。二、三[8] 张贤卓和巴拉斯·哈里哈兰论知识升华的功效。在ICCV，第4794-4802页，2019年。一、二[9] 沃伊切赫湾 Czarnecki ， Simon Osindero ， MaxJaderberg，Grzegorz Swirszcz，and Razvan Pascanu.神经网络的Sobolev训练在NeurIPS中，第4281-4290页。2017.2[10] Jason V. Davis，Brian Kulis，Prateek Jain，Suvrit Sra，and Inderjit S.狄伦信息理论度量学习。ICML，第209-216页，2007年。2[11] 我在S。杜，贾扬斯·库希克，阿尔蒂·辛格和巴纳布·帕科斯。通过转换函数的假设迁移学习NeurIPS，第574-584页。2017. 2[12] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在ICML，第1126-1135页，2017年。二、八[13] Tommaso Furlanello 、 Zachary Chase Lipton 、 MichaelTschannen、Laurent Itti和Anima Anandkumar。再生神经网络。在ICML，第1602-1611页，2018年。一、二、三[14] Mengya Gao，Yujun Shen，Quanquan Li，Chen ChangeLoy，and Xiaoou Tang.特色事项：知识转移的分阶段方法。CoRR，abs/1812.01819，2018。3[15] Akhilesh Gotmare ， Nitish Shirish Keskar ， CaimingXiong，and Richard Socher.深入了解深度学习的原理：学习率重新启动，预热和蒸馏。2019年，在ICLR2[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，第1026- 1034页，2015中。2[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。6[18] 何新伟、周扬、周志超、宋白、向白。多视角三维物体检索的三重中心丢失。在CVPR中，第1945-1954页，2018年。3[19] Byeongho Heo 、 Jeesoo Kim 、 Sangdoo Yun 、 HyojinPark、No- jun Kwak和Jin Young Choi。对特征提取的全面检修。在ICCV，第1921-1930页，2019年。2[20] 杰弗里·E Hinton，Oriol Vinyals，and Jeffrey Dean.在神经网络中提取知识。CoRR，abs/1503.02531，2015。一、二、三、七、八[21] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络CoRR，abs/1704.04861，2017。五、六[22] Yen-Chang Hsu，Zhaoyang Lv，and Zsolt Kira. 学习集群，以便跨领域和任务转移。在ICLR，2018年。一、二、三[23] 黄泽浩和王乃艳。喜欢你喜欢的：通过神经元选择性传递进行知识提取。CoRR，abs/1707.01219，2017。七、八[24] 胡拉姆·贾韦德和费萨尔·沙法伊特。重新审视蒸馏和增量分类器学习。在ACCV，第3-17页，2018年。1[25] 阿尼梅什·科拉塔纳，丹尼尔·康，彼得·贝利斯，马泰·扎哈里亚.LIT：用于模型压缩的学习中间表示训练。在ICML，第3509-3518页，2019年。二、三[26] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，多伦多大学，2009年。6[27] 约根德拉Nath昆都尼尚克拉卡库拉，还有R. 文卡特什先生 Um-adapt：使用对抗性跨任务蒸馏的无监督多任务自适应。在ICCV，第1436-1445页，2019年。一、二[28] Ilja Kuzborskij和Francesco Orabona。通过从辅助假设转移来实现快速速率。Machine Learning，106（2）：171-195，2017. 2[29] Seung Hyun Lee，D

下载后可阅读完整内容，剩余1页未读，立即下载