任务特定元蒸馏学习：基于MAML的少样本学习方法

180 浏览量更新于2023-10-16 收藏 12.39MB PDF 举报

少样本学习

学生模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

162650通过任务特定的元蒸馏学习紧凑模型的少样本学习0Yong Wu 1，Shekhor Chanda 2，Mehrdad Hosseinzadeh 3，Zhi Liu 1�，Yang Wang 4*01上海大学，2曼尼托巴大学，3华为技术加拿大，4康考迪亚大学0yong wu@shu.edu.cn，chandas@myumanitoba.ca，mehrdad.hosseinzadeh@live.com0liuzhi@staff.shu.edu.cn，yang.wang@concordia.ca0摘要0我们考虑一种新的紧凑模型少样本学习问题。元学习是一种流行的少样本学习方法。以前的元学习工作通常假设元训练期间的模型架构与最终部署使用的模型架构相同。在本文中，我们对这个基本假设提出了质疑。对于最终部署，我们通常需要模型尺寸较小。但是小模型通常没有足够的容量来有效适应新任务。与此同时，由于元训练通常在服务器上执行，我们通常可以访问大型数据集和强大的计算能力。在本文中，我们提出了任务特定的元蒸馏方法，同时在元学习中学习两个模型：一个大型教师模型和一个小型学生模型。这两个模型在元训练期间共同学习。在元测试期间给定一个新任务，首先将教师模型调整到该任务，然后使用调整后的教师模型指导学生模型的适应。适应后的学生模型用于最终部署。我们通过使用模型无关元学习（MAML）进行少样本图像分类来证明我们方法的有效性。我们提出的方法在几个基准数据集上优于其他替代方法。01. 引言0元学习技术，如模型无关元学习（MAML）[9]，已成功应用于许多计算机视觉和机器学习任务，如少样本学习[9]，领域适应[24]，领域泛化[25]等。元学习包括元训练阶段和元测试阶段。在元训练期间，从一组任务中学习一个全局模型。例如，在少样本学习（FSL）的情况下，每个任务都是一个少样本分类问题。在元测试期间，0*通讯作者：Zhi Liu和Yang Wang。0云0服务器0适应0模型0客户10客户20图1：我们问题的动机。考虑具有服务器（例如云供应商）和许多客户的图像分类问题。云供应商拥有强大的计算能力和许多类别的训练图像。每个客户可能希望解决一个特定于客户的图像分类问题，其中一些新类别不被云供应商覆盖。例如，一个客户想要对不同的医学图像进行分类，而另一个客户想要对特定商店中的各种商品进行分类。每个客户只有少量的数据。云供应商可以在服务器端训练一些模型。由于隐私问题，客户不希望将自己的数据上传到云供应商。相反，每个客户在客户端上将模型从云供应商那里调整到他/她特定的图像分类任务上。我们希望在客户端部署的最终模型尺寸较小。0学习到的全局模型可以适应只有少量标记示例的新少样本分类问题。元训练通常在一个中央服务器上进行，可以合理地假设可以访问大量的计算资源。相比之下，元测试可能由一个终端用户或客户完成，他们可能没有与中央服务器相同的计算资源，特别是如果客户的应用需要在低功耗边缘设备上运行。现有的元学习文献在计算资源方面很大程度上忽视了这一差距。现有的元学习（或更广泛地说，少样本学习）方法通常假设模型的架构…Computational resourcesthe pretrained model to the new object classes for the targetapplication.At first glance, the scenario in Fig. 1 is a classic meta-learning problem.The cloud vendor can perform meta-training on the server to obtain a global model. On the clientside, the client performs two steps. The first step (calledadaptation) is to adapt the global model from the serverside to the target application. For example, the adaptationstep in MAML performs a few gradient updates on the few-shot data. After the adaptation, the second step (called de-ployment) is to deploy the adapted model for the end ap-plication. The combination of these two steps (adaptationand deployment) is commonly known as “meta-testing” inmeta-learning. In this paper, we make a distinction betweenadaptation and deployment since this distinction is impor-tant for motivating our problem setting. Our key observa-tion is that the available computing resources are vastly dif-ferent in these different stages. The meta-training stage isdone on a server or the cloud with significant computing re-sources. The adaptation stage is often done on a client’s lo-cal machine with moderate computing powers (e.g., desktopor laptop). For the deployment, we may only have access tovery limited computing power if the model is deployed onan edge device. If we want to use classic meta-learning inthis case, we have to choose a small model architecture tomake sure that the final model can be deployed on the edgedevice. Unfortunately, previous work [27, 34] has shownthat a small model may not have enough capacity to con-sume the information from a large amount of data availableduring meta-training, so the learned model may not effec-tively adapt to a new task.In this paper, we propose a new approach called task-specific meta distillation to solve this problem. The keyidea of our approach is illustrated in Fig. 2. During meta-training, we simultaneously learn a large teacher model anda small student model. Since the teacher model has a largercapacity, it can better adapt to a new task. During meta-training, these two models are jointly learned in a way thatthe teacher model can effectively guide the adaptation of thestudent model. During the adaptation step of meta-testing,we first adapt the teacher model to the target task, then usethe adapted teacher to guide the adaptation of the studentmodel via knowledge distillation. Finally, the adapted stu-dent model is used for the final deployment. In this paper,we apply our proposed approach to improve few-shot im-age classification with MAML. But our technique is gen-erally applicable in other meta-learning tasks beyond few-shot learning.The contributions of this work are manifold. First, pre-vious work in meta-learning has largely overlooked the is-sue of the computational resource gap at different stagesof meta-learning. This issue poses challenges in the real-world adoption of meta-learning applications. In this pa-62660T0训练0S0知识蒸馏0元训练0任务0联合训练0适应0S0新任务数据0T0适应0适应0S0部署0藏獒0部署0计算资源0图2：我们方法的关键思想。在服务器端，我们在元训练框架中同时学习一个大型教师模型和一个小型学生模型。在客户端，客户端首先执行一个适应阶段。在这个阶段，教师模型首先适应任务，然后使用适应后的教师模型通过蒸馏来指导学生模型的适应。适应后的学生模型然后用于最终部署。这个流程的不同阶段（元训练、适应、部署）涉及不同级别的计算资源。0在元训练期间，用于最终部署的客户端与客户端相同。在本文中，我们对现有元学习解决方案的基本假设提出了质疑。我们提出了一种新的问题设置，考虑了元训练和元测试期间可用计算资源的不同级别。我们的问题设置受到一个实际场景的启发（如图1所示），该场景由一个服务器和许多客户端组成。例如，服务器可以是提供预训练图像分类模型的云供应商（可能通过WebAPI提供）。在服务器端，云供应商可能拥有一个包含许多对象类的大型图像数据集。云供应商通常可以访问大量的计算资源来训练非常大的模型。我们还有一些客户端，他们有兴趣解决一些特定应用的图像分类问题。每个客户端可能只对识别一些目标应用中可能未包含在服务器端训练数据集中的对象类感兴趣。例如，一个客户端可能是一名医生，有兴趣识别医学图像中的不同肿瘤，而另一个客户端可能是一家零售商，有兴趣对商店中的不同商品进行分类。由于获取标记图像的成本，每个客户端可能只有少量标记示例用于目标应用。由于隐私问题，客户端可能不想将其数据发送给云供应商。在这种情况下，一个自然的解决方案是客户端重用云供应商提供的预训练模型，并进行少样本学习以适应新的目标类别。62670在本文中，我们考虑了少样本学习紧凑模型的问题，以解决这一差距。其次，我们提出了一种元学习方法，同时学习一个大型教师模型和一个小型学生模型。在元测试中，使用适应的教师模型来蒸馏适应学生模型的任务特定知识。适应的学生模型用于最终部署。最后，我们应用所提出的方法来改进基于MAML的少样本图像分类。我们提出的方法在很大程度上优于普通的MAML。尽管我们在本文中专注于使用MAML进行少样本学习，但所提出的方法通常适用于其他元学习任务。02. 相关工作0在本节中，我们回顾了与我们的工作相关的几个研究方向。知识蒸馏。知识蒸馏（KD）[38, 41, 51, 12, 40, 46, 23, 1,47, 39, 15, 26,32]是一种广泛使用的模型压缩技术。KD旨在将知识从大型模型（称为教师）转移到小型模型（称为学生）。大多数KD方法优化一个损失函数，该损失函数捕捉教师模型和学生模型之间的某种不相似性，以便学生模型学习模仿教师模型。Hinton等人[14]通过定义教师模型和学生模型的软输出之间的差异损失引入了一种KD方法。李等人[26]提出了一种类似的方法。除了软输出之外，还有基于其他各种信息的KD方法，例如中间层特征[41]、注意力图[51]、隐藏神经元激活[12]、样本关系[38, 40,47]、互信息[1]、相关性和高阶依赖性[46]等。少样本学习和元学习。少样本学习（FSL）的目标是仅通过少量训练数据快速学习新概念。例如，在少样本图像分类中，我们会遇到一些在训练过程中从未出现过的新类别。我们的目标是学习一个模型，当我们只有每个类别很少的训练样本时，可以识别出这些新类别。元学习[44, 9, 45, 48, 7, 22, 8, 17, 49,3]已成为少样本图像分类的一种流行方法。在元学习中，模型从一组任务中进行训练，其中每个任务都是一个少样本图像分类问题。对于一个新的少样本图像分类任务，模型使用该任务的少样本训练样本来适应这个新任务。模型无关的元学习（MAML）[9]学习模型的良好初始化，以便模型可以通过少量梯度更新来适应新的少样本分类任务。原型网络[44]学习一个度量空间，通过计算到类别原型的距离来实现分类。匹配网络[48]学习一个模型，将小型的la-0将有标签的支持集和一个无标签的示例与其标签相关联。关系网络[45]使用了类似的思想。MetaOptNet[22]通过一个经过区分训练的线性预测器学习表示。MeTAL[3]通过损失函数而不是手动设计辅助损失来适应各种任务。知识蒸馏的元学习。最近有一些工作[54, 37, 52, 16, 28, 2, 30, 37, 43,29, 31,53]将知识蒸馏和元学习结合起来。这些工作大多集中在使用元学习的思想来改进知识蒸馏。MetaDistill[54]使用元学习来学习一个更好的教师模型，该模型更有效地将知识转移到学生模型。该方法不固定教师模型，而是使用学生模型的反馈来改进教师模型。Meta-KD[37]使用元教师模型来捕捉跨领域的可转移知识，然后将其转移到学生身上。MetaDistille[30]通过使用标签生成器融合特征图来生成更好的软目标。它使用元学习来优化标签生成器。Jang等人[16]使用元学习来学习从教师模型到学生模型的知识转移。Meta-DMoE[53]将专家混合（MoE）作为教师模型，以解决多源域偏移。上述工作利用元学习改进了知识蒸馏，但没有考虑少样本学习。最近有一些工作[2, 28,43]使用KD使用少样本示例来学习学生模型。但他们只考虑使用已知类别的少样本示例来学习学生模型，而不考虑新类别的少样本学习。Lim等人[29]提出了使用自我知识蒸馏来改进Efficient-PrototypicalNet性能的方法。与KD不同，自我知识蒸馏的教师和学生模型具有相同的网络结构。Liu和Wang[31]提出了一种通过在线自蒸馏学习表示的模型。他们引入了一种特殊的数据增强-CutMix[50]来提高少样本学习性能。据我们所知，我们是第一个在少样本学习中使用KD和元学习的工作。03. 预备知识和背景0在本节中，我们简要介绍与我们的工作相关的一些背景知识和术语。知识蒸馏。知识蒸馏的目标是在训练小型学生模型gθ（由θ参数化）时，将大型教师模型fψ（由ψ参数化）的知识转移过来。给定一个带标签的数据集D和预训练的教师模型fψ，我们可以通过优化以下损失函数来学习学生模型gθ：0minθ LS(θ; D) + LKD(ψ, θ; D)(1)0其中LS(∙)是学生模型在D上的标准分类损失（例如交叉熵），LKD(∙)是一种已知的62680边缘蒸馏（KD）损失。KD损失用于将知识从教师模型传递给学生模型。通常情况下，它被定义为教师模型和学生模型之间的某种不相似度。原始的KD工作[14]使用教师模型和学生模型输出之间的KL散度来定义这种相似度。这种KD损失仅适用于教师模型和学生模型具有相同的标签空间（即分类中的类标签集合）。在文献中，还有其他使用其他信息来衡量这种不相似度的KD损失，包括特征图[41]、数据示例的相互关系[38]、注意力分布[51]等。这些KD损失即使教师模型和学生模型预测不同的类标签集合也适用。我们的方法是一个通用的框架，可以与任何KD损失一起使用。用于少样本学习的MAML。元学习广泛应用于解决少样本学习问题[44, 9,48]。我们提出的方法建立在模型无关的元学习（MAML）[9]之上，它是最流行的元学习方法之一。MAML包括元训练和元测试。在元训练中，MAML从一组任务中学习一个由θ参数化的模型fθ。在少样本分类中，每个训练任务T对应于一个少样本分类问题。设p(T)为任务的分布，Ti �p(T)表示在元训练期间采样的任务。任务Ti有自己的训练集Dtri（也称为支持集）和验证集Dvali（也称为查询集）。支持集只包含少量的训练样本。给定模型参数θ，MAML通过在Dtri上进行几次梯度更新，使用Dvali上的损失获得一个任务适应模型参数θ′i0θ′i ← θ - α�θ LTi � fθ; Dtri � (2)0其中α是学习率。公式2对应于MAML中的内部更新。在MAML的外部更新中，我们根据训练任务中任务适应模型在Dvali上的损失来更新模型参数θ0θ ← θ - β�θ 0Ti � p(T) LTi � fθ′i; Dvali � (3)0其中β是学习率。在公式3中，LTi基于任务适应模型θ′i，但梯度更新是在模型参数θ上执行的。MAML的本质是学习初始模型参数θ，以便在给定少量训练样本的情况下能够有效地适应新任务。04. 我们的方法0在本节中，我们详细阐述我们提出的方法。我们的方法的概述如图3所示。0任务特定的元蒸馏。令fψ(∙)为由ψ参数化的教师模型，gθ(∙)为由θ参数化的学生模型。给定任务Ti = (Dtri,Dvali)，其中Dtri是支持集，Dvali是查询集，我们使用LT(ψ;Dtri)来表示教师模型fψ在Dtri上的分类交叉熵损失，即0LT(ψ; Dtri) = �0(xj, yj) ∈ DtriℓCE(fψ(xj), yj)(4)0其中ℓCE(∙)是预测类别和真实类别之间的交叉熵损失。我们类似地定义了学生模型gθ在Dtri上的分类损失LS(θ; Dtri)：0L S (θ; Dtri) =0(xj,yj)∈Dtri ℓCE(gθ(xj), yj) (5)0在任务特定的元蒸馏（TSMD）中，我们的目标是通过进行少量梯度更新将（ψ，θ）调整到任务Ti，从（ψ，θ）变为（ψ'i，θ'i），如下所示。首先，我们根据教师模型的分类损失将教师模型ψ更新为任务适应模型ψ'i：0ψ'i ← ψ - α�ψLT(ψ; Dtri) (6)0其中α是学习率。然后我们通过从适应后的教师模型ψ'i传递知识来将学生模型θ更新为任务适应模型θ'i。动机是由于教师模型ψ具有更高的容量，适应后的教师模型ψ'i很可能为指导学生模型更新提供有用的知识（见图4）。学生模型的更新可以写成：0θ'i ← θ - λ�θ � LS(θ; Dtri) + LKD(ψ'i, θ; Dtri) � (7)0其中λ是学习率。在方程7中，LKD(ψ'i, θ;Dtri)是更新后的教师模型ψ'i和学生模型θ之间的蒸馏损失。我们提出的方法可以与任何明确定义的蒸馏损失一起使用。值得注意的是TSMD和标准蒸馏之间的关键区别。在标准蒸馏中，我们假设教师模型是有效的，并训练学生模型来模拟教师。在TSMD中，我们不一定假设教师模型对于新任务是有效的。相反，我们假设教师模型有能力在给定少量数据的情况下成功适应新任务。然后学生模型可以模拟适应后的教师模型（而不是原始教师模型）。元训练。更新后的教师ψ'i和学生θ'i已经针对任务Ti进行了特定的调整。直观地说，我们希望它们在查询集Dvali上表现良好。……Stu 𝜃′LT (ψ′i; Dvali) =�(xj,yj)∈DvaliℓCE(fψ′i(xj), yj) (8a)LS(θ′i; Dvali) =�(xj,yj)∈DvaliℓCE(gθ′i(xj), yj)(8b)minψp()LT (ψ′i; Dvali),minθp()LS(θ′i; Dvali)ψ ← ψ − β∇ψ�Ti∼p(T )LT (ψ′i; Dvali)(10a)θ ← θ − η∇θ�Ti∼p(T )LS(θ′i; Dvali)(10b)62690任务10任务20任务N0� 0��0知识蒸馏0� 0��0~ � 样本 � ��(�)0更新（方程6）0� �0� � � ��0更新（方程7）0更新0（方程10a）0更新0Walker hound0适应（方程6）0适应（方程7）0新任务的少样本0部署 S0�(�)0元训练0元测试0局部模型全局模型0教师模型（�'）0T0学生 �'0指导0指导0教师模型（�'）0T0S0教师 �0T S0学生 �0内部更新0外部更新0图3：我们方法的概述。与MAML[9]类似，我们的方法有一个元训练阶段和一个元测试阶段。在元训练期间，我们共同学习一个教师模型ψ和一个学生模型θ。在每次元训练的迭代中，我们采样一批任务，其中每个任务Ti都是一个带有自己的支持集Dtri和查询集Dvali的少样本分类问题。在元训练的内部更新中，我们通过对Dtri进行梯度更新获得一个更新的任务特定教师ψ'i。然后我们使用ψ'i来指导任务特定学生θ'i的适应。在外循环中，全局模型ψ和θ根据采样任务中任务特定模型在Dvali上的性能进行更新。在元测试期间，我们使用类似于元训练内部更新的过程来获得新任务的适应模型。0在该任务上的性能测量为：0元学习的目标是学习初始模型（ψ，θ），以便在使用特定任务的支持集（公式6和公式7）进行模型更新后，任务适应模型（ψ′i，θ′i）能够在所有任务的相应查询集上最小化公式8中定义的损失。元目标可以定义为：0（9）公式9中的元目标涉及对所有元训练任务求和。在实践中，我们在每次元训练迭代中采样一小批任务。请注意，元目标（公式9）中不需要任何知识蒸馏损失。知识蒸馏损失仅在元训练的内部更新中使用。0初始模型（ψ，θ）通过优化进行学习0使用随机梯度下降优化元目标（公式9）：0其中 β 和 η 是学习率。请注意，公式10中的损失（L T(∙)和L S(∙)）是使用适应模型（ψ′i，θ′i）计算的，但SGD更新是在模型参数（ψ，θ）上执行的。元训练的高级直觉是同时学习教师模型ψ和学生模型θ，以便教师模型可以有效地适应新任务，并且学生可以使用任务适应的教师模型的蒸馏知识有效地适应相同的新任务。算法1总结了元训练过程。元测试。在元训练之后，我们获得模型参数（ψ，θ）。在元测试期间，我们有一个新任务T = (D tr，Dval)，其中包括支持集D tr和查询集Dval。我们只需使用公式6和公式7来获得任务特定参数（ψ′，θ′）。然后我们使用更新后的学生模型θ′对Dval进行预测。请注意，在推理过程中我们不使用更新后的教师模型ψ′，因为我们的假设是教师模型过大无法部署到最终应用中。𝜃1′𝜃2′𝜃3′Task 1Task 2Task 3ℒ𝐾𝐷1ℒ𝐾𝐷2ℒ𝐾𝐷3𝜃𝜃1′𝜃2′𝜃3′Task 3Task 2Task 162700教师 �0学生 �0我们的MAML0图4：任务特定知识蒸馏的直觉。在标准的MAML中，模型对任务的适应仅依赖于任务的支持集。在我们的方法中，我们首先使用支持集来适应教师模型。由于教师模型具有更高的容量，适应后的教师模型可以更有效地捕捉任务特定的知识。适应后的教师模型可以通过知识蒸馏损失来帮助指导学生模型的适应。0有人可能会认为，由于我们在最终推理中不使用适应后的教师模型ψ′，因此在元更新（公式10a）中更新教师模型可能是不必要的。但是，如果没有公式10a，教师模型将在整个元训练过程中保持不变。这显然是不可取的，特别是如果教师模型是随机初始化的。在实践中，我们发现使用公式10a更新教师模型非常重要，以确保在元训练过程中改进教师模型。0备注。到目前为止，我们假设在元训练和元测试期间更新教师模型。在某些应用中，更新教师模型可能很困难。如果教师模型是一个非常大的预训练模型（例如BEiT [4]，GPT-3[6]），这种情况可能会发生。这些大型模型需要大量的资源和专业知识来训练。一旦它们被训练好，可能很难对这些模型进行任何更新。在某些情况下，预训练模型只作为可调用的API提供，模型本身无法直接访问。显然，在这些情况下，我们无法更新预训练模型。与此同时，这些预训练的大型模型包含了大量有用的知识，因此在我们提出的框架中，使用它们作为固定的教师模型（即使这些模型无法更新）是可取的。为了处理这种情况，我们只需要稍微修改我们的方法，省略公式6和公式10a中对教师模型的更新。05. 实验0在本节中，我们在几个基准数据集上评估了基于MAML的少样本图像分类的提出方法。0算法1 任务特定知识蒸馏的元训练输入: 任务分布p(T) 输入:学习率α, β, λ和η01: 初始化教师模型 ψ 和学生模型 θ 2: while未完成 do 3: 从p(T)中采样一批任务 T i04: 对于所有的T i05: 令D tr i为T i的支持集，D val i为T i的查询集06: 通过公式6在D tr i上获得适应的教师 ψ ′ i07: 通过公式7在D tr i上获得适应的学生 θ ′ i08: 在D val i上评估元目标公式809: 结束循环010: 通过公式10更新模型参数 (ψ, θ)011: 结束循环05.1. 数据集和实现0数据集。我们在以下几个常用的少样本图像分类基准数据集上评估我们的方法。0• mini-ImageNet [48]:这是一个用于少样本图像分类的标准基准数据集。它由从ILSVRC-2012[42]随机选择的100个类别组成。这些类别被随机分成64、16和20个类别用于元训练、元验证和元测试。每个类别包含600个尺寸为84×84的图像。0• FC100 [36]: 这个数据集是从CIFAR-100[21]派生而来的。它包含了100个类别，这些类别被分为20个超类。这些类别被分为60个用于元训练，20个用于元验证，20个用于元测试。每个类别包含600张图像。0• CIFAR-FS [5]: 这个数据集包含了来自CIFAR-100[21]的100个类别。这些类别被随机分成64、16和20个用于元训练、元验证和元测试。每个类别包含600个图像。0• FGVC飞机 [33]:这个数据集包含了102个不同飞机类别的10,200张图像，每个类别有100张图像。这些类别被随机分成50、25和25用于元训练、元验证和元测试。我们将图像调整为84×84。0• CUB200 [13]:这个数据集总共包含200个类别和11,788张图像。按照[13]的评估协议，我们将数据集随机分成100、50和50用于元训练、元验证和元测试。我们将图像调整为84×84。0• 斯坦福狗 [19]:这个数据集包含了120个品种的狗的图像。该数据集是使用ImageNet的图像和注释构建的，用于任务FC100CIFAR-FSmini-ImageNetFGVC-aircraftCUB200Stanford dogs1-shot5-shotFC10037.10±1.6137.90±1.4249.19±0.9250.22±0.69CIFAS-FS56.86±1.8257.12±1.6972.90±0.8572.62±0.87mini-ImageNet51.27±2.0251.69±1.0863.45±0.9163.80±0.81FGVC-aircraft51.12±1.7151.30±2.0064.97±0.8565.02±0.95CUB20053.60±1.5254.22±1.6268.01±0.9668.40±0.65Stanford dogs37.99±1.8938.79±1.7652.94±0.7853.57±0.7762710方法 1-shot 5-shot 1-shot 5-shot 1-shot 5-shot0学生 35.97 ± 1.80 48.68 ± 0.91 56.10 ± 1.80 72.10 ± 0.96 49.53 ± 1.90 62.61 ± 0.91 固定教师 37.10 ± 1.6149.19 ± 0.92 56.86 ± 1.82 72.90 ± 0.85 51.27 ± 2.02 63.45 ± 0.91 我们的方法 38.33 ± 1.78 50.71 ± 1.0557.50 ± 1.73 73.23 ± 0.93 51.45 ± 1.80 63.80 ± 0.850方法 1-shot 5-shot 1-shot 5-shot 1-shot 5-shot0学生 48.87 ± 1.71 64.27 ± 0.87 52.83 ± 1.46 67.82 ± 0.69 37.43 ± 1.90 52.05 ± 1.03 固定教师 51.12 ± 1.7164.97 ± 0.85 53.60 ± 1.52 68.01 ± 0.96 37.99 ± 1.89 52.94 ± 0.78 我们的方法 53.67 ± 1.71 66.64 ± 0.9456.13 ± 1.76 69.22 ± 0.97 38.67 ± 1.80 53.89 ± 0.890表1：实验结果。我们在6个基准数据集（mini-ImageNet、FC100、CIFAR-FS、FGVC-aircraft、CUB200和Stanforddogs）上评估1-shot和5-shot分类。在每个数据集上，我们报告了800个随机生成的测试episode的均值以及95%的置信区间。在我们的方法中，使用固定的教师模型比使用MAML训练学生模型获得更好的性能。我们的完整方法在所有数据集上都取得了最佳性能。0细粒度图像分类。我们将数据集随机分为60个元训练集、30个元验证集和30个元测试集。我们还将图像调整为84×84。0实现细节。我们使用ResNet-50[11]作为教师网络，使用[9]中定义的简单的四层ConvNet（Conv-4）作为学生网络。对于mini-ImageNet、FC100和CIFAR-FS数据集，我们首先使用元训练集对教师进行160个epoch的训练。然后我们使用这些参数初始化教师模型ψ。对于FGVC-aircraft、CUB200和Stanforddogs数据集，我们使用在ImageNet[42]上预训练的ResNet-50作为教师。所有方法都使用Adam[20]优化器，教师和学生的初始学习率分别为1e-5和1e-3。我们应用标准的数据增强，包括随机裁剪、随机翻转和颜色抖动。我们在mini-ImageNet上训练我们的模型约600个epoch，在其他数据集上训练约300个epoch。在我们的实验中，我们使用交叉熵损失进行分类。对于知识迁移，当教师模型固定时，我们使用关系知识蒸馏（RKD）[38]损失，当教师模型可以更新时，我们使用基于KL散度的知识蒸馏（KD）[14]损失。我们在元训练中设置内部更新的次数为5。我们将在发表后发布我们的代码。05.2. 基准方法和Oracle方法0由于本文涉及一个新问题，我们无法直接与以前的工作进行比较。尽管如此，我们定义了几种基准方法和一种oracle方法进行比较。使用MAML训练学生网络（学生）。在这个基准实验中，我们直接使用MAML [9]来训练学生网络。0数据集 ResNet-50 BEiT ResNet-50 BEiT0表2：作为教师的预训练模型。我们比较在不同数据集上使用现成的预训练模型（BEiT）作为固定教师模型而不是ResNet-50。使用BEiT可以提高性能。0使用Conv-4架构。我们的方法使用固定的ResNet-50作为教师模型（固定教师）。在这个基准实验中，我们使用ResNet-50[11]作为教师模型，使用Conv-4作为学生模型。对于mini-ImageNet、FC100和CIFAR-FS，我们首先使用每个数据集的元训练集来训练教师模型。对于FGVC-aircraft、CUB200和Stanford dogs，我们直接使用在ImageNet[42]上预训练的教师模型。然后我们使用我们的方法来训练学生模型，同时保持教师模型固定。在这种情况下，我们使用关系知识蒸馏（RKD）损失[38]。Oracle。在我们的工作中，我们使用ResNet-50[11]作为教师网络。我们考虑了一种使用ResNet-50和MAML的oracle方法。这种方法提供了我们方法性能的上限。05.3. 主要结果和分析0从表1中，我们将我们的方法与基线方法和oracle方法在六个不同的数据集上进行比较。此外，我们还将我们的方法与mini-ImageNet、CIFAR-FS和FC100上的其他最先进的方法进行比较。结果如表3所示。从表1中可以得出几个重要的观察结果。首先，“学生”和“Oracle”之间存在显著差距。由于它们都是使用MAML进行训练，它们之间唯一的区别是骨干模型，这种性能差距证实了我们的假设，即具有高容量模型的MAML可以更好地适应新任务。这也证明了“Oracle”是性能的上限。但当应用程序在边缘设备上运行时，“Oracle”的模型可能太大而无法部署。这是我们工作的关键动机。其次，即使使用固定的教师，我们的方法（即“固定教师”）也优于“学生”。这证明了即使在元训练期间教师模型没有更新，从教师模型中提取知识的价值。我们提出的方法（即“我们的方法”）优于我们的方法（即“固定教师”）。这证明了在适应阶段调整教师的有效性。我们最终的模型（“我们的方法”）给出了最佳性能。这显示了在统一框架中共同学习教师模型和学生模型的好处。此外，62720mini-ImageNet CIFAR-FS FC1000模型骨干 1-shot 5-shot 1-shot 5-shot 1-shot 5-shot0MAML [9] 32-32-32-32 49.53 ± 1.90 62.61 ± 0.91 56.10 ± 1.80 72.10 ± 0.96 35.97 ± 1.80 48.68 ± 0.91 ProtoNet [44]64-64-64-64 49.4 ± 0.8 68.2 ± 0.7 55.5 ± 0.7 72.0 ± 0.6 35.3 ± 0.6 48.6 ± 0.6 RelationNet [45] 64-96-128-256 49.3 ± 0.966.6 ± 0.7 55.0 ± 1.0 69.3 ± 0.8 - - MeTAL [3] 32-32-32-32 52.63 ± 0.37 70.52 ± 0.39 56.85 ± 0.29 73.10 ± 0.36 39.32 ±0.33 50.36 ± 0.30 我们的方法（固定教师） 32-32-32-32 51.27 ± 2.02 63.45 ± 0.91 56.86 ± 1.82 72.90 ± 0.85

下载后可阅读完整内容，剩余1页未读，立即下载