元学习框架下的少样本学习的自适应策略与MetaNavigator的有效性

39 浏览量更新于2023-10-13 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9435Meta导航器：寻找适合少样本学习的自适应策略张驰1丁恒辉1、2林国胜1* 李瑞博1王长虎2沈春华31南洋理工大学2字节跳动3莫纳什大学chi007@e.ntu.edu.sggslin@ntu.edu.sg摘要90少镜头学习的目的是将从以前的任务中学习到的知识关于小样本学习的研究文献呈现出很大的多样性，而不同的算法往往适用于不同的小样本学习场景。因此，在不同的任务条件下决定使用哪种学习策略是很棘手的。受自动化机器学习文献（AutoML）最近成功的启发，在本文中8070605040305路单次激发域内5路10次域内激发5路1次激发交叉域五向十射交叉域因此，我们提出了Meta Navigator，一个试图通过寻求更高级别的策略来解决上述限制的框架，我们的工作的目标是寻找良好的参数自适应的政策，适用于不同阶段的网络工作的少镜头分类。我们提出了一个搜索空间，涵盖了许多流行的少拍学习算法在文献中，并开发了一个微分搜索和解码算法的基础上元学习，支持基于梯度的优化。我们在多个基准数据集上证明了我们基于搜索的方法的有效性大量的实验表明，我们的方法显着优于基线，并展示了性能优势，许多国家的最先进的方法。1. 介绍卷积神经网络（CNN）在各种计算机视觉任务中已经变得不可或缺[27，39一个关键的原因是，CNN学习到的知识可以以分层特征表示的形式在不同的视觉任务中传输。然而，由于CNN的数据饥渴特性，仍然需要足够大量的注释数据来实现良好的泛化准确性，这不可避免地阻碍了*通讯作者：G.Lin（电子邮件：gslin@ntu.edu.sg）图1-在各种少次学习任务设置下比较一些流行的少次学习算法。所有模型都基于相同的网络架构，权重在迷你ImageNet数据集上预先训练。在CUB数据集上评估跨域实验。现有的几次学习算法是高度特定于任务的，并且当域差异较大并且更多支持数据可用时，通过简单的微调基线优于现有的几次学习算法。少镜头学习被提出作为一个有前途的方向，以减轻需要穷举标记的数据，探索一个极端的情况下，只有少数标记的数据是可用的，能够承担一个新的任务的基础上先前的任务学习的先验知识。一个典型的应用场景是少拍图像分类[11，37，44]。关于少镜头学习的文献图1比较了一些流行的几次学习算法在不同的几次学习任务。这里我们考虑三种测试情况，包括1）极端低拍情况，即1-镜头; 2）中等镜头情况，其中支持集的大小相对大于普通基准，例如，10-3）跨域情况，其中训练和测试任务从不同的域采样如图所示，现有的几次学习算法是高度任务特定的，并且没有单个算法可以在所有任务中显示出优于其他算法的优势。特别地，当领域差异较大时，所比较的少样本学习算法不能充分利用增加的支持数据的数量来适应领域差异，而简单的精细-ProtoNets匹配网MAMLfinetune累积9436调整策略可以击败所有其他的少数拍摄学习方法，尽管由于过拟合，在1次拍摄情况下它明显优于其他方法。因此，几乎不可能找到一个最佳的少数镜头学习器，它适用于所有任务。这使得许多少量学习算法难以作为解决机器学习中数据稀缺问题的通用工具，即使它们在一些特定的基准测试中表现得非常好。近年来，人们对自动化机器学习算法（AutoML）的设计产生了浓厚的兴趣，而不是过于依赖启发式手动设计。特别是，AutoML的思想已成功应用于神经架构搜索（NAS）[26，45，52]，其中模型通过探索大型候选架构空间来学习识别高性能架构。基于同样的直觉，在这项工作中，我们试图通过寻求更高级别的策略来解决前面提到的少数学习中的限制，我们工作的目标是寻找好的参数自适应策略，应用于网络的不同阶段，以进行少拍学习。我们网络中的搜索空间包括两部分：调整骨干网的不同阶段中的卷积层的策略和获得分类器中的类原型的策略，它们一起构成分层策略搜索空间。在每个网络阶段，各种候选策略可用于调整参数，并且整个搜索空间覆盖文献中的许多流行的Meta学习算法，例如原型网络[37]，匹配网络[44]，基线++[2]，MAML [11]等。为了从离散的适应政策池中搜索，我们开发了一种基于元学习的可微分搜索算法，该算法允许有效的基于梯度的优化。受NAS文献[26]中的可区分设计的启发，我们的搜索系统建立在离散元学习策略的连续松弛上，其中每个候选策略与可学习的策略选择指示符相关联。然而，由于每个自适应策略是优化过程而不是可微操作，因此直接移植DARTS [26]中的公式是不够的。为了解决这个问题，我们进一步将每个策略与一组特定于策略的模型参数相关联。然后，选择最优策略的决策变成了联合学习策略选择指标以及策略参数。搜索是通过基于元学习的两级优化范式进行的。具体地，内循环中的优化目标是使用采样任务中的支持数据来适配每个候选策略中的参数，而外循环中的优化目标在学习策略特定参数和学习策略选择指示符之间交替。在搜索过程中，我们逐步从前到后的阶段，在两者之间进行微调，基于基于扰动的策略选择方案[45]，该方案测量每个策略对超网的影响。在训练结束时，每个网络阶段与具有学习的参数的自适应策略相关联。为了验证我们设计的有效性，我们在多个基准数据集上进行了各种实验，包括具有挑战性的跨域实验。我们的实验结果表明，我们的基于搜索的模型不仅优于随机搜索基线，而且还表现出显着的性能优势，超过许多以前的方法覆盖在我们的搜索空间。我们的主要贡献总结如下：• 我们的工作是第一次尝试搜索元学习设计的几杆学习任务。• 我们提出了一个分层的政策搜索空间，涵盖了许多以前的元学习算法。• 我们开发了一个可微分的元学习策略搜索算法，可以进行有效的元学习策略搜索。• 五个流行的数据集上的实验表明，我们的方法显着优于基线，并取得了新的国家的最先进的结果在许多基准。接下来我们回顾一些相关的工作。2. 相关工作少镜头分类。在文献[7，15，23，25，27]中提出了各种少次学习范例29、36、46基于度量的方法和基于优化的方法是两种主要的努力方向。基于度量的方法[9，14，22，32，37，42，44，49，53，54]旨在学习深度度量以推断预测数据关系。通常，一旦模型被学习，当它被部署到新任务中的推理时，参数是固定的。因此，基于度量的方法在推理速度方面具有优势，并且通常在极低拍摄的情况下表现良好。基于优化的方法[1，11-例如，MAML [11]旨在学习一个良好的模型初始化，可以在新任务中快速适应网络参数。Chen等人[2]发现通过简单地用所有训练类预训练模型权重，许多早期的作品，如ProtoNet [37]，MatchNet [44]和MAML [11]可以恢复活力并达到最先进的性能。在我们的实验中，我们展示了我们的模型在这些基线上的优势，这些基线在所有网络阶段都采用除了图像识别之外，还在分割任务中研究了少量学习[5，28，56，57]。9437--∈∈∈←网络架构搜索（NAS）。我们的工作与NAS文献[26，45]建立了联系，其目的是识别CNN结构中的有效构建元素。与我们最相关的工作是DARTS [26]，它应用了连续松弛，将体系结构的离散选择转换为体系结构权重。在DARTS中，不同的候选操作一起构成了在双层方案中优化的超网，其中训练集用于学习操作特定的参数，并且验证集用于优化架构权重。在训练之后，通过选择具有最大架构权重的操作来选择最优操作。尽管它简单，但许多最近的作品质疑DARTS的有效性[3，4，45，52]。例如，一个简单的随机搜索基线可以优于DARTS [26]搜索的架构，并且搜索有利于无参数操作，例如跳过连接[52]。最近，提出了许多改进的设计来解决DARTS中的问题[3，4，6，21，45，52]。例如，Wanget al. [45]发现架构权重可能不一个很好的指标解码的超网，并提出了一个扰动为基础的架构选择方法。具体地说，在超网训练之后，根据每个操作被移除时对超网性能的干扰程度来选择最佳操作。在我们的工作中，我们也采用这样的模型离散化方案，以获得最终的政策。最近，在[8，10，24，30]中探索了用于少镜头学习的NAS，其旨在识别少镜头学习任务中的高性能。我们的工作与他们的不同之处在于，我们的框架中的搜索目标是找到好的参数自适应策略而不是架构，并且不同的候选策略共享相同的架构。3. 策略搜索空间本节介绍我们的元学习策略搜索空间。标准CNN结构主要包括两个组成部分：将输入图像编码成表示的特征主干和对数据嵌入进行分类的分类器。因此，我们将框架中的搜索空间分为两部分：在表示编码（RE）阶段的策略（Sec. 3.1）和原型学习（PL）阶段的政策（第3.2节）。3.2）。3.1. 表示编码的搜索空间在由G（i）表示的标准卷积神经网络中，主干用于将输入图像编码成高维表示以用于通过卷积层的序列进行分类。由于CNN中的分层设计，我们可以将顺序卷积层划分为若干组g1、g2、…，例如ResNet中的4层块。我们的目标是为每一种情况层组中的少数镜头分类任务的上下文中。具体地说，给定一个层组gl（;θ），其中l是该组的索引，θ是其中的参数，自适应策略被定义为基于任务T中的支持集S来自适应参数θ的方法，使得θ变为θ。对于CNN的主干中的每个层组，涉及三种候选策略：I. 固定参数（RE-FIX）。在RE-FIX中，通过训练任务学习的参数保持固定，而不需要在新任务中进行任何调整，即， θˆθ。这种设计在基于度量的方法中广泛可见，其中训练任务上的学习数据编码器被直接重用以编码新任务中的数据。类似地，baseline++ [2]也会冻结新任务中预先训练好的主干，只对分类器进行微调。II. 微调权重（RE-FT）。在这种情况下，组中的RE-FIX的学习参数可以通过随机梯度下降用新任务中的支持集S进行微调，即，θ=θ−βθLT（θ），（1）其中β是学习率，L是损失函数。通过在微调期间改变超参数，学习率或迭代次数，我们可以获得子候选的集合，例如具有大学习率的强RE-FT策略或以小学习率稍微微调参数III. 快速自适应（RE-FA）。与根据RE-FIX的权重进行微调的RE-FT不同，RE-FA根据Meta学习的模型初始化对模型进行微调，如在MAML [11]中所做的那样。换句话说，RE-FA中的微调行为影响模型初始化的学习，而RE-FT不影响。与RE-FT类似，我们可以基于自适应超参数进一步获得RE-FA的子候选。我们搜索针对骨干网中的每个层组Gl的适配策略因此，将骨干划分成 M 个阶段导致具有 [1+SRE-FT+SRE-FA]M个候选的搜索空间用于表示编码，其中S表示策略中的子候选的数量。3.2. 原型学习在将输入图像编码成具有主干的向量表示vRC之后，分类器将表示线性地投影到具有权重矩阵WRNXC的每个类si的得分中，其中N是类的数量并且C是特征维度。从这种操作的原型视图来看，权重矩阵W实质上存储原型向量[w1，w2，.，对于所有类，其中w是并且特定类i的类得分si通过数据表示v和类原型wi之间的内积来计算，即，9438RE-FA 1RE-FA 2PL-FA 1PL-FA 2RE-FA 3 PL-FA 3RE-FT 1PL-FT 1RE-FT 2RE-FT 3PL-FT 2PL-FT 3重新固定PL-DI……我StageStage+输入…表示编码阶段原型学习阶段原型网络MAMLBaseline ++图2-我们的基于搜索的少镜头分类框架。我们的目标是在每个网络阶段寻找一个好的适应策略。我们的搜索空间主要包括两部分：表示编码策略和原型学习策略请参阅Sec。3、对不同政策的基于在每个阶段对不同候选策略的连续松弛，我们构建了一个可微分的超网，该超网可以端到端（顶部）进行优化。我们的搜索空间涵盖了许多著名的少数学习算法，例如Prototypical Networks [37]，MAML [11]和Baseline++ [2]（底部）。si=wivT.内积运算也可以由其他相似性度量代替，例如负L2距离[37]、余弦相似性[44]和深地球移动器基于这样的解释，我们总结了以下策略作为搜索候选者以获得用于计算类分数的类原型：I. 数据表（PL-DI）。基于度量的Meta学习算法，如原型网络[37]，可以被视为直接用支持图像的数据嵌入来参数化类原型。通常，在每个类具有一个支持图像的1次拍摄情况下，编码的支持数据被直接用作原型，而在k次拍摄情况下，每个类中嵌入的平均数据被设置为类原型[37]。因此，我们的第一个候选者是直接用数据嵌入参数化分类器，而没有任何适应。II. 数据嵌入微调（PL-FT）。在这种情况下，PL-DI中的数据初始化原型仅用作微调的起点。III. 快速自适应微调（PL-FA）。类似于用于表示学习的RE-FA策略，PL-FA从原型的元学习初始化微调分类器。同样，我们可以获得PL-FT和PL-FA的强或弱子候选。我们使用余弦相似性来计算所有策略的类核。在涉及到原型的搜索空间之后，整个搜索空间O包括[1+SRE−FT+SRE−FA]M×[1+SPL−FT+SPL-FA]候选，并且搜索目标是找到策略候选中的整个搜索空间。我们的搜索空间涵盖了许多众所周知的Meta学习算法，如图所示。二、例如，如果所有参数保持冻结以用于表示编码，并且分类器通过数据嵌入（RE-FIX +PL-DI）直接参数化，则模型变为基于度量的方法，例如原型网络[37]和匹配网络[44];如果所有阶段选择快速自适应（RE-FA+ PL-FA），则模型变为MAML;如果骨架中的参数保持冻结并且分类器通过快速适应（RE-FIX + PL-FA）进行微调，则其接近基线++[2]。4. 方法在这一部分中，我们提出了我们的方法来搜索上述搜索空间中的政策我们首先介绍了一个不断放宽不同的候选政策，涉及到一个可区分的超网的所有政策（第二节）。4.1）。然后，我们讨论如何优化搜索模型（ Sec. 4.2 ），以及如何渐进地解码超网（ Sec.4.3）。4.1. 政策不断放宽为了在特定阶段1上搜索Meta学习策略O1的离散选择池，我们重用DARTS [26]中提出的个体选择的连续松弛的想法。在开始时，搜索空间01中的每个候选策略01与归一化策略选择权重α1以及参数θ1的副本相关联。我我RE-FA 1RE-FA 2RE-FA 1RE-FA 2RE-FA 3RE-FT 1RE-FT 1RE-FT 2RE-FT 2RE-FT 3RE-FT 3重新固定重新固定………………………………………………………………………9439我我我αi我我我Ol∇我我Σα=1，α>0，（2）θ=θ−β阶段1，其中，L l我我i ∈|Ol|使用softmax。为了获得离散策略的连续具体地，给定前一级的输出O1- 1，当前级的输出通过下式计算：Ol=<$αlgl（Ol−1，θ<$l）。（三）i∈|Ol|可以获得RE-FIX中的参数，而RE-FA和PL-FA必须通过需要计算梯度的梯度的嵌套优化轨迹来区分[11]。应注意，由于RE-FT和PL-FT的所有子候选者微调来自预训练权重（RE-FIX）或数据嵌入的参数，因此在每个任务中在线生成用于微调这些策略的参数θ，因此在步骤1的外循环中不存在这些策略的可学习参数4.3.解码离散策略在超网训练期间，我们逐步解码使得只留下一个候选策略因此，网络的不同阶段中的所有候选策略一起构建了可区分的超网[26]。特别地，θ（l）是个体适应后的参数策略，而策略选择权重α指定不同候选策略的贡献，其相当于DARTS [26]中的架构权重。4.2. 优化在构建模型的超网之后，下一个目标是学习各个策略中的参数θ以及策略选择权重α。召回 DARTS [26]用两个不相交的集合交替地优化架构权重和操作参数使用类似的公式，我们框架中的优化也在两个元学习目标之间交替：1. 更新不同候选策略中的参数θ与。L（θ，α）每个阶段。在[45]之后，我们采用基于扰动的解码策略，每个poly的强度被定义为它对超网的性能的贡献程度，这是通过掩蔽每个策略的路径并观察性能下降来实现的。在该阶段中，在被屏蔽之后导致验证集上的最大准确度下降的策略我们从前到后逐层解码每个阶段。在每个阶段的解码之后，我们用Alg对超网进行微调。1，以恢复由离散化引起的精度下降。重要的是要注意，直接离散化将改变基于微调的策略的行为。具体地，在超网的解码之前，层1处的策略i中的SGD步骤是lli iθllLSOl glθTt=θi−βOlgl（四）2. 用αLTv（θ，α）更新策略权重α。Alg. 1呈现了优化过程的流水线以伪代码的形式相比之下，双=θl−β LSOl我lglθl级别优化方案，主要有两个区别：1）与DARTS不同，DARTS中的权重是在特定任务上学习的，我们框架中的优化-工作是基于元学习的，元学习从其中gl是策略的输出，Ol是输出在舞台上这里的问题是，由于方程中（3）在解码后离散化，则该部分tial derivativesOl从αl变为1。因此，鉴于∂gli两个不相交的任务域p（TA）和p（TB），分别基于训练集和验证集。2)上述优化目标中的每一个都具有嵌套优化问题.具体地，在两个优化目标的内循环中，目标是调整策略权重θ以获得任务特定的策略权重θ（，而外循环是调整策略权重θ。如果相同的梯度被反向传播到该阶段，则离散化将策略的自适应强度缩放1/α1。为了解决这种差异，我们将策略选择权值α融合到解码后的学习率中，即，并且解码之后的自适应步骤变为交替优化不同策略lllLSOl glθ和策略选择权重α，其中θ。LT（θθ，α）θi=θi−（βαi）Olgl中文（简体）和αLTB（θ，α）。此外，该方法llLSgl获得关于策略权重的梯度即，θ。LTA（θ∈，α）随不同的政策而变化。例如，由于在RE-FIX中没有应用自适应操作梯度的封闭形式表达式，=θi−（βαi）Olθl我结果，在解码之前和之后的策略中的实际适配步骤是相同的，并且初始分配的适配步骤是相同的。9440←∇←×算法一：优化超网以寻找良好的适应策略。输入：p（TA），p（TB）：两个不相交的任务分布输入：G（; Θ，α）：在每个策略不做就做#步骤1：优化策略中的参数从p（TA）采样任务TA={S，Q};Θ（G（S;Θ，α），调整每个策略中的权重支持集S（# inner loop）;对查询集Q进行预测G（S;Θ（，α）;计算损耗Θ。#步骤2：优化策略选择权重α从p（TB）采样任务TB={S，Q};Θ（G（S;Θ，α），调整每个策略中的权重支持集S（# inner loop）;对查询集Q进行预测G（S;Θ（，α）;计算损失α。LTB（Θ（，α））和优化α;端解码超网学习速率仅用作搜索期间的上限。5. 实验5.1. 数据集统计数据为了验证我们的框架的有效性，我们在五个基准数据集上进行了实验，包括 miniImageNet ，tieredImageNet ， Fewshot-CIFAR 100 （ FC 100 ），CIFAR-FewShot（CIFAR-FS）和Caltech-UCSD Birds-200-2011（CUB）。迷你ImageNet。miniImageNet是最流行的少数分类数据集，在[44]中提出。该数据集基于ImageNet数据集[34]构建，包含100个类，每个类中有600个图像。训练类、验证类和测试类的数目分别为64、16和20。分层 ImageNet 。分层 ImageNet 也是一个基于ImageNet构建的少量分类数据集，其中包括608个类。训练（20）、验证（6）和测试（8）类的划分根据超类设置，以扩大训练和测试时间之间的域间隙。少量CIFAR100。 FC100是基于CIFAR100 [ 17 ]构建的少量分类数据集。根据[31]中的拆分，训练、验证和测试集分别包括60、20和20个类CIFAR-FewShot。CIFAR-FS也是建立在CIFAR 100基础上的少量分类数据集，在[7]中提出它模型单次拍摄5次射击10杆ProtoNets [37]57.8978.7582.66MatchNets [44]61.4775.4178.87MAML [11]59.5875.8078.20基线++[2]61.5079.4783.63finetune44.8168.7776.94随机搜索64.1077.97八十点九四我们65.9182.66八十五点四六表1-在本实验中，将搜索到的用于5次射击任务的模型重新用于进行10次射击任务。我们的搜索策略在各种任务上始终优于基线。分别包含64、16、20个类用于训练、验证和测试Caltech-UCSD Birds-200-2011。CUB是一个细粒度的鸟类分类数据集。在[2]之后，我们将200个类分成100个、50个和50个，分别用于训练、验证和测试。5.2. 实现细节我们采用ResNet-12作为我们的网络骨干进行所有的实验。由于有四个层块，在ResNet主干中，我们可以很自然地将网络参数分为五个阶段，其中主干中有四个阶段，分类器中有一个阶段。我们为RE-FT、RE-FA、PL-FT、PL-FA策略设置了两个子候选，包括以0.1的学习率微调参数的强版本和以0.1的使用0.01的速率，并且所有子候选者针对10个时期适配参数。因此，我们的搜索空间覆盖了（1+ 2+ 2）（1+ 2+ 2）4= 3125个候选项。在优化超网之前，我们用训练集中的所有数据预训练骨干网，并使用预训练的权重在表示学习阶段初始化所有策略我们用Alg训练超网。1，1000集，然后开始从前到后的解码层。在解码每个阶段之后，我们对100集的超网进行微调，以恢复由离散化引起的准确性下降。在所有阶段解码后，我们进一步微调网络2000集。在训练阶段采用随机尺度、随机裁剪和随机水平翻转进行数据扩充。在我们的实验中，所有的模型进行了评估与600个测试集，我们报告的平均精度。5.3. 结果和分析搜索模型的可视化。我们首先提出了可视化的搜索模型在不同的几杆学习任务。我们绘制了每个阶段的策略的最终选择以及在图1中的初始解码之前的不同阶段的策略选择权重。3.第三章。注意，策略选择权重不一定指示9441------1.000.800.600.400.200.00L1 L2 L3 L4 FCL2 L3 L4 FC L1 L2 L3 L4 FCL1 L2 L3 L4 FC最终政策：重新固定重新固定重新固定RE-FAPL-FT重新固定重新固定RE-FARE-FAPL-FT重新固定RE-FARE-FARE-FTPL-FTRE-FARE-FARE-FARE-FAPL-FT0.0350.0330.0330.079零点四三0.0280.032 0. 0 7 9 个单位0.034 0.0220.0290.0550.0980.068(a) 1次激发域内（b）5次激发域内（c）1次激发跨域（d）5次激发跨域图3-在不同的5路少数学习任务下搜索策略的可视化。我们绘制了初始解码之前的策略选择权重的分布以及每个网络阶段的最终策略。学习率在所有基于微调的策略下方注明。请参阅Sec。5.3我们的分析型号1发5发10发域任务，选择固定第一层块中的参数。随机搜索49.22 67.47 71.64我们的53.80 72.43 81.05表2-CUB数据集上的跨域实验。使用迷你ImageNet数据集训练的模型在多个5路任务集上进行评估。我们的模型在所有任务设置中表现良好，并展示了所有基线的性能优势。解码选择，但是我们可以通过比较不同任务或层上的选择分布来观察搜索模型的行为基于可视化，我们有以下1. 在所有任务中共享的是，总是喜欢基于数据初始化（PL-FT）以相对大的学习速率进行微调的原型，而完全忽略从元学习初始化（PL-FA）进行微调的原型。这强调了在我们的搜索模型中，数据初始化对原型学习的偏好。同时，最后的表示编码层，即，在所有任务中，层4也选择具有相对大的学习速率（RE-FA或RE-FT）的自适应。2. 我们发现，由于基于数据初始化的政策在超网中的原型学习阶段占主导地位，在一次性情况下，传播到前层的梯度很弱。结果，在前层的不同策略的输出，层1非常相似，因此分布接近均匀。尽管如此，在基于扰动的解码之后，除了用于k-快照交叉编码的模型之外的所有模型都被解码率也在增加。与基线比较为了证明我们设计的优势，我们将我们的搜索策略与以下与我们提出的搜索空间相关的基线模型进行比较：I. 原型网络和匹配网络是文献中两种具有代表性的基于度量的方法它们的区别在于，原型网络[37]使用负L2距离来计算类得分和平均嵌入作为分类器中的原型，而匹配网络[44]使用余弦相似度来计算类得分，并使用单个数据嵌入作为原型，然后融合来自同一类的不同原型生成的得分。II. MAML [11].基于我们的搜索空间，所有的表示编码阶段采用RE-FA策略，原型学习阶段采用PL-FA策略。我们选择的学习率为骨干和classi- fier从0。0101并报告最优结果。III. 基线++ [2]。 Baseline++冻结预训练骨干和微调余弦分类器。对于所有实验，我们微调分类器100次迭代学习率选自0。010 1，并给出了最优结果。IV. 微调我们简单地微调预训练模型100次迭代，骨干和分类器的学习率不同。学习率选自0。010 1，并给出了最优结果。V. 随机搜索。我们随机抽取保单在建议的搜索空间中的每个阶段构建模型，并报告10个采样RE-FA PL-FA(lr：0.1）（lr：0.1）RE-FA PL-FA(lr：0.01）（lr：0.01）RE-FT PL-FT(lr：0.1）（lr：0.1）RE-FT PL-FT(lr：0.01）（lr：0.01）RE-FIX PL-DI政策权重ProtoNets [37]MatchNets [44]45.5247.4166.8063.6372.2968.833. 通过比较分布和最终策略MAML [11]41.2958.1062.18我们可以发现，当域基线++[2]47.7970.0176.13差异大或者支持数据的数量增长，finetune39.4967.8878.60更多的层选择进行微调9442方法骨干miniImageNet分层 ImageNet FC 100 CIFAR-FSMTL [38] R e s N e t -1261.2 ± 1。875.5 ± 0. 865.6 ± 1。880.8 ± 0. 845.1 ± 1。957.6 ± 1。0[49]第四十九话 R e s N e t -25 ‡62.96±0. 2078.49 ± 0. 15LEO [35]WRN-28-10‡61.76 ±0. 0877.59 ± 0. 1266.33 ±0. 0581.44 ± 0. 09Dhillon等人[七]《中国日报》WRN-28-10‡57.73 ±0. 6278.17 ± 0. 4966.58 ±0. 7085.55 ± 0. 4838.25 ±0. 5257.19 ± 0. 5768.72 ±0. 6786.11 ± 0. 47[18]第十八话 R e s N e t -1262.64 ±0. 8278.63 ± 0. 4665.99 ±0. 7281.56 ± 0. 5341.1 ± 0. 655.5 ± 0. 672.0 ± 0. 784.2 ± 0. 5加拿大[14] R e s N e t -1263.85 ±0. 4879.44 ± 0. 3469.89 ±0. 5184.23 ± 0. 37CTM [22] R e s N e t -18 ‡64.12±0. 8280.51 ± 0. 1368.41 ±0. 3984.28 ± 1。73DSN-MR [36] R e s N e t -1264.60 ±0. 7279.51 ± 0. 5067.39 ±0. 8282.85 ± 0. 56- 75.6 ± 0. 986.2 ± 0. 6Tian等人[四十三] R e s N e t -12 64.82 ±0. 6082.14 ± 0. 4371.52 ±0. 6986.03 ± 0. 4944.6 ± 0. 760.9 ± 0. 673.9 ± 0. 886.9 ±0. 5Kim等人[16个] R e s N e t -1265.08 ±0. 8682.70 ± 0. 54- 42.31 ± 0. 7557.56 ± 0. 7873.51 ±0. 9285.49 ± 0. 68DeepEMD [53] R e s N e t -1265.91±0. 8282.41± 0. 5671.16±0. 8786.03± 0. 5846.47±0. 7863.22± 0. 七十一我们 R e s N e t -1265.91±0. 8382.66± 0. 5573.52±0. 8885.34± 0. 6245.60 ±0. 8159.93 ± 0. 7674.01 ±0. 9686.03± 0. 62我们的+MC R e s N e t -1267.14±0. 8083.82± 0. 5174.58±0. 8886.73± 0. 6146.40±0. 8161.33± 0. 7174.63±0. 9186.45± 0. 59[3]与我们不同的骨干。表3-MC表示多作物测试。我们的方法在多个数据集上的性能优于最先进的性能。模型我们省略策略PL-FA（lr = 0. 01），因为我们发现它总是产生不好的结果，无论在原型编码阶段采用什么策略所有基线模型都经过预训练，结果见表1。正如我们所看到的，考虑到所有比较模型共享的相似架构，我们搜索的自适应策略在所有任务集上都获得了最优结果。特别是，我们的模型优于随机搜索基线一致，这验证了我们的搜索算法的有效性。跨域实验。接下来，我们进行跨域实验以进一步评估我们的设计的有效性，其中训练数据和测试数据是从不同的数据集中采样的我们评估了在CUB数据集上使用迷你Imagenet数据训练的模型由于CUB是细粒度分类数据集，在训练和测试任务之间存在域间隙，这可以更好地评估少量学习算法如何使模型适应新任务。在跨域实验中，我们使用来自目标域的验证集作为Alg中的集1、进行搜索。从表2中的结果可以看出，我们的模型在不同的数据集上一致地优于基线模型，具有显着的性能优势。特别是，在10次射击任务中，我们比随机搜索基线高出 9.41% ，比基线 ++ 高出4.92%。5.4. 与最新方法的为了更好地定位我们的方法之间的少数镜头学习-ING文献，我们比较了我们的网络的结果与国家的最先进的性能。我们报告了四个基准数据集的前1个准确性和95%置信区间：mini Imagenet、分层Imagenet、CIFAR-FS和FC 100。当我们发现少数人的预测学习者对输入数据的尺度和变化往往很敏感，我们也报告了采用多作物测试的结果，用MC表示。具体来说，我们简单地在训练时重复使用数据增强操作来缩放和裁剪查询图像10次，并将它们的预测logit平均作为最终预测。结果示于表3中。虽然我们的方法旨在解决更一般的几次学习问题，但我们仍然在流行的基准测试中获得了可观的性能。特别是，在流行的分层Imagenet数据集上，我们获得了74.58%的单次拍摄准确率，比以前的最先进水平高出3.42%。6. 结论在本文中，我们已经提出了一个基于搜索的框架工作的少镜头学习分类，旨在找到一个好的参数自适应政策，在每个网络阶段。随着离散元学习策略的不断放松，我们的搜索模型是可区分的和端到端的可训练的。我们进一步开发了一个解码算法，在每个阶段逐步选择最佳的选择。我们设计的搜索空间涵盖了文献中许多流行的少数大量的实验验证了我们设计的有效性，我们在多个基准测试中获得了新的最确认这项研究由新加坡国家研究基金会在其人工智能新加坡计划（AISG Award No.：AISG-RP-2018-003）和MoETier-1研究补助金：RG 28/18（S）、RG 22/19（S）和RG 95/20。单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击单次拍摄5次射击TADAM [31] ResNet-1258.50 ± 0。3076.70 ± 0.30––40.1 ±0. 456.1 ±0. 4––9443引用[1] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的妈妈。在Proc. Int. Conf.学习.代表，2019年。[2] Wei-Yu Chen，Yen-Cheng Liu，Zsolt Kira，Yu-ChiangWang，and Jia-Bin Huang.更仔细地看几个镜头分类。在Proc. Int. Conf.学习.代表，2019。[3] Xiangning Chen和Cho-Jui Hsieh。通过基于扰动的正则化稳定可微分体系结构搜索。在Proc. Int. Conf.马赫学习. ，2020年。[4] 陈香宁，王若尘，程敏浩，唐晓成，谢卓瑞。DrNAS：Dirichlet神经结构搜索。在Proc. Int. Conf.学习.代表，2021年。[5] Xiaoyu Chen，Chi Zhang，Guosheng Lin，and Jing Han.基于多视角比较的组合原型网络在少镜头点云语义分割中的应用arXiv预印本arXiv：2012.14255，2020。[6] Xiangxiang Chu，Tianbao Zhou，Bo Zhang，and JixiangLi.公平飞镖：消除差异化架构搜索中的不公平优势在proc EUR. Conf. Comp. 目视，第465480. Springer，2020年。[7] Guneet Singh Dhillon ， Pratik Chaudhari ， AvinashRavichan-dran，and Stefano Soatto.少数拍摄图像分类的基线在Proc. Int. Conf.学习.代表，2020年。[8] Sivan Doveh，Eli Schwartz，Chao Xue，Rogerio Feris，Alex Bronstein ， Raja Giryes ， and Leonid Karlinsky.Metadapt：用于少量分类的元学习任务自适应架构。arXiv预印本arXiv：1912.00412，2019。[9] 尼基塔·德沃尔尼克，科迪莉亚·施密德，朱利安·麦拉尔.与合作的多样性：用于少镜头分类的集成方法。正在进行IEEE国际配置文件目视，第3723-3731页[10] ThomasElsken ， BenediktStaffler ， JanHendrikMetzen，and Frank Hutter.用于少量学习的神经架构的元学习。在proc IEEE会议Comp. 目视帕特识别，第12365-12375页[11] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在Proc. Int. Conf.马赫学习. ，第1126-1135页[12] Chelsea Finn、Kelvin Xu和Sergey Levine。概率模型不可知元学习。在Proc.神经信息进展。过程系统，第9537-9548页[13] Erin Grant 、 Chelsea Finn 、 Sergey Levine 、 TrevorDarrell和Thomas L.格里菲斯将基于梯度的元学习重构为分层贝叶斯。在Proc. Int. Conf.学习. 代表，2018年。[14] 侯瑞兵，洪昌，马冰鹏，Shiguang Shan，陈西林。交叉注意力网络用于少数镜头分类。在Proc.神经信息进展。过程系统，第4005-4016页[15] 壳牌徐虎、巴勃罗G莫雷诺、奚申1杨晓、尼尔D劳伦斯、纪尧姆奥博津斯基、安德烈亚斯达米安努和法国马恩河畔香榭丽舍大街。基于合成梯度的经验贝叶斯元学习。在Proc.

下载后可阅读完整内容，剩余1页未读，立即下载