CAD：共同适应判别特征的少样本分类方法

149 浏览量更新于2023-10-25 收藏 17.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

a challenge. Motivated by the ability of humans to rapidlyadapt to new tasks using prior knowledge, the field of few-shot learning shows promise in achieving this goal.Few-shot learning [22,36,43] aims to classify unlabeledquery samples from unseen classes using only limited la-beled support examples. Recent approaches have leveragedthe meta-learning paradigm where transferable knowledgeacross a collection of tasks is learned and propagated to im-prove generalization. In particular, one of the promisingapproaches have used the meta-learning framework to op-timize model parameters [11, 33, 36] with a few gradientsteps, thus enabling neural network classifiers to quicklyadapt to unseen classes.Other works employ similarityinformation between images (Fig. 1(a)), augmentation of145540CAD：为改进少样本分类而共同适应判别特征0Philip Chikontwe，Soopil Kim，Sang HyunPark韩国大邱科学技术院机器人与机电学系0{philipchicco,soopilkim,shpark13135}@dgist.ac.kr0摘要0Few-shot分类是一个具有挑战性的问题，旨在学习一个模型，该模型可以在给定少量标记样本的情况下适应未见类别。最近的方法预先训练特征提取器，然后进行情节式元学习的微调。其他方法利用空间特征学习像素级对应关系，同时联合训练分类器。然而，使用这种方法的结果只显示出微小的改进。在本文中，受Transformer风格的自注意机制的启发，我们提出了一种策略，通过交叉关注和重新加权判别特征来进行少样本分类。给定全局池化后的支持和查询图像的基础表示，我们引入一个单一共享模块，对特征进行投影，并在两个方面进行交叉关注：(i) 查询到支持，(ii)支持到查询。该模块计算特征之间的注意力分数，以生成同一类别特征的注意力池化表示，然后将其添加到原始表示中，随后进行投影处理。这有效地重新加权了两个方面（i和ii）的特征，以产生更好地促进改进的基于度量的元学习的特征。在公共基准测试上进行的大量实验证明，我们的方法的性能优于最先进的方法3% � 5%。01. 引言0深度学习在许多计算机视觉任务中取得了显著的成功，在具有足够大规模标记训练数据的领域中达到了人类水平的性能。然而，由于昂贵的策划和标记，大规模数据并不总是容易获得。因此，目前正在进行的研究努力是设计能够使用有限数量的标记示例来学习解决任务的模型，以减轻这种要求。虽然一些方法，如迁移学习、半监督学习和无监督学习，已经显示出合理的性能，但是学习在极少量标记样本上进行泛化仍然是一个挑战。受人类利用先前知识快速适应新任务的能力的启发，少样本学习领域在实现这一目标方面显示出了希望。少样本学习[22, 36,43]旨在使用仅有限标记支持样本对来对未见类别的未标记查询样本进行分类。最近的方法利用了元学习范式，其中学习和传播了一组任务之间可转移的知识以改善泛化能力。特别是，有一种有希望的方法使用元学习框架来优化模型参数[11, 33,36]，通过少量梯度步骤使神经网络分类器能够快速适应未见类别。其他方法利用图像之间的相似性信息（图1(a)），增强了0NN0NN0池化0池化0池化0NN0池化0图1. 所提出的框架与使用注意力的其他方法的视觉直观对比。 (a)标准ProtoNet[43]架构与最近邻分类器（NN）。 (b)仅适应支持嵌入而不使用查询集中的关系，使用骨干预训练[54]。(c)我们的方法利用交叉关系视角中的每个集合的注意力来改善分类性能，通过重新加权特征。145550使用生成技术的训练数据[15, 40]，或者使用两阶段方法[7,35, 42,53]，即首先在已知类别上对模型进行预训练，然后使用元微调策略。在一般的元学习设置中，训练阶段定义的任务模拟测试阶段，以鼓励模型的泛化能力。尽管预训练策略显示出有希望的结果，但陈等人[7]认为微调只有微小的改进。此外，使用全局平均池化获取基础表示的标准技术被认为是有限的，因为它对物体姿态敏感，并且丢弃了关键的语义细节，可能难以学习到不受杂质特征干扰的可泛化嵌入[18,20]。因此，最近的研究集中于仅使用空间特征通过空间注意机制[19]或其他形式的关系学习[20,52]来学习更细微的区别，以提高性能。然而，利用这种设置，即基于空间特征的学习，仍然只报告了微小的改进，除了一些提供了关于模型推理过程的可视化对象注意区域以解释性的工作。在这里，我们认为仅使用实例嵌入进行元学习仍然是可行的，并且可以在关注相关特征时提高少样本性能。例如，叶等人[54]试图解决这个问题，并展示了可以使用基于Transformer模型[47]的集合函数进行元学习的最优判别特征（图1(b)）。Transformer中的自注意机制对于基于集合的问题具有几个理想的特性，即置换不变性、插值和上下文化。因此，任何元学习器都可以利用这样的基于集合的转换来调整实例嵌入，以改进原型生成，或者产生更好的嵌入。然而，尽管叶等人[54]展示了改进，但嵌入适应仅在支持样本上执行，而没有利用查询信息，这是与最近使用交叉注意力[19, 20,52]的空间技术的关键区别，以学习更好的对应关系。此外，作者使用了一种基于转移的方法，在元训练之前需要对基础类别进行预训练。在这项工作中，我们提出了一种从头开始进行的端到端元学习策略，使用自注意力同时关注支持和查询特征（图1(c)）。这对于关注共同的物体特征并避免干扰物以获得更好的匹配非常有用。具体而言，我们引入了一个单一共享的注意力模块，它首先对全局池化的基础表示进行投影，并通过缩放点积计算每个k-shot任务的注意力分数。给定每个shot的分数，我们取分数的均值来获得一个注意力池化特征（特征和分数的点积），然后将其添加到初始投影特征之前生成的特征中。0最终重新加权特征的计算。具体而言，为了改进支持特征即查询到支持的注意力分数，使用查询和支持特征之间的注意力分数来汇集初始的支持特征，产生一个与初始特征连接的支持原型，对于支持到查询，同样的策略用于产生一个改进初始查询特征的查询原型。这个策略在概念上等同于基于空间的交叉注意力，它隐式地重新加权基础空间映射以关注相关的对象区域。最后，我们在经过改进的特征上使用最近邻分类器进行少样本分类。本文的贡献可以总结如下：0•为了改进基于模型的嵌入适应，我们提出通过自注意力对支持和查询嵌入进行交叉注意力加权，相对于其他实例重新加权每个实例。0•我们发现通过自注意力将特征与其原型（支持/查询）进行隐式重新加权，可以提高基于度量的少样本性能，并且在可学习参数方面增加了最小的开销。0•对所提出的组件进行了广泛的评估，验证了我们方法的有效性。此外，我们在几个基准数据集上展示了与最先进方法相比的竞争结果。02. 相关工作0少样本分类。已经提出了几种方法来解决少样本学习[4, 6,11, 18, 25, 29, 43, 44, 48, 54,56]。现有的方法主要分为以下几类：基于模型初始化的方法[11, 12]，度量学习方法[4, 43, 44, 46,48]和幻觉方法[14, 27,31]。第一种方法旨在通过学习微调来学习一个良好的模型初始化，其中对于未见类别的分类器可以在少量梯度步骤中快速适应。然而，当基类和未见类别之间存在较大的领域转移时，这些方法被报道失败[7]。另一方面，度量学习方法通过在训练过程中学习比较输入来解决少样本分类问题。在这里，预测往往依赖于包括余弦相似度[48]、到平均类别表示的欧氏距离[43]和关系模块[44]在内的距离度量。沿着这条思路，最近的方法采用了迁移学习的方法[7, 9, 14, 28, 30,32,39]，其中预训练被用作少样本学习的强基准，随后进行微调。在这些方法中，我们的工作属于基于度量的方法，旨在通过共同适应具有判别性的交叉注意力模块来提高特征的可迁移性。145560注意力计算0共享0原型0查询适应0支持适应0MAB0MAB0共享0图2.提出方法的概述。我们从头开始使用情节元训练来学习支持和查询图像的判别性共适应嵌入。具体而言，共享的骨干网络提取全局池化特征Z，并使用共享的自注意力模块进行特征适应，通过考虑支持嵌入Zs作为键和值对以及查询Zq来计算注意力分数，对Zs进行重新加权以产生一个添加到Zs的原型p。最后，通过f o θ进行投影，得到改进的Zs（对于Zq的键/值对也使用相同的思路，其中Zs作为查询）。0注意力机制在少样本学习中的应用。通常，注意力可以用于揭示图像的局部补丁邻域[41]的结构布局，或者通过测量输入之间的相似性[2, 21, 23,47]来突出集合任务中的相关特征。这种技术在二维和三维视觉任务的文献中得到了广泛的探索[34, 50,58]。例如，CrossTransformer[10]、CAN[19]和RENet[20]使用注意力模块将查询和支持特征投影到另一个空间中，利用空间信息。然而，这些方法在骨干网络上产生了多个参数，并包括额外的目标来规范训练。0其他设置，如增量式少样本学习，也使用注意力机制来规范未见类别的特征，通过关注已见类别[37]。FRN[52]将少样本分类问题形式化为重构问题，遵循Zhang等人的工作[55]。在多领域少样本学习的背景下，Liu等人[29]使用自注意力来选择跨领域特定骨干的适当表示。此外，Transformer[47]模型的好处在FEAT[54]中进一步探索，其中自注意力被用作集合到集合的转换，以适应支持表示。受到之前的工作的启发，我们专注于单领域设置，并提出了一种混合的集合到原型的交叉注意力策略，通过所有查询嵌入（或反之亦然）对支持集特征进行重新加权以产生共同适应的特征。具体而言，我们的方法在概念上是归纳的，但也可以考虑是转导的，因为使用了与之前的工作[3,57]类似的未标记查询样本。03.方法0在本节中，我们介绍少样本分类的一般问题设置及其相关的表述。接下来，我们描述了整体方法，如图2所示，并解释了注意力机制及其组成部分，包括学习目标。03.1.问题设置0概述。我们考虑标准的少样本学习问题，其中我们有一个带标签的训练集Dt，一个无标签的查询集Dq，以及来自支持集S的少量带标签示例，该支持集与查询集共享相同的标签空间。训练和查询集的标签空间不重叠，即{Yt∩Yq}=�，其中{Yt}和{Yq}分别表示训练和查询标签。因此，给定来自Dt的一组带标签的任务和一些来自支持集的示例；目标是训练一个能够推广到查询集Dq中的新任务的模型。为实现这个目标，可以采用元学习和分集训练。该方案旨在通过创建平衡的分集来模拟推理中遇到的低数据情况，从而改善泛化能力。一个分集由从支持集中采样的不相交数据点组成，其中包含少量带标签的点和用于计算每个分集的预测误差的查询集。此外，每个分集定义了一个“N-way，k-shot”任务，其中N表示每个分集中的类别数，k表示每个类别的支持示例数。145570原型基线。在原型网络的背景下[43]，目标是构建一个嵌入空间，其中的点围绕着单个原型pk∈RZ聚集0每个类别k的表示。在这里，目标是学习一个嵌入函数Fθ(x): x∈RH×W×C→RZ0将输入转换为z维向量。为了传达类别的描述作为元数据，每个类别的原型pk被定义为该类别中所有嵌入样本的平均值：0pk = 10|Sk|0(xi,yi)�Sk Fθ(xi), (1)0其中Sk表示类别k的样本。为了获得查询样本xq的类别概率分布，使用原型到查询的距离的softmax函数：0pθ(yi=k|xq) = exp(0k′ exp(-d(Fθ(xq), pk′)), (2)0其中，d(∙)是查询和原型之间的距离函数。因此，pθ(yi=k|xq)用于为每个采样任务分配正确的类别，并且模型学习在每个任务的查询样本上最小化预测误差。尽管在实践中有效，但我们认为原型嵌入不适合学习具有区分性的模型。由于池化操作中的Sk中的每个元素都是独立处理的（即通过平均值），可能会丢失它们之间的相互作用信息，使模型难以学习到鲁棒的嵌入。接下来，我们将描述如何通过使用自注意力的Transformer风格的集合到原型函数来共同适应嵌入。03.2. 实例嵌入适应0为了使支持集和查询嵌入 x s 和 x q进行协同适应，我们引入了一个额外的步骤，即使用自注意力进一步转换初始嵌入。在这里，注意力被用来找到在 x s和 x q中要关注的相关特征，只考虑判别性特征相似性，从而使我们能够重新加权特征。形式上，令 z q = F θ (x q) 和 z s =F θ (x s)分别表示在倒数第二层之后的初始查询和支持嵌入，每个嵌入的向量维度为 m，即 z ∈ Rm。我们的目标是获得适应后的嵌入 z ′ q 和 z ′ s。0自注意力。在Vaswani等人的工作[47]及其相关扩展中，Lee等人[23]针对基于集合的任务，使用了一个度量查询向量 Q 与键值对 K ∈ R n × m 和 V ∈ R n × m之间相似性的注意力函数 φ(Q, K, V)。0通过：0φ(Q, K, V) = softmax(QK T)0√ m ) V. (3)0具体而言，Vaswani等人[47]提出的公式被扩展为一个多头注意力块（MAB），其中向量 Q、K、V 首先被投影到 h个不同维度的向量上。在这种情况下，φ(Q, K, V) 变为φ(QW Q j, KW K j, VW Vj)，每个变换都有自己的可学习参数W。在这个设置中，每个 W 可以由函数 f q θ、f k θ 和 f vθ 建模，另外，一个附加的函数 f o θ 接受 φ的输出，并添加残差，然后进行层归一化操作。数学上表示为：0φ o = φ(Q, K, V) + Q, (4)0MAB h(Q, K, V) = Φ(φ o + γ(f o θ(φ o))) (5)0其中 γ 是ReLU函数，φ o是在应用注意力到查询键值对后，通过使用函数 f q,k,v θ对各个特征进行投影得到的输出，以及 Q 的连接。MAB h定义了一个单独的注意力块（h =1），其中包含一个可选的归一化层Φ。值得注意的是，这里使用的 Q 表示与 MAB h模块中的特征相关，应与few-shot设置中的查询的概念分开考虑。0图3. 嵌入适应的示意图。 (a) 对于查询特征，Q = z s，K = V = zq，其中 p k 和 p q 是通过支持集和查询之间的平均注意力得分与V 的点积获得的支持和查询原型。(b)：支持特征通过设置 Q = z q和 K = V = z s 进行修改。最后，n 表示类别的数量，q表示查询的数量。0与MAB的交叉适应。在这项工作的背景下，为了使特征相对于其他特征进行适应，我们将两个特征视为-ˆφo = φ(Q, K, V) + K,(6)MABh(Q, K, V) = Φ( ˆφo + γ(f oθ ( ˆφo))).(7)ˆpk =1|Sk|�(xi,yi)∼Skz′s,(8)pθ(yi = k|xq) =exp(−d(z′q, ˆpk))k′ exp( d(z′q, ˆpk′)).(9)Comparison with State-of-the-Art Methods.Tables 1and 2 compare the proposed method with current state-of-the-art few-shot methods [19, 20, 52, 54, 55]. Our ap-proach shows consistent improvements over several meth-ods in all evaluated settings.Notably, we observe sig-145580方面：(i) 支持-查询，(ii)查询-支持，如图3所示。对于情况(i)，我们使用注意力模块作为 MAB h(z s, z q, z q)（图3(a)），其中支持特征 z s被视为查询（Q），初始查询嵌入 z q是键值对。对于情况(ii)，应用相反的操作，即 MAB h(z q,z s, zs)（图3(b)）。直观上，这应该产生通过注意力加权的嵌入，以反映特征相似性，从而获得 z ′ s = MAB h(z q, z s, z s)和 z ′ q = MAB h(z s, z q, zq)。需要注意的是，Lee等人[23]在执行基于集合的任务中的注意力池化时，使用了公式4和公式5，通过将 Q设为可学习参数，即 (K ∈ R n × k × m, V ∈ R n × k ×m) 是一组特征，Q = W ∈ R n × m是从正态分布初始化的张量，用于产生一个汇总张量 O ∈ Rn × m，其中 n 是批次维度，k是集合中的样本数。这种方法已被证明在直接使用平均值时产生更好的汇总嵌入。在这项工作中，由于few-shot输入在元设置中包含 q 个查询和 k个支持集中的样本，因此使用公式4和公式5会导致张量形状不匹配。为了解决这个问题，我们修改了公式4和公式5，如下所示：0此外，注意 φ ( ∙ )对于查询-支持和支持-查询会产生不同的注意力分数，即 As ∈ R n × q × k 和 A q ∈ R n × k × q 对于 k-shot 和 q查询样本。因此，在每个设置中，我们对 k 或 q取平均值以获得最终的分数。例如，在支持适应中，这意味着我们获得 A s ∈ R n × 1 × k，并与 V进行点积以产生原型嵌入，查询样本同理。支持/查询原型反映了后续添加到初始 K中的相关特征，以获得最终的嵌入。因此，通过以下方式获得适应的支持嵌入的原型：0并且类别的分布是：0为了优化骨干网络和提出的模块，我们按照Prototypicalnetworks（仅归纳）中提出的标准设置训练模型，使用交叉熵损失来最小化任务中查询预测错误的负距离。在推理过程中，所有模块都按原样使用，保持训练阶段的设计，不省略任何组件。04. 实验0在本节中，介绍了使用的数据集的详细信息以及实现设置。我们在标准的few-shot基准测试上评估了我们提出的方法，并与最新的最先进方法进行了比较。0数据集。为了验证提出的方法，我们在两种情况下进行fewshot分类：通用对象识别和细粒度图像分类。为此，我们使用mini ImageNet [ 8 ,036 ], tiered ImageNet [ 38 ], CIFAR-FS [ 5 ], andCUB-200- 2011 [ 49 ]数据集。miniImageNet由ImageNet [ 8]的100个对象类的子集组成，每个类别有600张图片。我们遵循Ravi等人提出的设置[ 36]，分别随机选择64个基类、16个验证类和20个新类。tieredImageNet是ImageNet的一个更大的子集，具有351/97/160个训练/验证/测试子类，来自20/6/8个超类。由于超类的分割是不重叠的，因此这是一个更具挑战性的数据集，需要更好的泛化能力。CUB-200-2011由200个类别和总共11788张图片组成。根据Hilliard等人的协议[ 17]，该数据集随机分为100个基类、50个验证类和50个新类。CIFAR-FS是基于CIFAR-100构建的，有100个类别，每个类别包含600张图片。我们使用与Bertinetto等人相同的64/16/20的划分[ 5 ]。0实现细节。根据最近的工作[ 19 , 20 , 55]，我们采用ResNet12 [ 16]作为骨干网络。骨干网络以尺寸为84×84的图像作为输入，并在全局池化后产生嵌入 z q,s ∈ R 640。我们在“5-way 1-shot”和“5-way5-shot”的设置下训练我们的模型，使用标准的归一化和数据增强技术，与之前的工作[ 20]相同。此外，我们的注意力块在适应步骤之间共享，并且只使用一个头（h=1），完全连接层的维度设置为640，d(∙)是欧几里得函数。在训练过程中，使用学习率为0.003的Adam优化器，没有衰减或调度。1-shot模型训练了300个epoch，每个epoch采样了200个任务，总共60000个任务。另一方面，5-shot模型训练了200个epoch，总共40000个任务，与Chen等人[ 7]类似。在评估过程中，我们在每个episode中对每个类别进行了15个查询样本的元测试，并报告了95%置信区间内的平均准确率，共随机抽取了2000个测试episode。miniImageNettieredImageNetMethodBackbone1−shot5−shot1−shot5−shotProtoNet [43]ResNet1262.39±0.2180.53±0.1468.23±0.2384.03±0.16MetaOptNet [24]ResNet1262.64±0.8278.63±0.4665.99±0.7281.56±0.53SimpleShot [51]ResNet1862.85±0.2080.02±0.14--MatchNet [48]ResNet1263.08±0.8075.99±0.6068.50±0.9280.60±0.71RFS-simple [45]ResNet1262.02±0.6379.64±0.4469.74±0.7284.41±0.55S2M2 [32]ResNet3463.74±0.1879.45±0.12--NegMargin [28]ResNet1263.85±0.8181.57±0.56--CTM [26]ResNet1864.12±0.8280.51±0.1368.41±0.3984.28±1.73CAN [19]ResNet1263.85±0.4879.44±0.3469.89±0.5184.23±0.37DeepEMD [55]ResNet1265.91±0.8282.41±0.5671.16±0.8786.03±0.58FEAT [54]ResNet1266.78±0.2082.05±0.1470.80±0.2384.79±0.16RENet [20]ResNet1267.60±0.4482.58±0.3071.61±0.5185.28±0.35FRN [52]ResNet1266.45±0.1982.83±0.1372.06±0.2286.89±0.14EPNet [39]ResNet1266.50±0.8981.06±0.6176.53±0.8787.32±0.64Dist-Calib [53]WRN2868.51±0.5582.88±0.4278.19±0.2589.90±0.41SLK-MS [57]ResNet1873.1082.8279.9986.55EPNet [39]WRN2870.74±0.8584.34±0.5378.50±0.9188.36±0.57SLK-MS [57]WRN2875.1784.2881.1387.69OursResNet1277.56±0.7287.68±0.5777.55±0.7490.73±0.54Table 1. Few-shot classification accuracy on miniImageNet and tieredImageNet in the 5-way k-shot setting (mean accuracy in a ±95%confidence interval is reported)MethodBackbone1−shot5−shotCosine [7]ResNet3468.00±0.8384.50±0.51MatchNet [48]ResNet1271.87±0.8585.08±0.57NegMargin [28]ResNet1872.66±0.8589.40±0.43S2M2 [32]ResNet1871.81±0.4386.22±0.53S2M2 [32]ResNet3472.92±0.8386.55±0.51FEAT* [54]ResNet1273.27±0.2285.77±0.14DeepEMD [55]ResNet1275.65±0.8388.69±0.50ProtoNet [43]ResNet1266.09±0.9282.50±0.58RENet [20]ResNet1279.49±0.4491.11±0.24SLK-MS [57]ResNet1881.8888.55EPNet [39]ResNet1282.85±0.8191.32±0.41FRN [52]ResNet1283.55±0.1992.92±0.10OursResNet1282.95±0.6790.80±0.51(a) Results on CUB-200-2011 dataset.MethodBackbone1−shot5−shotCosine [7]ResNet3460.39±0.2872.85±0.65S2M2 [32]ResNet1863.66±0.1776.07±0.19S2M2 [32]ResNet3462.77±0.2375.75±0.13ProtoNet [43]ResNet1272.20±0.7083.50±0.50MetaOptNet [24]ResNet1272.80±0.7085.00±0.50Boosting [13]WRN2873.60±0.3086.00±0.20RENet [20]ResNet1274.51±0.4686.60±0.32OursResNet1279.97±0.7294.13±0.41(b) Results on CIFAR-FS dataset.Table 2. Few-shot classification accuracy on CUB-200-2011 andCIFAR-FS in the 5-way k-shot setting (mean accuracy in the±95% confidence interval).“*” : denotes results reproducedby [20].nificant gains in both 1- and 5-shot settings, highlight-ing the effectiveness of our approach despite its simplic-ity. For example, on miniImageNet, our approach shows+3% and +4% gain in 1-shot and 5-shot settings over thebest method. We observed similar results on the challeng-ing tieredImageNet with +1% gains, except for CUB whereour approach shows results on par with current state-of-the-art methods. While closely related method RENet [20]employs spatial relational learning of query/support fea-tures, our technique solely benefits from discriminative co-adaptation to enhance performance. Recent work FRN [52]equally shows competitve performance, however FRN re-formulates few-shot classification to leverage reconstruc-tion of related features, and requires a two-stage processwith pre-training followed by episodic fine-tuning. In con-trast, our approach can be trained end-to-end from scratchwith episodic training.145590如表2所示，我们的方法与相关方法FEAT[54]相比具有很强的竞争力。请注意，FEAT是另一种仅利用支持样本的自注意力的迁移学习方法，并在情节训练步骤中使用额外的正则化项。结果验证了我们最初的假设，即仅通过判别学习仍然可以显示出对现有基线的改进。另一方面，虽然我们的方法在CUB-200上没有报告最佳结果，但与最佳方法FRN相当，并在CIFAR-FS上取得了最佳性能（≈5%）。此外，虽然像Boosting[13]这样的方法使用自监督和辅助损失以及额外的无标签样本进行半监督少样本学习，但我们表明较小的骨干网络仍然具有竞争力。MABShMABQhMAB∗h1-shot5-shot✓✗✗56.00±0.7985.10±0.61✗✓✗76.33±0.7380.10±0.74✗✗✓56.01±0.8679.94±0.72✓✓✗77.56±0.7287.68±0.571456005.消融研究0在本节中，我们通过分析省略某些组件/模块对模型性能的影响，以及研究具有挑战性的跨领域泛化设置，进一步验证了提议方法的有效性。此外，我们还对提议的注意力策略在原型基线中的好处进行了定量评估。05.1. 改进的原型基线0模型骨干网络 1-shot 5-shot0ProtoNet* [43] ResNet12 51.61 ± 0.44 72.28 ± 0.36ProtoNet** w/ Eq. 6 ResNet12 59.57 ± 0.61 84.29 ± 0.400表3. 在miniImageNet数据集上，标准ProtoNet基线和使用自注意力的ProtoNet在5-wayk-shot情景下的性能比较。“*”表示复现的结果，“**”表示使用提议方法的非参数版本的模型，遵循公式6。0表3总结了在ProtoNet[43]中采用提议的嵌入交叉适应的好处。我们使用提议方法的非参数版本重新训练ProtoNet模型，即不使用全连接层f_qθ，f_kθ，f_vθ和f_oθ。特别是，在全局平均池化之后，我们直接应用公式6进行支持-查询和查询-支持的自适应，不使用ReLU或标准化层。结果表明，简单地重新加权特征是有益的，特别是在5-shot情景下观察到了更大的收益。05.2. 跨领域少样本分类0模型骨干网络 1-shot 5-shot0ProtoNet* [43] ResNet18 - 62.02 ± 0.70 SimpleShot* [51]ResNet18 48.56 65.63 MatchNet* [48] ResNet10 36.61 ±0.53 55.23 ± 0.83 NegMargin* [28] ResNet18 - 69.30 ±0.70 MetaOptNet* [24] ResNet12 44.79 ± 0.75 64.98 ±0.68 ASL [1] ResNet18 46.85 ± 0.75 70.37 ± 1.02 FRN [52]ResNet12 54.11 ± 0.19 77.09 ± 0.150我们的方法 ResNet12 74.10 ± 0.75 86.37 ± 0.600表4. 跨领域设置下的性能比较：mini ImageNet →CUB-200-2011在5-way k-shot情景下。“*”表示[52]的结果。0在表4中，我们评估了miniImageNet到CUB的具有挑战性的跨领域设置。按照Chen等人[7]提出的划分，我们仅在miniImageNet上训练我们的模型{base+val+test}，并在CUB测试集上进行元测试。我们报告了与相关方法相比的显著改进，特别是在1-shot情景下。我们的直觉是0在跨领域设置中，通过避免注意力分散的特征，通过特征的交叉适应可以更好地实现泛化。05.3. 自注意力模块的影响0表5. 使用ResNet12在miniImageNet上评估提议方法中注意力模块的贡献。MAB �h表示仅在查询和支持特征上使用自注意力，即z′s = MABh(zs, zs,zs) & z′q = MABh(zq, zq, zq)。MAB S h表示支持适应：z′s =MABh(zq, zs, zs)，而MAB Q h表示查询适应z′q = MABh(zs, zq,zq)。0在这里，我们以共享注意力模块MAB h的交叉关系方式评估共同调整特征的好处。表5显示了分解我们提出的方法以评估省略或包含其中一个组件的效果的平均准确性。当仅在支持样本上使用自注意力，即MAB S h时，性能显著下降，特别是在1-shot设置中，结果低于现有的最先进基线，而不是更高的5-shot准确性，这可能意味着对于原型生成样本数量的敏感性。有趣的是，仅自适应查询（MAB Q h）显示了一致的结果，但在5-shot设置中略低于提出的方法。最后，我们评估仅使用自注意力的好处，类似于FEAT[54]。然而，我们的实现仅应用支持-支持和查询-查询（MAB � h），而没有任何自适应，也没有在学习目标中使用正则化项。我们的研究结果表明，仅自注意力并不能改善基线模型，如ProtoNet（表1），并且在极端的1-shot设置中也存在问题。05.4.定性结果0通过分支的注意力分数交叉适应特征的效果如图4所示。我们在mini ImageNet上随机选择了一个任务，并在5-way5-shot设置中变化了查询图像的数量，即{1, 2,3}个查询图像，每个查询图像有5个支持图像。对于（a），单个查询的注意力分数在自适应中没有影响，因为它只有一个样本。我们观察到我们的方法对最相似的支持样本增加了更多权重，并降低了具有极端不同背景或颜色的样本的权重。此外，在（b）中，由于存在距离较远的多个对象（支持图像w/0.08），较少145610图4.注意机制的示意图。（a）使用单个查询图像在mini ImageNet测试集上随机选择的任务的5-way5-shot模型对支持集的注意力分数。（b）对于每个任务，使用2个查询图像，每个查询图像相对于支持样本进行重新加权的分数，以及（c）使用3个查询图像的分数。0（a）（b）（c）（d）0图5.特征的TSNE。顶行仅显示全局池化后的基本特征，而底行显示在mini ImageNet上使用5-way5-shot模型进行自适应后的特征。（a），（b）和（c）是测试集中5、10和20个类别的嵌入。最后，（d）是训练集中30个随机类别的嵌入。0给定权重。有趣的是，模型对具有野狗近景的查询进行了惩罚。当查询图像增加时，我们观察到类似的趋势，如情况（c）;仅具有框的查询被等权重加权，而具有狗的查询被惩罚。鉴于我们的方法没有明确使用视觉对应关系来重新加权特征，这表明了我们方法的可行性和鲁棒性。在图5中，我们展示了自适应

下载后可阅读完整内容，剩余1页未读，立即下载