细粒度少样本分类任务中的任务差异最大化方法

94 浏览量更新于2023-10-26 收藏 12.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

62.90%63.46%69.94%53310细粒度少样本分类的任务差异最大化0SuBeen Lee，WonJun Moon，Jae-PilHeo *成均馆大学0{ leesb7426, wjun0830, jaepilheo } @skku.edu0摘要0识别细粒度类别的区别细节，如眼睛和喙，对于区分细粒度类别非常重要，因为它们具有相似的整体外观。在这方面，我们引入了任务差异最大化（TDM），这是一个用于细粒度少样本分类的简单模块。我们的目标是通过突出显示编码类别不同信息的通道来定位类别相关的区域。具体而言，TDM基于两个新组件学习任务特定的通道权重：支持集注意力模块（SAM）和查询集注意力模块（QAM）。SAM为每个类别生成一个支持权重，以表示每个类别的通道级别的区分能力。然而，由于SAM基本上只基于标记的支持集，它可能对这种支持集产生偏见。因此，我们提出了QAM，它通过产生一个查询权重来补充SAM，为给定的查询图像赋予更多的权重以用于与对象相关的通道。通过结合这两个权重，定义了一个类别特定的任务特定通道权重。然后将这些权重应用于产生更加关注区分细节的任务自适应特征图。我们的实验证实了TDM的有效性以及与细粒度少样本分类中的先前方法相比的互补优势。01. 引言0随着深度学习的进步，在各种下游任务中，它已经取得了超越人类的显著性能[5,10]。然而，这种性能的实现有一个强烈的假设，即需要大量标记的图像。如果标记图像的数量不足，性能会急剧下降[3,8,38]。为了解决由于标记图像不足而导致的性能下降，并减少标记成本，计算机视觉界最近更加关注少样本分类[8, 34,38]。简而言之，少样本分类的目标是训练一个对新类具有高适应性的模型。为了实现这个目标，主要采用了剧集学习策略0*通讯作者0通道权重0(a) 现有方法0(b) 没有高方差通道0高0图1. CUB数据集中通道权重的效果。 (a)现有方法平等对待特征图的通道。在这种情况下，类内高方差通道很可能会干扰分类任务，其中通道方差表示相同类别的特征图的通道方差 -直观地说，同一类别的实例在通道上具有相似的特征，导致相应通道的低通道方差。这主要是因为很难在分类标准中对特征达成共识。(b)然而，在细粒度数据集中，仅仅移除每个类别的高方差通道只会带来微小的改进。这是因为类别共享相似的特征，例如CUB数据集中的羽毛和翅膀，因此低方差的通道可能不具有区分性。因此，在细粒度数据集中，我们应该根据每个通道是否反映不同的特征来赋予不同的权重。(c)TDM通过在剧集中发现每个类别的区分性通道来产生每类通道权重。请注意，方框中的数字是分类准确率。0在数据集中使用，其中每个剧集由数据集中的采样类别组成。此外，每个类别都有一个用于训练的支持集和一个用于评估的查询集。基于度量的学习流是一种有前途的少样本分类方法。这些方法[16, 34, 35,38]使用预定义的度量或在线训练的度量来学习深度表示。具体而言，基于这种度量，在查询集和支持集之间的距离上执行查询的推理。然而，由于特征提取器对基类的分布中的语义区分变化非常敏感并激活，因此由在基类上训练的模型提取的新类的特征很难形成紧密的聚类[32,46]。为了缓解这个问题，最近的方法53320利用基础知识[20, 46]或提出任务动态特征对齐策略[7, 12,14, 33, 42, 44,45]。在这两种策略中，任务动态特征对齐方法备受关注。任务动态特征对齐方法可以进一步分为两个主要流派：空间对齐和通道对齐。空间对齐方法[7, 12, 14, 42, 42,44]旨在解决不同实例特征图之间的空间不匹配问题。另一方面，通道对齐方法[14, 33, 44,45]修改特征图以更好地表示新类别的语义特征。尽管这些对齐方法在一般few-shot分类任务上被证明是有效的，但它们在细粒度数据集上的增益微不足道。这主要是因为它们只关注描述新对象的特征，这在这样的任务中可能不具有区分性。事实上，对于细粒度分类来说，定位有区分性的细节很重要，因为类别共享相似的整体外观。因此，对于细粒度few-shot分类，也应该发现每个类别的独特线索。在图1(c)中，我们验证了通过通道权重定位对象的有区分性细节对于细粒度few-shot任务是有效的。在这个背景下，我们引入了新的任务差异最大化(TDM)模块，它通过为每个类别加权通道来定位有区分性的区域。TDM突出显示代表有区分性区域的通道，并根据类别通道权重限制其他通道的贡献。具体而言，TDM由两个组件组成：支持集注意力模块(SAM)和查询集注意力模块(QAM)。给定一个支持集，SAM输出每个类别的支持权重，表示在有区分性通道上的高激活。另一方面，QAM接收查询集以产生每个实例的查询权重。查询权重用于突出与对象相关的通道。为了推断这些权重，考虑每个特征图与平均通道池化特征之间的关系。注意，通道池化的平均特征图具有对象的空间信息[22,43]，如图2所示。因此，当通道与空间平均特征图相似时，它们很有可能表示对象。通过结合从我们的子模块计算得到的两个权重，最终定义了一个任务特定的权重。因此，任务特定的权重用于生成任务自适应特征图。我们的主要贡献总结如下：0•我们提出了一种新颖的特征对齐方法TDM，用于细粒度few-shot分类中定义类别通道重要性。0• 我们提出的TDM对于先前基于度量的few-shot分类模型具有很高的适用性。0• 当与最近的few-shot分类相结合时0输入GAP GMP0CUB数据集飞机数据集0输入GAP GMP0图2.池化结果的可视化。每一列显示了每种池化方法在图像上聚焦的位置。第二列和第三列分别可视化了平均池化和最大池化的结果。GAP倾向于集中在图像中的对象部分，而GMP则经常不集中。0模型，TDM在细粒度few-shot分类任务中实现了最先进的性能。02. 相关工作02.1. Few-Shot分类0Few-shot分类的方法可以分为两个主要流派：基于优化和基于度量。优化方法的概念在MAML[8]中被引入，用于学习可以轻松适应的良好初始条件。Meta-LSTM[31]采用基于LSTM的元学习器，不仅适用于一般的初始点，还适用于有效的微调。MetaOptNet[19]采用凸基学习器，并为端到端学习提供了一个差异化过程。优化方法表现出可比较的性能，但它们需要对新类别进行在线更新。度量方法通过利用预定义的度量[16, 34,38]或在线训练的度量[35]来学习深度表示。MatchNet[38]使用外部存储模块来增强神经网络，并通过余弦相似度推断查询集的类别。ProtoNet[34]使用支持集中每个类别的平均特征形成原型，并利用它们计算查询与每个类别之间的距离。RelationNet[35]利用模型学习的距离度量而不是预定义的度量。度量方法通常学习减少类别内实例之间的距离，而我们的目标与之相同，因为TDM是它们的一个模块。然而，TDM能够通过动态识别有区分性的通道来基于自适应通道权重计算距离，而之前的技术将所有通道视为相等。02.2. 特征对齐0特征对齐方法可以分为空间对齐和通道对齐两类。空间对齐方法[7, 12, 14, 42, 44,47]认为支持集和查询集中的对象位置差异导致性能下降。CAN [12]通过计算交叉注意力图来计算𝑭𝟏𝑺𝑭𝟐𝑺𝑭𝑸𝒘𝟏𝑺𝒘𝟐𝑺𝒘𝑸𝑭𝟏𝑺𝑭𝑸𝑭𝟐𝑺𝑨𝟐𝑸𝑨𝟐𝑺𝑨𝟏𝑺𝑨𝟏𝑸𝒘𝟏𝑻𝒘𝟐𝑻53330支持注意力模块0查询0注意力模块0查询支持0LI0LI0(C x H x W)0(C x 1 x 1) (C x 1 x 1) (C x H x W)0图3.我们方法的概述。任务差异最大化由两个子模块组成。每个子模块接收特征图F并生成通道权重w。支持注意力模块利用支持实例的特征图作为输入，为每个类别找到有区别性的通道。然后，它产生一个支持权重wSi，其中权重在这些通道中具有较高的值。另一方面，查询注意力模块接收查询实例并发现与查询相关的通道。然后，查询注意力模块产生一个查询权重wQ，强调具有关于查询对象信息的特定通道。这两个子模块的权重通过线性组合进行整合，为每个类别定义一个任务权重wTi。最后，通过将任务权重与原始特征图相乘，得到集中于有区别性区域的任务自适应特征图。0每对类别和查询特征图之间的相关性，以突出显示定位对象的共同区域。CTX[7]通过注意力机制[2]在查询实例和支持集之间找到粗略的空间对应关系，为每个类别生成一个与查询对齐的原型。FRN[42]通过利用岭回归的闭式解来重构支持集的特征图到查询实例。通道对齐方法[14, 33, 44,45]操作特征图以能够表示新类别。FEAT[45]通过采用变换器[25,37]增加支持集中类别之间的距离。DMF[44]通过具有位置和通道特定支持知识的动态元滤波器对查询实例的特征图进行对齐。RENet[14]通过捕捉每个图像的结构模式来转换特征图的自相关。TDM也处理特征对齐。与通常考虑支持图像和查询图像之间的成对关系的现有方法不同，TDM考虑整个任务。03. 方法0我们方法的整体架构如图3所示。给定由支持实例和查询实例组成的一个episode，首先通过特征提取器计算特征图。然而，由于特征提取器是训练用于找到用于分类基类的有区别的特征，因此特征图对于每个episode来说并不是最优的[32,45,46]。TDM通过利用表示通道间有区别能力的任务特定权重来转换特征图，以此来优化每个episode的特征图。0特定任务。因此，我们的目标是通过将原始特征图细化为任务自适应特征图，专注于有区别性细节。在本节中，我们介绍TDM的组成部分及其目的。首先，在第3.1节中，我们对问题进行形式化。在第3.2节中，我们定义了两个代表性得分来产生通道权重。然后，在第3.3节和第3.4节中，我们分别描述了TDM的两个模块：SAM和QAM。最后，在第3.5节中描述了TDM，并在第3.6节中进行了讨论。03.1. 问题的形式化0在标准的少样本分类中，我们有两个数据集：元训练集Dbase = {(xi, yi), yi ∈ Cbase}和元测试集Dnovel = {(xi, yi), yi∈Cnovel}。Cbase和Cnovel分别表示基类和新类，它们不重叠（Cbase ∩ Cnovel =ϕ）。一般来说，少样本分类的训练和测试由episode组成。每个episode由随机抽样的N个类别组成，每个类别由K个标记图像和U个未标记图像组成，即N-way K-shotepisode。标记图像称为支持集S = {(xj,yj)}N×Kj=1，未标记图像称为0查询集 Q = { ( x j , y j ) } N × U j =1，两个集合是不相交的（ S ∩ Q = ϕ）。支持集和查询集分别用于学习和测试。03.2. 通道代表性分数0对于每对第 i 个类别和第 c个通道，我们定义两个通道的代表性分数；内部分数 R intra i,c和外部分数 R inter i,c 。在解释分数之前，我们首先F Si,j = gθ(xSi,j)F Q = gθ(xQ),(1)F Pi= 1KF Si,j.(2)M Pi = 1Cf Pi,j.(3)Rintrai,c =1HW ∥ f Pi,c − M Pi ∥2 .(4)Rinteri,c =1H × Wmin1≤j≤N,j̸=i ∥ f Pi,c − M Pj ∥2 .(5)(C x 1 x 1)(C x H x W)(C x 1 x 1)(C x 1 x 1)𝑭𝟏𝑺𝑭𝟐𝑺𝒘𝟏𝑺𝒘𝟐𝑺𝒘𝟏𝑰𝒏𝒘𝟐𝑰𝒏𝒘𝟏𝑰𝒏𝒘𝟐𝑰𝒏FCBFCBFCB𝑹𝟏𝑰𝒏𝑹𝟐𝑰𝒏𝑹𝟏𝑰𝒏𝑹𝟐𝑰𝒏IntraScoreInterScoreIntraScoreLILIintraintrainterinterintraintrainterinter(6)wSi = αwintrai+ (1 − α)winteri, α ∈ [0, 1].(7)𝑭𝑸IntraScore𝒘𝑸𝑸𝑹𝑸𝒕𝒓𝒂FCB(C x H x W)(C x 1 x 1)(C x 1 x 1)intraRintraQ=1HW ∥ f Qc − M Q ∥2,(8)53340定义支持和查询实例的特征图 F 如下：0其中 x S i,j 是第 i 个类别中的第 j 个实例，x Q是查询实例，g θ 是由 θ 参数化的特征提取器。每个特征图F ∈ R C × H × W，其中 C、H 和 W分别表示通道数、高度和宽度。此外，我们使用原型 [34]作为每个类别的代表。第 i 个类别的原型 F P i 计算如下：0K×0对于每个类别，我们首先计算一个平均空间特征来表示显著的目标区域。当第 i 个类别的原型的第 c 个通道表示为 f Pi,c ∈ R H × W 时，相应的平均空间特征 M P i 计算如下：0C×0基于此，我们进一步计算在一个类别内定义的通道代表性分数，R intra i,c ，对于第 i 个类别的第 c个通道，计算如下：0该分数表示通道上高度激活的区域与由平均空间特征表示的类别显著区域的匹配程度。另一方面，对于第 i 个类别的第c 个通道，跨类别的通道代表性分数 R inter i,c 定义如下：0它表示第 c个通道包含每个类别的不同信息的程度。直观地说，当通道的内部分数越小，外部分数越大时，通道的区分度越高。我们利用这两个分数来定义通道权重。03.3. 支持注意力模块（SAM）0图 4. 支持注意力模块的示意图。0对于每个类别，我们的支持注意力模块（SAM）以类别原型作为输入，首先根据公式（4）和公式（5）计算两个通道的代表性分数。我们将这两个分数转换为两个权重，w intra i和 w inter i ，用于第 i 个类别，计算如下：0w intra i = b intra0w inter i = b inter0其中 b intra 和 b inter 是不同的全连接块。块的结构在表 1中报告。第 i 个类别的支持权重向量 w S i由相应的两个权重 w intra i 和 w inter i的线性组合以平衡超参数 α 定义如下：0第 i 个类别的支持权重向量 w S i 强调第 i个类别的有区分性的通道，同时抑制与该类别共享的公共信息对应的通道。当我们将第 i 个类别的支持权重向量 w S i乘以特征图时，第 i个类别的实例应该被聚集在一起，而其他类别的实例则与第 i个类别分离。03.4. 查询注意力模块 (QAM)0图 5. 查询注意力模块的示意图虽然支持权重向量对于区分类别相关的通道很有用，但我们也鼓励利用查询集来克服少样本学习中的数据稀缺性。为了与 SAM具有互补的优势利用查询集，我们提出了查询注意力模块(QAM)。由于查询实例没有标签信息，QAM仅利用实例内通道之间的关系。通过利用由查询特征图 F Q的通道均值定义的平均空间特征 M Q，我们计算查询实例的通道-wise 代表性分数 R intra Q，对于第 c 个通道，计算如下：0其中，f Q c 表示查询特征图的第 c个通道。然后，通过将内部分数 R intra Q 传递给完全连接块 bQ ，生成查询权重 w Q ，如表 1 中所述。0w Q = b Q ÷ R intra Q ÷ . (9)0查询权重向量突出显示查询实例中与对象相关的通道，同时抑制其他通道。因此，查询权重向量帮助模型专注于对象相关信息。wTi = βwSi + (1 − β)wQ,β ∈ [0, 1].(10)ASi,j = wTi ⊙ F Si,jAQi = wTi ⊙ F Q,(12)53350完全连接块0层输出大小0输入 B × C0全连接层 B × 2C0批量归一化 B × 2C0全连接层 B × C0表 1. 完全连接块的架构。当用于支持注意力模块时，批量大小 B是一个 episode 中包含的类别数。在查询注意力模块中，B是查询的数量。03.5. 任务差异最大化 (TDM)0由于 SAM 和 QAM计算的支持和查询权重向量在目的上互补，我们使用它们来产生任务权重向量。具体而言，第 i 类的任务权重向量 w T i定义为相应的支持和查询权重向量 w S i 和 w Q的线性组合，其中超参数 β 如下所示：0然后，所有支持和查询实例的特征图都通过任务权重向量进行转换。具体而言，每个特征图 F ∈ R C × H × W都通过任务权重向量 w T i ∈ R C 进行通道-wise缩放，得到任务自适应特征图 A ，如下所示：0A = w T i ⊙ F = ÷ w T i, 1 f 1 , w T i, 2 f 2 , ..., w Ti,C f C ÷ , (11)0其中，w T i,j 是向量 w T i 的第 j 维的标量值，特征图 F的第 c 个通道表示为 f c ∈ R H × W。支持实例的特征图通过其相应的任务权重向量 w T i进行转换。然而，由于查询的标签不可用，当我们对第 i类进行查询测试时，将任务权重向量 w T i应用于查询。因此，基于公式 ( 11)，我们计算支持实例的任务自适应特征图 A S i,j和查询实例的任务自适应特征图 A Q i ，通过任务权重向量w T i 进行转换，如下所示：0其中，i 和 j 分别表示类别索引和类别内实例索引。例如，当TDM 应用于 ProtoNet [ 34 ]时，推理过程按照以下准则进行：0p θ ( y = i | x ) = exp( − d ( A S i , A Q i )) ÷ N j=1 exp( − d ( A S j , A Q j )) , (13)0支持-1 查询0案例1。案例2。0我们的基线0支持-20图6.2D聚合特征激活在2路1-shot上。（案例1）如果嘴和翅膀在物种之间不相似，TDM认为嘴和翅膀都是有区别的。（案例2）然而，当鸟类的嘴相似时，TDM只将翅膀视为有区别的部分。0其中d表示距离度量，ASi是第i类支持实例的自适应特征图计算的原型。03.6. 讨论0通常，众所周知，包含有关对象的各种信息的特征图对于一般数据集有益[13, 21,23]。然而，在细粒度数据集中，这些特征图通常对于推断类别是有害的。相反，只关注有区别的部分是有利的，因为类别共享共同的整体外观[6, 9, 27,50]。此外，与一般细粒度分类不同，每个类别的有区别区域在少样本设置中可能因情节内容的不同而有所变化。因此，细粒度少样本分类的关键是基于非常少的实例动态发现每个类别的有区别区域。在图6中，我们观察到基线模型平等地对待所有特征，而不考虑每个情节的组成。然而，TDM能够自适应地使模型突出显示预期为有区别部分的区域，并抑制其他区域。因此，TDM是用于细粒度少样本分类的专用模块。04. 实验0在本节中，我们在标准细粒度分类基准上评估TDM。为了验证TDM的高适应性，我们将其应用于各种现有方法：ProtoNet [34]，DSN [33]，CTX [7]和FRN[42]。为了公平比较，我们无论TDM是否附加，都使用相同的超参数和实现细节重新生成每个基线模型。在每个表格中，†表示基线模型的重现版本。虽然TDM通常利用原型[34]来计算内部和间隔得分，但在CTX中，它利用查询对齐的原型[7]。53360数据集 C all C train C val C test0CUB-200-2011 200 100 50 50 飞机 100 50 25 25meta-iNat 1135 908 - 227 tiered meta-iNat1135 781 - 354 Stanford-Cars 196 130 17 49Stanford-Dogs 120 70 20 30 Oxford-Pets 37 207 100表2. 数据集的划分。C all 是总类别数，C train ，C val ，C test分别是训练、验证和测试类别数。子集的类别是不相交的。04.1. 数据集0我们使用七个少样本分类基准：CUB-200-2011，Aircraft，meta-iNat，tieredmeta-iNat，Stanford-Cars，Stanford-Dogs和Oxford-Pets。每个数据集的数据划分在表2中提供。CUB-200-2011[39]是一个包含200种鸟类的11788张照片的图像数据集。该基准可以以两种方式使用：原始形式[3]或通过人工标注的边界框的预处理形式[45,47]。为了公平比较，我们同时使用这两种设置。按照[3]的方法，我们划分了这个基准，我们的划分与[42]相同。Aircraft[28]包含100个型号的10000张飞机图像。这个基准的主要挑战是航空公司的标志相似性。尽管飞机的类型不同，但当它们属于同一家航空公司时，标志可以等效，使得更加困难。按照[42]的方法，我们基于边界框预处理了这个基准的所有图像并划分了数据集。meta-iNat [36,41]是一个逼真的、重尾的少样本分类基准。它包含1135个动物物种，涵盖13个超类别，每个类别的图像数量不平衡，范围在50到1000张之间。我们遵循[41]中介绍的数据集划分。[41]采用了一个完整的227路评估方案，每个情节同时包含所有测试类别，而我们采用了[42]中的标准5路少样本评估方案。tiered meta-iNat[41]由与meta-iNat相同的图像组成。然而，这个基准通过超类别划分数据集。测试数据集的超类别是昆虫和蜘蛛，而训练数据集的超类别是植物、鸟类、哺乳动物等。因此，训练类别和测试类别之间存在很大的领域差距。与[42]一样，我们在这个基准中也采用了标准的5路少样本评估方案。Stanford Cars[18]包含16185张196个类别的汽车图像。类别通常是年份、品牌和型号名称，例如2012年特斯拉ModelS和2012年宝马M3coupe。这个数据集由[24]引入，用于少样本分类。同样，我们采用了与[24]相同的数据划分。0模型 Conv-4 ResNet-12 1-shot 5-shot 1-shot 5-shot0MatchNet [38, 45, 47] 67.73 79.00 71.87 85.08 ProtoNet[34, 45, 47] 63.73 81.50 66.09 82.50 FEAT � [45] 68.8782.90 73.27 85.77 DeepEMD [47] - - 75.65 88.69 RENet[14] - - 79.49 91.110ProtoNet † [34] 62.90 84.13 78.99 90.74 + TDM 69.9486.96 79.58 91.280DSN † [33] 72.09 85.03 80.51 90.23 + TDM 73.38 86.0781.33 90.650CTX † [7] 72.14 87.23 80.67 91.55 + TDM 74.68 88.3683.28 92.740FRN † [42] 73.24 88.33 83.16 92.42 + TDM 74.39 88.8983.36 92.800表3. 使用裁剪的边界框图像作为输入的CUB性能。“�”表示在RENet中复现的结果。我们实现的模型的置信区间都低于0.23。0Baseline � [3] ResNet-18 65.51 ± 0.87 82.85 ± 0.55Baseline++ � [3] ResNet-18 67.02 ± 0.90 83.58 ± 0.54MatchNet � [3, 38] ResNet-18 73.42 ± 0.89 84.45 ± 0.58ProtoNet � [3, 34] ResNet-18 72.99 ± 0.88 86.65 ± 0.51MAML � [3, 8] ResNet-18 68.42 ± 1.07 83.47 ± 0.62RelatioNet � [3, 35] ResNet-18 68.58 ± 0.94 84.05 ± 0.56S2M2 � [29] ResNet-18 71.43 ± 0.28 85.55 ± 0.52Neg-Cosine � [26] ResNet-18 72.66 ± 0.85 89.40 ± 0.43Afrasiyabi et al. � [1] ResNet-18 74.22 ± 1.09 88.65 ± 0.550ProtoNet † [34] ResNet-12 78.58 ± 0.22 89.83 ± 0.12 +TDM ResNet-12 79.11 ± 0.22 90.83 ± 0.110DSN † [33] ResNet-12 80.47 ± 0.20 89.92 ± 0.12 + TDMResNet-12 80.58 ± 0.20 89.95 ± 0.120CTX † [7] ResNet-12 80.95 ± 0.21 91.54 ± 0.11 + TDMResNet-12 83.45 ± 0.19 92.49 ± 0.110FRN † [42] ResNet-12 83.54 ± 0.19 92.96 ± 0.10 + TDMResNet-12 84.36 ± 0.19 93.37 ± 0.100表4. 使用原始图像作为输入的CUB性能。“�”表示比ResNet-12更大的主干网络。0Stanford Dogs[15]也是由[24]引入的用于细粒度少样本分类的数据集。该数据集包含全球120个犬种的20,580张图片。我们的划分与[24]相同。0Oxford Pets[30]由37个宠物类别组成，每个类别大约有200张图片。由于缺乏训练图片通常会导致过拟合，因此在这个基准测试中，泛化能力对于获得高准确性至关重要。据我们所知，这个基准数据集从未被用于少样本分类。因此，我们根据其他数据集的划分比例随机划分了这个数据集。我们在补充材料中报告了划分信息。533704.2. 实现细节0架构。我们采用了最近少样本分类工作[4, 11, 17, 48,49]的常见协议；我们使用Conv-4和ResNet-12。虽然两个主干网络都接受大小为84×84的图像，但特征图的大小根据主干网络而不同。ResNet-12生成大小为640×5×5的特征图，而Conv-4提供64×5×5的特征图形状。对于我们提出的TDM，我们还使用了全连接层块，其中块的大小与特征图的通道维度成比例，如表1所述。训练细节。根据现有方法[3,40, 42, 45,47]，我们使用标准的数据增强技术，包括随机裁剪、水平翻转和颜色抖动。方程(7)和方程(10)中的α、β固定为0.5，其他参数采用了我们的基线模型[42]中的参数。更多细节请参阅补充材料。为了防止过拟合，我们在TDM的每个类别的任务权重之间添加了-0.2到0.2之间的随机噪声。评估细节。对于N-wayK-shot，我们在随机抽样的10,000个episode上进行少样本分类，每个episode包含每类16个查询样本。我们报告带有95%置信区间的平均分类准确率。04.3. 与现有方法的比较0CUB-200-2011结果。表3和表4报告了TDM和基准few-shot分类方法的结果。尽管有些情况没有超过置信区间，但我们的TDM在所有情况下都能改善基准模型的性能，并且无论骨干网络的深度如何，都能达到最先进的得分。特别是，在CUB的Conv-4的1-shot场景中，TDM在ProtoNet上的改进超过了7%。飞机结果。如表5所示，TDM在所有情况下都改善了基准模型的性能。增加的幅度超出了置信区间，无论基准模型的类型和标记图像的数量如何。因此，我们以较大的优势获得了所有基准测试的最高准确性得分。具体而言，TDM将CTX[7]在Conv-4网络上的性能提高了7%。这些结果证明了TDM的有效性。meta-iNat结果。我们在这个基准测试中验证了TDM的泛化能力。Meta-iNat容易过拟合，因为不存在验证集。然而，如表6所示，TDM不仅对过拟合问题具有鲁棒性，而且在泛化能力方面也非常强大。因此，TDM在所有基准测试中都显示出对基准模型的持续改进，特别是在ProtoNet上，TDM帮助它们保持与最先进方法相竞争的结果。分层meta-iNat结果。我们在一个更困难的配置中进一步验证了TDM的泛化能力，其中训练集和测试集的超类不重叠。具体而言，TDM在大多数情况下提高了性能。0模型Conv-4 ResNet-12 1-shot 5-shot 1-shot 5-shot0ProtoNet † [34] 47.37 68.96 67.28 83.21 + TDM50.55 71.12 69.12 84.770DSN † [33] 52.22 68.75 70.23 83.05 + TDM 53.7769.56 71.57 83.650CTX † [7] 51.58 68.12 65.53 79.31 + TDM 55.1570.45 69.42 83.250FRN † [42] 53.12 70.84 69.58 82.98 + TDM 54.2171.37 70.89 84.540表5. 飞机性能。我们实现的模型的置信区间都低于0.25。0模型meta-iNat分层meta-iNat 1-shot 5-shot 1-shot0ProtoNet † [34] 55.37 76.30 34.41 57.60 + TDM61.82 79.95 38.30 61.180DSN † [33] 60.06 76.15 40.83 58.34 + TDM 61.8778.07 41.00 58.660CTX † [7] 60.80 78.57 42.24 60.54 + TDM 63.2680.75 43.90 62.290FRN † [42] 61.98 80.04 43.95 63.45 + TDM 63.9781.60 44.05 62.910表6.使用Conv-4骨干的meta-iNat和分层meta-iNat性能。我们实现的模型的置信区间都低于0.23。0配置和在1-shot场景中实现最佳性能的同时，FRN还可以完成。对于5-shot场景中的轻微下降，FRN中的可学习参数λ负责。一般来说，当存在域差距时，较大的λ显示出良好的性能，但TDM限制λ相对较小。我们认为这是因为TDM帮助分类器集中注意力于有区分力的通道[42]。斯坦福汽车、斯坦福狗和牛津宠物的结果。与以前的基准不同，这些数据集没有在我们的基准模型中进行评估[7, 33, 34,42]。为了进一步验证TDM的有效性，我们使用Conv-4在这些细粒度数据集上进行了额外的实验。如图7所示，TDM能够提高性能，置信区间在所有情况下都不重叠，无论基准模型如何。具体而言，TDM在1-shot和5-shot场景下的准确率分别比基准模型高4.44和3.27个百分点。0通过对七个基准数据集进行广泛的实验，我们清楚地验证了TDM在细粒度few-shot分类中的优势。总结起来，我们改善了所有基准数据集中基准模型的性能，除了一种情况：在分层meta-iNat的5-shot场景中，FRN的性能。40455055606570707376798285884043464952555864666870727476384144475053565760636669727553380分类准确率（%）0基线 TDM0基线 TDM0(a) Standford Cars0■ ProtoNet ■ DSN ■ CTX ■ FRN0基线 TDM0基线 TDM0(b) Standford Dogs0基线 TDM0基线 TDM0(c) Oxford Pets0图7.其他数据集上的准确率。每个数据集的左图和右图分别显示了1-shot准确率和5-shot准确率。图的左侧报告了基线模型的性能，而右侧显示了使用TDM的性能。基线方法用颜色区分。0SAM QAM CUB裁剪飞机 1-shot 5-shot 1-shot5-shot0- - 62.90 84.13 47.37 68.96 � - 68.53 85.95 49.4569.33 - � 65.11 84.82 48.96 70.85 � � 69.94 86.9650.55 71.120表7. SAM和QAM的效果。05. 消融研究0我们在CUB裁剪和飞机数据集上使用ProtoNet[34]对Conv-4骨干网络进行了消融研究。05.1. 子模块的效果0表7报告了TDM的子模块的效果。我们观察到，SAM和QAM都能够持续提高分类准确性。如第二行和第四行所示，SAM将基线提高了高达11%。这个巨大的提升证实了为每个类别识别判别通道对于细粒度少样本分类至关重要。此外，尽管QAM的改进略低于SAM，但QAM在所有情况下都显示出有效性。我们认为这是因为与对象相关的通道并不总是表示判别通道。更重要的是，当两个子模块结合时，性能可以进一步提升。这证实了两个子模块互补的关系。05.2. 池化函数的选择0我们还研究了池化函数的效果，如表8所述。如第二行和第三行所报告的，两种池化方法都提高了性能，因为它们能够表示对象的细节。然而，如图2所示，最大池化函数在噪声方面存在局限性。因此，我们采用平均池化函数来预测判别通道。05.3. 度量兼容性0根据我们的基线[7, 33, 34,42]，我们使用欧氏距离来进行TDM。由于TDM与其他度量兼容，我们使用余弦距离来评估它。如表9所报告的，TDM改进了基线。这证实了它的有效性。0TDM池化 CUB裁剪飞机 1-shot 5-shot 1-shot 5-shot0- - 62.90 84.13 47.37 68.96 � 最大 67.23 86.73 50.1671.32 � 平均 69.94 86.96 50.55 71.120表8. 池化函数的效果。顶行是基线结果。0TDM CUB裁剪飞机 1-shot 5-shot 1-shot5-shot0- 68.69 82.89 48.36 63.45 � 70.47 84.3449.21 66.260表9. 使用余弦距离的TDM的有效性0TDM对常用的距离度量：欧氏距离和余弦距离具有灵活性。06. 限制0由于对于细粒度分类任务来说，表示整个对象可能对于区分相似类别是有害的，与一般的分类任务不同，TDM被开发出来突出显示细节判别特征。因此，TDM的好处在粗粒度任务中可能受到限制。07. 结论0在本文中，我们介绍了一种针对细粒度少样本分类的定制模块Task DiscrepancyMaximization（TDM）。TDM通过两个子模块：支持注意力模块（SAM）和查询注意力模块（QAM），产生强调细节判别特征的通道权重，以区分相似类别。我们在几个细粒度基准数据集上进行了大量实验证实了我们提出的TDM在有效性和与之前的少样本分类方法的高适用性方面的优点。作为未来的方向，我们将研究每个通道的重要性在其他计算机视觉任务中的变化，并将该模块扩展到这些任务中。0致谢。这项工作部分得到了MCST/KOCCA（编号R2020070002），MSIT/IITP（编号2020-0-00973，2019-0-00421，2020-0-01821，2021-0-02003和2021-0-02068）以及MSITKNPA/KIPoT（警察实验室2.0，编号210121M06）的支持。53390参考文献0[1] Arman Afrasiyabi, Jean-Fran c¸ ois Lalonde, and ChristianGagn ´ e. 关联对齐用于少样本图像分类.在欧洲计算机视觉会议上，页码为18-35，2020年。 60[2] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.神经机器翻译：联合学习对齐和翻译.在学习表示国际会议上，2015年。 30[3] Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang FrankWang, and Jia-Bin Hu

下载后可阅读完整内容，剩余1页未读，立即下载