没有合适的资源?快使用搜索试试~ 我知道了~
基于混合注意力的解耦度量学习用于零样本图像检索
27500基于混合注意力的解耦度量学习用于零样本图像检索0Binghui Chen 1 , 2 , Weihong Deng 1 �01 北京邮电大学 2滴滴出行人工智能实验室,中国北京 1001930chenbinghui@bupt.edu.cn, whdeng@bupt.edu.cn0摘要0在零样本图像检索(ZSIR)任务中,嵌入学习变得更加吸引人,然而,许多方法遵循传统的度量学习思想,忽略了零样本设置背后的问题。在本文中,我们首先强调了在ZSIR中学习视觉判别度量和防止学习器的部分/选择性学习行为的重要性,然后提出了解耦度量学习(DeML)框架来实现这些目标。我们将统一度量解耦为多个特定注意力的部分,以反复诱导区分并明确增强泛化能力。它们主要通过基于随机游走图传播的对象注意力模块和基于对抗约束的通道注意力模块实现。我们在流行的基准测试上证明了解决ZSIR中重要问题的必要性,并在性能上显著优于现有方法。代码可在http://www.bhchen.cn获取。1.引言0在零样本图像检索(ZSIR)中,模型需要从已见类别中学习嵌入,并能够利用所学知识区分未见类别,而无需任何属性或语义信息。大多数现有方法采用深度嵌入(度量)学习,并致力于探索强大的损失函数,如基于对的方法[33, 43, 29,23, 32, 2, 35]和难例挖掘策略[16, 39, 29,32]等。这些思想可以总结为:在已见类别上学习一个好的度量,以提高未见类别的性能。然而,事实上,它们忽视了ZSIR中一些重要问题的存在和重要性,因此很容易陷入特定数据分布和已见训练集的知识区域,一些对未见类别有帮助的知识可能已经被忽略了。0� 通讯作者0图1:(a) 统一度量学习和(b)DeML之间的差异。我们的DeML将统一表示解耦为多个特定注意力的学习器,以鼓励整体度量的区分和泛化。0由于存在这些问题,它们的性能几乎相当且不令人满意。具体而言,在ZSIR中,上述思想实际上是不合理的,因为学习到的度量的区分和泛化能力受以下两个方面的影响:(1)不具有区分性的视觉输入,其中包含大量噪声信息(很难知道应该关注哪里),导致描述符质量差,难以区分未见类别。换句话说,不具有区分性的视觉输入会降低特征的区分性。(2)深度模型的部分/选择性学习行为[3],具体来说,对于由CNN参数化的功能学习器,当给定任意输入时,它将选择性地学习部分属性知识,这些属性知识是最容易降低当前训练经验风险的已见类别,而不是学习全面的细节和信息,因此在已见类别上产生过拟合,并且对未见类别的泛化能力较差。例如,在鸟类上,如果头部知识足以区分训练的已见类别,深度模型将只关注头部,忽略背部、脚和翅膀等其他身体部位,而在测试未见类别(其具有类似的头部特征但不同的翅膀特征)时,训练的模型很容易无法区分它们。这种部分学习行为有时会导致01由于在零样本设置中,未见类别与已见类别没有交集,这种部分学习行为是常见的。27510是神经冗余的原因之一,因为所有神经元只关注某些简单的知识,导致特征维度的性能不会显著提高。此外,当优化统一度量时,如上述方法中所示(如图1.(a)所示),这两个问题通常混在一起,共同阻碍表示的学习,并且在没有明确和有益的指导下,特征的差异性和泛化特性会因此而大大恶化,而不管目标函数和困难样本挖掘策略的有效性如何。大多数ZSIR工作忽视了学习具有区分性和鲁棒性的判别器的重要性。为此,提出保留知识和具有区分性的度量学习框架仍然很重要。在本文中,受到“分而治之”的思想的启发,我们提出了解耦度量学习(DeML),这是一个新颖且普遍适用的框架,通过将嵌入表示解耦为多个特定注意力的学习者,以明确地鼓励其区分性和泛化性,如图1.(b)所示。此外,为每个学习者配备特定的注意力任务将进一步减轻神经冗余并提供性能改进的机会。我们的DeML是一个模型无关的学习框架,与现有的度量学习工作不同,它不需要挖掘困难样本或构建精心设计的样本对。主要贡献如下:•我们提供了对ZSIR的两个重要问题的见解,即不可区分的视觉输入和学习者的部分/选择性学习行为将阻碍度量的区分性和泛化性,分别。•DeML将常用的统一度量解耦为对象注意力根学习者和通道注意力子学习者,旨在反复诱导区分性,并明确促进多样性以及泛化性,分别。•解耦的学习者由相应的随机游走推断的对象注意力模块(OAM)2和对抗性通道注意力模块(CAM)支持。它们可以轻松作为插入部件执行,并且是模型无关的。•我们通过我们的解耦思想展示了学习具有区分性和鲁棒性的度量的必要性。我们在几个具有挑战性的ZSIR数据集上进行了大量实验,包括CUB [36],CARS[15],Stanford Online Products[23]和In-Shop[18]。我们的DeML取得了最先进的性能,并且在很大程度上超过了其他方法。2.相关工作0零样本学习:ZSL已在许多任务中广泛研究,例如图像分类[17, 1, 8,44],哈希[31],视频识别[6]等。然而,与这些能够利用未见类别的额外辅助监督信号的ZSL任务不同(例如se-02一些工作称其为空间注意力。0我们的DeML专注于更一般的零样本图像检索(ZSIR)版本,其中只有相似性标签s pq ∈ {0,1}可用。因此,如何仅从输入图像中捕获有区别和全面的信息是这个任务的核心。深度嵌入/度量学习:只有s pq可用,许多工作都在探索用于ZSIR任务的深度度量学习。例如,Sampling-Matters[39]提出了距离加权采样策略。Proxy-NCA[21]从代理-代理视角解释了为什么流行的分类损失有效,并且其实现与Softmax非常相似。ALMN[2]提出通过生成的虚拟点而不是挖掘困难样本来优化自适应大边界目标。然而,所有上述方法都是通过设计损失和探索样本挖掘策略来解决统一度量问题的,因此很容易受到上述问题的影响。此外,HDC[43]采用级联模型并从不同级别和模型中选择困难样本。BIER loss [24,25]采用在线梯度提升方法。尽管这两种方法尝试通过采用集成思想来改进性能,但它们只能从不可区分的输入中学习,并且仍然受到部分学习行为的影响,因此整体特征的区分性和泛化性仍然有限。注意机制:注意机制用于偏向将可用资源分配给输入中最具信息量的部分。许多注意机制与门控机制(例如softmax或sigmoid)结合使用,并广泛应用于许多任务,例如图像字幕生成[4,40],唇读[5],图像分类[12, 37,7]。Schwartz等人[30]采用高阶注意模块进行VQA。Fu等人[7]提出学习注意网络以产生注意提议,但是它以两阶段的方式进行优化,即迭代训练嵌入模型和注意模型。我们强调我们的DeML是一个混合注意力系统。首先,它采用一个无参数的对象注意力模块,通过随机游走图传播执行,可以直接插入任何基础CNN而无需训练。其次,与[12,4]中级联的通道注意力操作不同,即只捕获最具信息量的信号,我们的DeML配备了一系列并行的通道注意力模块,通过对抗模块进行优化,并坚持同时学习各种属性的各种组合,以尽可能多地捕获知识。03. 解耦度量学习0如第1节所讨论的,在零射设置中,简单地优化像大多数现有工作中那样的统一表示module (CAM), i ∈ [1 · · · I], j∈ [1 · · · J] (in Fig.2,I=2, J=3).The total size of ϕ[xn] is d-dim, thus for IOA learners and I × J CA learners, OAi(·) ∈ RdI and27520图2:我们DeML的框架。�表示裁剪和缩放的联合操作。FC层首先被解耦为两个对象注意力根学习器(虚线矩形和椭圆),用于粗粒度和细粒度,然后在第3节中,每个根学习器进一步被解耦为三个通道注意力子学习器(最佳观看颜色)。每个(根或子)学习器都由相应的注意模块(OAM或CAM)支持。要在流之间共享的参数已经用“shared”注释。 (FNet +GNet)是整个GooglenetV1,我们使用FNet i,GNeti来表示第i个尺度上的网络。对抗网络的详细信息在图3中。(c)不会引导学习具有辨别性和鲁棒性的度量作为(1)不加区分的视觉输入和(2)部分/选择性学习行为的联合结果。受“分而治之”的直观解决方案的启发,我们将单一表示解耦为一系列人工定义的学习器,以明确地鼓励不同的学习器关注不同的潜在特征,并提高整体特征的辨别性和多样性。此外,许多研究工作指出,注意机制是连接数据嵌入和决策模块的关键组成部分,多样的注意线索允许学习各种知识。我们遵循这个启发式思想,并将上述解决方案重新构建为通过将原始统一度量解耦为几个注意特定部分的混合注意学习,每个部分后面都是相应的fc学习器,即对象注意力(OA)根学习器和通道注意力(CA)子学习器。DeML的整体框架如图2所示(为了清晰起见,我们仅以两个OA根学习器和每个根学习器下的三个成:(1)基础CNN,即Googlenet-V1 [34](我们将其分解为(Conv 1−Pool 3)0GNet),(2)对象注意力模块(OAM)是为了逐步确定用于辨别性特征学习的信息对象区域提案,并且(3)通道注意力模块(CAM)是为了同时产生多样的基于属性的通道注意提案03 值得注意的是,这些缺点也存在于传统的全射任务中,但它们在零射设置中严重恶化了性能。0cap(i,j)。当给定图像xn时,我们将直接用它作为第一个尺度的输入,并使用其裁剪和缩放版本作为下一个尺度的输入。在第i个尺度上,输入首先通过FNeti进行编码,然后进入多个CAM。然后,产生的通道注意提案cap(i,j)将由相应的后续GNeti和CA子学习器进行编码。同一尺度的所有CA子学习器构成一个OA根学习器。我们现在定义OAi,CA(i,j)为相应的学习器,OAi(∙),CA(i,j)(∙)为相应的编码函数,然后给出整体特征表示ϕ [xn]如下:0其中OA i [∙] = {∙ ∙ ∙ ; CA (i,j) [∙]; ∙ ∙ ∙ }0I × J .在下面,我们将在第3.1节和第3.2节中介绍我们的OAM和CAM,然后在第3.3节中展示目标度量损失和正则化项。DlhWl+w,h′ Wl+w′ ≜ ∥ulh,w − ulh′ ,w′ ∥(2)27530图3:(a)通过随机游走图传播生成对象注意提案Ml。(b)通过CAM生成通道注意提案cap(i,j),在这种情况下,'foot'和'wing'被激活,而'body'被抑制,如果有不同的CAM,将出现不同的情况,(c)对抗网络,位于CA子学习器之后。3.1.随机游走推断的OAM如上所述,为了学习具有辨别性的OA学习器对象位置的精确边界框注释的检测方法(例如RPN [10,26])不同,在ZSIR的训练中没有辅助注释。因此,我们提出了随意方法,通过在Conv映射的感受野上执行图传播,以产生对象注∈ RClk × Hlk × Wlk,k ∈[1,2,∙∙∙],Clk,Hlk和Wlk分别表示第lk层的通道数,高度和宽见,我们给出一个玩具示例,并省略了写作方便的下标k(如果未h,w ∈ RCl。为了产生空间对象注意提案Ml ∈ RHl × Wl,首先HlWl构建一个全连接的有向图Gl,其中Dl hWl + w,h'Wl + w'0从节点(h, w)到(h ′ , w ′ )的边的权重定义为:0在执行传播之前,每个节点的出边权重被归一化为1,即 D la,b ←0使用算法[20]生成对象注意力提议 M l。如图3.(a)所示,节点(h,w)通过入边和出边进行质量传播。然后,这个随机游走传播迭代地在与周围环境相似度较高的节点上收集质量(即突出显示显著性前景对象区域),因为边的权重(即转移概率)与两个节点之间的不相似度成正比,如公式2所定义,转移到这样的子图是可能的,如果节点相似,则不太可能。0通过全局对象流,它不仅可以收集对象证据,还可以抑制噪声区域。为了方便随机游走计算,首先将提议映射 M l重塑为 H l W l -维向量,然后通过与权重矩阵 D l的迭代乘法更新,即 M ← D × M。此外,众所周知,不同层的响应图具有不同的信息,例如底层对形状具有更好的预测能力,而顶层对噪声区域更具鲁棒性[19, 27],因此我们的OAM采用多个Conv.层 U l k作为输入,以避免噪声环境的影响(例如鸟周围的树),并且每个对象注意力提议 M l k 可以通过对 U l k执行随机游走图传播来获得,具体如下所示:0首先,将 M l k 初始化为值10H lk W lk ,以及权重0矩阵 D l k 是基于响应图 U l k 的条件的,然后类似于 M← D × M 的迭代更新可以重写为上述方程,每个 M l k可以在 T = 10的情况下达到稳定状态。在公式3之后,所有的 M l k都被重塑为 2D图,并调整为与输入图像相同的大小,然后它们被平均到一个单一的图中,即最终的对象注意力提议。在实验中,我们发现使用{ k ∈ [1 , 2] ,以及 l 1 = Incep 4 e,l 2 =Incep 5 b}就足够了。如图2所示,借助这个提议,粗略尺度的图像通过操作 �处理成更细的尺度,然后更细的尺度输入将有助于相应OA学习器的判别学习。备注:公式3中的过程可以看作是特征向量中心性度量的一种变体[22],它输出一个提议图来指示深度响应图上每个位置的质量。它也可以被视为一个马尔可夫链,由于图G是构造强连通的,所以可以达到唯一的稳定状态[11,45]。此外,基于随机游走的信息区域搜索计算量轻,无需参数,因此可以轻松应用于任何基础CNN,而且不需要cap(i,j) = CAM(i,j)(U l) = U l ⊡ σ[W 2(i,j)δ(W 1(i,j)Ψ(U l))]maxfi,gi,CAMs min̥i Ladv(xin; ̥i; f i; gi; CAMs) =λ0J�j,j′∥̥i[CA(i,j)[xin]] − ̥i[CA(i,j′ )[xin]]∥22(4)Lmetric = 1IJI�i=1J�j=1�p, q1wpq log (1 + e−(2spq−1)α(D(i,j)pq−β)γpq)27540此外,当给定训练有素的卷积映射 U时,可以直接以无监督的方式推断重要的对象区域,从而进一步优化。最后,反复执行OAMs将逐步提高相应OA学习器的判别能力。3.2. 对抗CAM0尽管OA学习器可以产生有区分度的表示,但每个单独的OA学习器仍然可能遭受部分/选择性学习行为,即只关注某些属性(例如鸟的头部,汽车的下部等),这些属性是最容易减少当前训练风险的属性。因此,为了提高每个OA根学习器的多样性,我们进一步将其分解为J个CA子学习器,这些子学习器坚持捕捉来自不同通道注意力提议cap(i,j)的各种属性信息,如图2所示,每个cap(i,j)由特定的通道注意力模块(CAM(i,j))生成。为了清晰起见,我们以一个CAM为例,如图3.(b)所示,它以第l层的输入U l ∈ R C l × H l × Wl(为方便起见省略了下标k)作为输入,并输出U l的通道加权对应物cap(i,j)。我们将其形式化为:0其中Ul通过空间平均池化Ψ首先聚合为通道描述符,然后通过两个全连接层(参数为W 1 ( i,j ) ∈ R 64 × C l ,W 2 ( i,j ) ∈R C l × 64)传递,旨在捕捉通道之间的相互作用,并分别经过ReLU(δ)和Sigmoid(σ)。最后,通过2D映射U l c和标量σ [W 2 δ ( W 1 Ψ( U l ))] c之间的通道乘法�对Ul进行重新加权,其中c是通道索引。由于某些卷积层中的滤波器在一定程度上充当本地属性检测器,因此生成的深度响应图将保留通道中的属性信息。换句话说,不同的属性驻留在不同的通道中。因此,我们的CAM中的重新加权操作可以视为属性选择器(例如,在图3.(b)中,它选择'foot'和'wing',但忽略'body'),并且相关的线索(在cap ( i,j)中)将传递给相应的CA子学习器。如果有多个CAM能够并行捕捉不同组合的属性信息,即多个CAM能够捕捉不同组合的属性信息,相应的CA学习器将专注于不同的属性知识,并且每个OA根学习器的丰富性和多样性将得到显著改善。然而,为了明确鼓励CAM的多样性,直接在CAM之后添加多样性约束可能是有害的,因为实际上很难知道哪个通道包含什么属性信号,以及哪种通道组合对嵌入学习有益。为此,如图2所示,所有的cap ( i,j)首先被输入到相应的后续共享嵌入层中,CAM的多样性自然转移到CA学习器的多样性上。为了明确鼓励CAM的多样性,我们可以改为施加多样性约束0在CA学习器上引入对抗优化策略作为多样性约束,通过进行最大最小博弈,即对手网络试图最小化CA学习器之间的差异,而CAMs则试图最大化这些差异,具体如下:0其中f i ,g i 和 � i 分别表示FNet i ,GNet i和对手网络的映射函数,λ 0是损失权重。上述方程是属于第i个OA根学习器的所有J个CA子学习器的差异度量。此外,为了简化这个最大最小博弈中的两阶段优化,引入了一个梯度反转层(GRL)[9],如图3.(c)所示,使得方程4等价于min� i L adv 和min ( f i ,g i ,CAMs ) ( − L adv)。备注:由于在每个尺度i上,不同通道注意力分支中的GNet i ( g i)的参数是共享的,如图2所示,当优化min ( f i ,g i,CAMs ) ( − L adv)时,唯一的区别部分是CAMs,换句话说,只有多样性的CAMs才会使( − L adv)变小。此外,使用对手目标而不是直接约束CA学习器之间的差异的原因是因为学习器之间的差异定义可能比相似性更难人为地制造,因此我们进行上述对抗性游戏,以允许自动学习CAM之间的最佳差异。3.3.目标损失和正则化项0通过使用多个OAM和CAM,整体特征表示ϕ [ x n]可以分解为一系列特定于注意力的部分。然后,利用二项偏差损失[41],可以制定所有CA子学习器的经验度量损失如下:0(5) 其中 α = 2 , β = 0.5 是缩放和平移参数,γ pq 是惩罚系数,如果 s pq = 1(即图像 x p ,x q 来自同一类别),则 γ pq = 1 ,否则 γ pq = 35 ,w pq是正样本对(负样本对)的数量,如果 s pq = 1 ( s pq = 0 ),则 D ( i,j ) pq = 0∥ CA ( i,j ) [ x i p ] ∥∥ CA ( i,j ) [ x i q ] ∥ 用于衡量两者之间的距离0将 x i p 和 x i q 放置在学习器 CA ( i,j )中。值得注意的是,如果 J = 1 ,则 OA根学习器不需要解耦,因此 CA ( i,j ) = OA i。此外,学习器是在相对较小的数据集上从头开始训练的,因此更容易过拟合,遵循常用的权重衰减策略,该策略通过正则化参数的值使其不会过大,以减少过拟合的可能性。Lact =λ12IJNI�i=1J�j=1N�n=1∥CA(i,j)[xin]∥22 + Lntri(6)where Lntri = λ2I�J�tr[(ωijωTij − I) ⊗ (ωijωTij − I)]27550为了避免过拟合,我们提出了一种用于优化每个学习器的正则化项,称为激活衰减,其约束表示值如下:0其中 L ntri 用于避免平凡解(即所有参数都被优化为 0)在最小化 L act 时,λ 1 ,λ 2 是权衡超参数,ω ij ∈ R dIJ × d 1 是学习器 CA ( i,j ) 中的参数,d 1表示其输入通道数,�表示Hadamard积。最后,DeML可以通过联合优化Eq.4、5和6来进行训练。3.4.讨论为什么解耦?在ZSIR中,为了优化统一的度量标准,传统的想法忽略了以下问题:(1)无法区分的视觉输入区域;(2)学习器的部分/选择性学习行为。因此,在区分性和保留知识的特征学习方面存在局限性。然而,在我们的DeML中,将这个统一的度量标准解耦为多个独立的学习器,给了我们机会和灵活性来单独缓解上述问题,即通过OA根学习器反复改善区分能力,并通过CA子学习器明确鼓励多样性和丰富性,从而减少特征中的冗余并鼓励表示能力。此外,在第4节中,我们展示了我们的解耦思想在ZSIR中的显著优势,即使没有进行困难样本挖掘。与其他集成方法的关系:在深度度量学习社区中,还有一些与我们相关的其他集成方法。Yuan等人[43]在不同深度上使用多个层进行困难样本挖掘,然后将学习到的嵌入级联在一起。Opitz等人[24,25]采用在线梯度提升,并使用重新加权的数据优化不同的学习器。Kim等人[13]尝试通过对比损失增加特征的多样性,但忽视了在ZSIR任务中学习区分度量的重要性。总之,尽管这些方法旨在学习集成度量,但它们很容易受到无法区分的输入的影响,并且部分学习行为也没有得到有效的约束。我们强调,我们的DeML将集成问题重新构建为一个混合注意模型,该模型明确解决了上述问题,并将统一的度量标准解耦为多个注意力特定的部分,以明确增强特征的区分性和多样性,从而捕捉丰富的知识并能够推广到未见过的类别。与其他注意机制的关系:许多其他注意机制的工作,例如空间注意[40, 8]、通道注意[4, 12]和语义注意[42,30],都采用了0任务特定的注意力模块用于挖掘最具信息量的信号。然而,我们强调我们的DeML是一个混合注意力系统,旨在通过OAMs捕捉不仅是信息丰富的对象注意力区域,还有通过CAMs捕捉的属性的多样性。此外,OAM与[4, 40,7]中的方法不同,它是通过随机游走图传播来执行的,这是一种无参数的方法,可以直接使用而无需训练。与[4,12]中的通道注意力模块用于提取最具信息量的通道信号不同,我们的并行CAMs受到对抗任务的约束,因此它们彼此不同,并能够提取丰富而互补的属性知识。总之,CAMs可以与OAMs配合使用,整体度量的泛化性和区分性得到明确和自然的保证。04. 实验0符号说明:为了清晰起见,传统的统一度量学习(即直接使用Eq.5训练d维特征)用Ud表示,例如U512,并将其设置为我们的基准。所提出的方法用DeML(I,J)表示,其中总共有I个OA根学习器和I×J个CA子学习器,d默认设置为512,每个OA(CA)学习器都是512维。0实现细节:根据[3,23]发布的代码,我们选择预训练的GooglenetV1[34]作为我们的基础网络,并采用相同的数据预处理方法,以便与其他工作进行公平比较。学习器、CAMs和对抗网络都使用随机权重进行初始化。CAMs放置在pool3层之后,OAM以incep4e输出和incep5b输出作为输入。训练:优化器采用Adam[14],学习率为1e-5,权重衰减为2e-4。训练迭代次数分别为15k(CUB)、25k(CARS)、100k(StanfordOnlineProducts和In-shop)。我们设置λ0=1,λ1=0.014,λ2=0.25,并对学习器使用10倍的学习率。评估和数据集:为了公平比较,我们按照[23]的方法使用Recall@K指标评估检索性能。对于测试的未知图像,I×J个学习器的输出将被连接成整体特征,并进行L2归一化。然后我们使用简单的余弦距离规则进行相似度测量。数据集包括CUB[36]、CARS[15]、Stanford OnlineProducts[23]和In-Shop[18]。训练集和测试集之间没有类别交集。04.1. 结果0激活衰减的效果:从表1可以观察到,在不同特征尺寸下,通过我们的激活衰减L act的帮助,统一度量学习的性能在CUB和CARs上都得到了持续的改善。CUB (R@1)CARS (R@1)DeMLHO (1st/2nd/3rd)HO (1st/2nd/3rd)(I=1,J=1)56.1-77.9-(I=1,J=4)56.6-81.1-(I=1,J=8)59.0-82.5-(I=2,J=1)60.954 / 58.883.476.9 / 79.2(I=2,J=4)61.754.9 / 59.784.877.7 / 79.9(I=3,J=1)64.954 / 58 / 60.185.675.4 / 77.5 / 78.9(I=3,J=3)65.454.1 / 58.4 / 60.686.375.3 / 78.9 / 80.4Table 2: Effect of attention modules. H and O indicate the retrieval results of featurescoming from the holistic learner and OA root-learners, resp.05101520250.40.60.81IterationTraining SetRecall@1 U512U512+actour DeML(I=1,J=8)05101520250.20.40.60.8IterationTesting Set U512U768+actour DeML(I=1,J=8)Figure 5: Training (seen) and testing (unseen) curves on CUB.tative comparisons on attention modules in Tab.2. By de-fault, dimension d is set to 512. The model DeML(I=1,J=1)is very similar to model (U512+Lact) with only a smalldifference of an extra single CAM, and from Tab.1 andTab.2, one can observe that their performances are almostthe same(56.2% vs.56.1% on CUB, 77.6% vs.77.9%on CARS), implying that capturing the single attentionalknowledge via attention module might not be helpful forZSIR. Moreover, in Tab.2 one can observe that, by fix-ing J=1, the holistic performance (H) will significantlyincrease with I (56.1% → 60.9% → 64.9% on CUB,77.9% → 83.4% → 85.6% on CARS), and the OA learnerat finer scale will be more discriminative than that at coarsescale, e.g. in DeML(I=3,J=1) on CUB, the third OA learnerachieves 60.1%, the second gets 58% and the first gets 54%,indicating that the more discernible the input is, the morediscriminative embedding is. Furthermore, when fixing Ito a certain value, decoupling each OA root-learner intomultiple CA sub-learners will consistently improve the per-formances over both CUB and CARS, e.g. when I=1, theresult (H) increases with J from 56.1% to 59.0% (77.9%to 82.5%) on CUB (CARS), and the similar improvementscan be also observed when I=2 or 3, revealing that explic-itly encouraging the diversity and capturing rich knowledgeindeed improve the generalization of metric in ZSIR. This27560图4:(a)由OAMs推断得到的不同尺度的对象注意力区域。(b)由CAMs输出的特定通道的通道注意力提议。0在CUB和CARs数据集上,例如(U512+ Lact)与U512的对比,从图5可以观察到U512的训练曲线迅速上升到一个较高的水平,即1,但其测试曲线首先上升一点然后持续下降到0.2,表明U512在已知类别上存在严重的过拟合问题,而(U512+ Lact)的训练曲线上升速度比U512慢,其测试曲线呈上升趋势,说明L act确实作为一个正则化项,通过减少过拟合来提高对未知类别的泛化能力。此外,从(U64+ L act)到(U512+ Lact)的结果可以观察到,性能随着维度d的增加而增加,但当d足够大时(例如从384到512),性能提升很小(CUB上为55.6%对56.2%,CARS上为77.4%对77.6%),从U64到U512也可以观察到类似的现象,表明神经冗余确实存在并限制了进一步的改进,突出了我们后来提出的解耦思想的必要性。注意力可视化:为了直观地理解我们的注意力模块,我们提供了对应的注意力提议的清晰可视化结果进行定性分析,即通过所提出的OAMs得到的多尺度的关注区域以及通过CAMs得到的多样的属性提议,如图4所示。首先,对于对象注意力区域,可以观察到第二或第三尺度的这些局部区域对应的类别具有辨别力,比第一尺度更容易被识别。其次,对于通道注意力提议,可以观察到不同的CAMs将相同的输入U l处理成不同的提议,这些提议包含不同的属性组合,通过不同的加权策略。因此,迫使后续的CA学习器集中于不同的知识,可以避免部分学习行为。这些结果与人类感知一致,即更近距离观察有助于做出更好的决策,并且学习丰富的知识以处理未知类别。注意力模块的效果:我们还进行了定量评估。R@K(%)CUB-200CARS-196Stanford Online ProductsIn-ShopMethod12481248110100100011020304050Lifted [23]47.258.970.280.249.060.372.181.562.179.891.397.4------N-pair [32]51.063.374.383.271.179.786.591.667.783.893.097.8------Angular [38]53.665.075.383.771.380.787.091.870.985.093.598.0------Proxy NCA [21]49.261.967.972.473.282.486.488.773.7---------ALMN [2]52.464.875.484.371.681.388.293.469.984.892.8-------ECAML [3]55.766.576.785.184.590.493.896.671.385.693.698.083.895.196.697.397.798.0HDC [43] ◦53.665.777.085.673.783.289.593.869.584.492.897.762.184.989.091.292.393.1BIER [24] ◦55.367.276.985.178.085.891.195.172.786.594.098.076.992.895.296.296.797.1ABE [13]4 ◦58.669.979.487.182.788.893.196.074.787.994.298.086.296.197.597.998.298.5A-BIER [25] ◦57.568.778.386.082.089.093.296.174.286.994.097.883.195.196.997.597.898.0baseline(U512)52.965.075.483.668.478.786.091.268.784.092.797.681.894.195.796.59797.3DeML(I=3,J=3)65.475.383.789.586.391.294.397.076.1∗88.4∗94.9∗98.1∗88.297.098.098.398.698.8Table 3: Retrieval results on CUB [36], CARS [15] and Stanford Online Products [23]. Here, ◦ refers to other ensemble methods, the superscript ∗ indicatesthe results are from model DeML(I=2,J=4) not DeML(I=3,J=3).conclusion can also be demonstrated by Fig.5, i.e. the train-ing curve of DeML(I=1,J=8) is much lower than that ofU512 or (U512+Lact), showing that the learned knowledgeare not specially prepared for the training seen categoriesand the partial learning behavior is mitigated, while its test-ing curve outperforms both U512 and (U512+Lact), imply-ing that learning diverse knowledge will further improve thegeneralization ability by reducing over-fitting. Worthy ofmention is that in theory bigger J will be more helpful(e.g.J=8), however due to the limitation of GPU memory, duringtraining when I=3, J is limited to 3. In summary, the appro-priate combination of (I,J) will significantly improve boththe discrimination and generalization of the deep metric inan interpretable attention-based decoupling manner.CUB (R@K)1248simCARS (R@K)1248sim4For fair comparison, we report the reproducing results of [13] whenusing the same training settings as us, e.g. batchsize and loss function.27570对抗损失的影响:与OAMs不同,CAMs不能自动通过随机游走图传播提取对象注意力区域,因此CAMs需要额外的约束,以明确鼓励学习互补属性知识而不是部分属性知识。从表4中可以看出,没有L adv的约束,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功