没有合适的资源?快使用搜索试试~ 我知道了~
3186关系感知的全局注意力对人的再识别张志正1张翠玲兰2 <$曾文军2辛进1陈志波1 <$1中国科学技术大学2微软亚洲研究院{zhizheng,jinxustc}@ mail.ustc.edu.cn {culan,wezeng}@ microsoft.comchenzhibo@ustc.edu.cn摘要对于人的再识别(re-id),注意机制已经变得有吸引力,因为它们旨在加强区分性特征并抑制无关特征,这很好地匹配了re-id的关键,即,判别特征学习。以前的方法通常使用局部卷积来学习注意力,忽略了从全局结构模式中挖掘直观地,特征图中的空间位置/节点之间的亲和性提供了类聚类信息,并且有助于推断语义,从而有助于注意力,特别是对于其中可行的人类姿势受到约束的人物在这项工作中,我们提出了一个有效的可感知全局注意力(RGA)模块,它捕获全局结构信息,以更好地学习注意力。具体地,对于每个特征位置,为了完整地掌握全局范围的结构信息和局部外观信息,我们提出堆叠关系,即,其与所有特征位置的成对相关性/亲和性(例如,以光栅扫描顺序)和特征本身一起使用浅卷积模型来学习注意力。广泛的消融研究表明,我们的RGA可以显着提高特征表示能力,并有助于实现几个流行的基准测试的最先进的性能。源代码可在https://github.com/microsoft/Relation-Aware-Global-Attention-Networks获得。1. 介绍人物再识别(re-id)旨在通过不同时间、地点或摄像机匹配特定人物,引起了业界和学术界的极大兴趣挑战在于如何从存在背景杂乱、姿势多样性、遮挡等的人物图像中提取区分特征(用于识别同一个人和区分不同的人)。(a)(b)(c)(a)(b)(c)(a)(b)(c)图1.(b)CBAM [38]的空间注意力(不探索关系)与(c)我们提出的注意力(捕获全局范围关系并从此类结构信息中挖掘)之间的学习注意力比较。(a)原始图像1。最近,许多研究诉诸于注意设计,通过加强区分特征和抑制干扰来解决人的再识别中的上述挑战[22,39,20,12,11,6]。大多数注意力都是通过有限的感受野卷积学习的,这使得很难在全局范围内利用丰富的结构模式。一种解决方案是在卷积层中使用大尺寸滤波器[38]。另一种解决方案是堆叠深层[33],这大大增加了网络的大小。此外,[24]中的研究表明,CNN的有效这些解决方案不能确保有效地探索全局范围信息(例如,例如,在一个实施例中,全局范围内容和相应的位置几何结构)用于有效的个人RE-ID。此外,在[35]中提出了非局部神经网络,以允许通过对从所有位置到目标位置的特征进行加权求和来收集全局信息,其中连接权重由成对关系/亲和度计算。实际上,对于一个目标特征位置,它与所有特征节点/位置的成对关系可以包含全局范围的有价值的结构信息,例如:例如,在一个实施例中,类聚类模式(通过成对的亲和性和位置信息)。然而,非本地网络忽略了探索这项工作是在Zhizheng Zhang在MSRA实习时完成的。†通讯作者。1图像中的所有面孔都被掩盖以进行匿名化。3187如此丰富的全球信息。它仅简单地使用所学习的关系/亲和力作为权重来聚合特征。这种使用关系的确定性方式(i. 例如,加权和)挖掘能力弱,缺乏足够的适应性。Cao等人观察到非局部块的学习连接权重是目标位置不变的[5],这并不像预期的那样自适应。我们认为,重要的是通过建模功能从关系中挖掘知识,并利用这些有价值的全局范围结构信息来推断注意。在本文中,我们提出了一个有效的感知全局注意力(RGA)模块,以有效地学习区分特征的人重新识别。RGA显式地探索了挖掘结构信息(类聚类信息)的全局作用域关系。这有助于隐式推断语义并因此推断注意力。图1显示了我们对人物re-id图像的学习注意力。由于引入和挖掘了全局范围关系,我们的注意力可以集中在有区别的人体区域上。如示于图2(c),对于每个特征节点,e. 例如,在一个实施例中,特征图上的空间位置的特征向量,我们对该节点相对于所有节点的成对关系进行建模,并将该关系与节点本身的特征一起压缩堆叠为向量(其表示全局结构信息),以经由小模型来推断通过这种方式,我们考虑了外观特征及其全局范围关系,以从全局角度确定特征重要性。这种机制也与人类在寻找区别性特征方面的认知一致:进行全局范围比较以确定重要性。总而言之,我们做出了两大贡献:• 我们建议采取全局视图的功能之间的关系,全局学习每个特征节点的注意力。全球范围内的关系具有价值-能够结构(聚类)的信息,我们建议挖掘语义的关系,通过学习功能获得关注。具体而言,对于一个特征节点,我们建立了一个紧凑的表示,堆叠其成对关系,相对于所有特征节点作为一个向量和挖掘模式从它的注意力学习。• 我们设计了一个关系感知的全局注意(RGA)模型,它能完整地表示全局作用域关系并基于它们经由两个卷积层导出注意力我们将这种设计应用于空间(RGA-S)和通道维度(RGA-C),并证明了其对人员识别的有效性。我们进行了广泛的消融研究,以证明所提出的RGA的有效性,发现歧视性的功能和抑制不相关的人reid。我们的方案由RGA模块支持,在基准数据集CUHK03[21]、Market1501 [46]和MSMT17[37]上实现了最先进的性能。2. 相关工作2.1. 注意和人身安全注意力的目的是集中在重要的特征上,抑制不相关的特征.这很好地匹配了亲自处理上述挑战的目标,因此是有吸引力的。许多作品在特征图上使用具有小感受野的卷积运算来学习注意力[32,45,22,6]。然而,直观地说,要很好地判断一个特征节点是否重要,应该知道全局范围的特征,这有助于决策所需的为了引入更多的上下文信息,Wanget al.和Yanget al.在它们的编码器-解码器风格的注意力模块中堆叠许多卷积层,以具有更大的感受野[33,40]。Woo等人在其卷积块注意力模块(CBAM)中的空间特征上使用7×7的大滤波器来产生空间注意力图[38]。在[42]中,在编码器-解码器风格注意模块之前插入非局部块[35]以启用注意。基于全局细化特征的特征学习由于受实际感受野的限制,这些方法都不能有效地捕捉大范围的信息来全局地确定空间注意。一些作品探讨了人类语义学的外部线索(姿势或面具)作为注意力或用它们来指导注意力的学习[39,28,29,44]。表示人体结构的显式语义有助于确定注意力。然而,通常需要用于姿态/掩模估计的外部注释或在本文中,我们打算探索各自的全局范围关系,为每个特征节点学习注意。关系表示中的结构信息包括亲和性和位置信息,有助于学习语义和推断注意力。2.2. 非本地/全球信息探索对非局部/全局信息的探索已被证明对于图像去噪[3,8,4]、纹理合成[10]、超分辨率[14]、修复[2],甚至高级任务,如图像识别、对象分割[35]和动作定位[7]非常有用[35]中的非局部块旨在通过聚合来自所有位置的信息来增强目标位置的特征。对于每个目标位置/节点,为了获得聚合特征,它们计算所有位置(源)的特征的加权总和,每个权重通过计算源特征节点和目标特征节点之间的成对关系/亲和度来然后,将聚合特征添加到目标位置的特征以形成输出。Cao等人可视化源位置的目标位置特定连接权重,并且令人惊讶地观察到连接权重不特定于源位置。3188目标位置[5],i. 例如,连接权重的向量对于目标位置是不变的,其中来自源位置的连接权重实际上仅与该源位置的特征相关。简化的非局部块[5]利用了这种目标位置不变的特性,并且仅通过源特征节点来确定每个连接权重,这实现了与原始非局部块非常接近的性能注意,添加到每个目标位置的聚合特征向量因此对于不同的目标位置是相同的,并且缺乏目标位置特定的自适应。即使非局部块也学习成对关系(连接权重),但全局范围的结构信息没有得到很好的利用。它们只是将它们作为权重以确定性的方式聚合特征,而没有从关系中挖掘有价值的信息。与非局部块不同,我们的目标是从堆叠的关系表示中挖掘更多有用的信息,并通过学习模型从中获得注意力。我们的工作是对如何更好地利用关系的探索,我们希望它能激发研究界更多的作品。3. 关系感知全球关注针对人脸识别中的鉴别特征提取问题,提出了一种基于语义感知的全局注意力(RGA)模块,该模块利用紧凑的全局范围结构关系信息来推断注意力。在这一节中,我们首先给出问题的表述,并介绍我们在Subsec中的主要思想。3.1.对于CNN,我们阐述了设计的空间关系感知全局注意(RGA-S)在Subsec。3.2和信道关系感知全局注意(RGA-C)在Subsec。3.3分别。分析和讨论了我们的注意力与Subsec中相关方法的区别三点四分。3.1. 提法和主旨通常,对于具有d维中的每一维的N个相关特征的特征集V={xi∈Rd,i= 1,···,N},注意力的目标是为N个特征学习由a=(a1,···,aN)∈RN表示的掩模,以根据它们的相对重要性对它们进行加权/掩模注意我们也将特征向量称为特征节点或特征。两种常见的策略用于学习第i个特征向量的注意力值a i,如图所示。2(a)和(b)。(a)局部注意力:特征节点的注意力是局部确定的,e. 例如,在一个实施例中, 将共享变换函数F应用于其自身,即,ai=F(xi)[32].然而,这样的局部策略没有充分利用来自一个全局视图,忽略全局范围的结构信息。对于视觉任务,深层[33]或大尺寸内核[38]这是为了解决这个问题。(b)全局注意力:一种解决方案是使用所有特征节点(例如,借调解─注意值注意值123451234512345原始特征(a)局部注意力原始特征12345原始特征(b)全球关注注意值1 1123451 21 31 41 512345+=原始特征1关系特征 1可识别身份验证的功能112345可感知的特性(c)全球关注图2.针对五个特征向量/节点x1、· · ·、x 5的学习注意力值a1、· · ·、a5的图示。(a)当地注意事项:在本地学习注意力(例如,如图所示,基于单个特征)。(b)第(1)款全球关注:从所有5个特征向量(例如,例如,在一个实施例中,将它们连接在一起)。(c)建议的关系意识全球关注:学习注意力,全局关系信息。 对于第i个(这里i = 1)特征向量,通过堆叠成对关系ri =[ri,1,···,ri,5,ri,i,···,ri,5,i]来表示全局范围关系信息。注意rij= [ri,j,rj,i]。与(a)缺乏全球意识和(b)不同,缺乏明确的关系探索,我们建议注意的是通过具有包含结构信息作为输入的全局范围关系的学习函数来确定。民族)一起共同学习注意力,例如,使用完全连接的操作。然而,这通常在计算上是低效的并且难以优化,因为它需要大量的参数,特别是当特征数量N很大时[23]。与这些策略相反,我们提出了一种关系感知的全局注意力,它使i)利用全局结构信息和知识挖掘,ii)针对不同的个体特征位置使用共享变换函数以导出注意力。对于re- id,后者使得可以通过使用局部卷积操作来全局计算at-tension。 图2(c)说明了我们提出的关系感知全局注意力的基本思想。其主要思想是利用成对关系(例如,相似度/相似度),并将它们(with some fixed order) to compactly represent the globalstructural information for the current feature node. 具体地,我们使用ri,j来表示第i个特征和第j个特征之间的亲和力。 对于特征节点xi,其仿射向量为ri=[ri,1,ri,2,···,ri,N,r1,i,r2,i,···,rN,i]。然后,我们使用特征本身和成对关系,即, yi=[xi,ri],作为用于通过学习的变换函数来推断其注意力的特征。注意yi包含全局信息。3189concatenateH空间注意W( , :)高×宽×CH特征高×宽W嵌入HWConvCWH123 4 5 6特征C1×1嵌入C(:, )convconcatenate12345678 9H������(: ,���)H×WHW可感知数据的功能12345 6C( , :)重塑1CC( , :)C可感知数据的功能频道关注亲和矩阵1CC关系特征(: , )关系特征(a) 空间感知全局注意力(b)通道感知全局注意力图3.我们提出的空间感知全局注意力(RGA-S)和通道感知全局注意力(RGA-C)的示意图 在计算特征位置处的注意力时,为了掌握全局范围的信息,我们将成对关系项进行堆叠,即,,其与所有特征位置的相关性/亲和力,以及一元项,即,,这个位置的特征,用于用卷积运算来学习注意力。在数学上,我们用图G=(V,E)来表示特征集及其关系,该图包括N个特征的节点集V以及边集E={ri,j∈R,i= 1,···,N并且j= 1,···,N}。边ri,j表示第i个节点和第j个节点之间的关系所有节点的成对关系可以表示为一个亲和矩阵R ∈RN× N,其中节点i和j之间的关系为ri,j= R(i,j).ri=[R(i,:),R(:,i)],其中R(i,:)表示R的第i行,R(:,i)表示R的第i列。讨论:对于第i个特征节点xi,其对应的关系向量ri提供了一个紧凑的表示来捕获全局结构信息i。例如,位置信息和关于图Gs的N=W×H个节点。如示于图在图3(a)中,我们光栅扫描空间位置,并将它们的标识 号分 配 为1,···,N。We将N个特征节点表示为xi∈RC,其中i=1,···,N。两两关系(即,affinity)ri,j从节点i到节点j可以被定义为嵌入空间中的点积仿射,如下:ri,j=fs(xi,xj)=θs(xi)Tφs(xj),(1)其中θs和φs是由1×1空间卷积层实现的两个嵌入函数,然后是批量归一化(BN)和ReLU行为,即θs(xi)=ReLU(Wθxi),φ s(xi)=ReLU(Wφxi),其中Wθ∈所有特征节点。 与成对关系值表示-CRs1和WφC×C∈Rs1. S1 是一个预定义的积极因素利用每个特征节点与当前特征节点之间的相似性/亲和性,而它们在表示特征节点的位置(索引)的关系向量中的位置,关系向量反映了所有节点相对于当前节点的聚类状态和模式,这有利于全局确定x1的相对重要性(注意力)。有了这样丰富的结构信息/模式包含,我们建议挖掘的关系,有效地学习注意,通过建模功能。在可学习空间中,考虑到可行姿态的人re-id图像的结构模式跨度受到人体结构的约束。3.2. 空间关系感知全局注意给定来自CNN层的宽度W、高度H和C通道的中间特征张量X ∈ RC× H × W,我们设计了一个空间关系感知的注意力块,即RGA-S,用于学习大小为H×W的空间注意力图。我们把每个空间位置的C维特征向量作为一个特征节点.所有的空间位置形成一个控制降维率的整数。注意BN操作都被省略以简化表示法。类似地,我们可以得到从节点j到节点i的亲和度为rj , i=fs(xj,xi)。我们使用对(ri,j,rj,i)来描述xi和xj之间的双向关系。然后,我们用一个亲和矩阵Rs∈RN×N来表示所有节点之间的成对关系.对于第i个特征节点,我们将其成对关系所有的节点都按照一定的固定顺序(e. 例如,在一个实施例中,光栅扫描顺序),i.例如, 节点恒等式为j= 1,2,···,N,得到关系向量ri=[Rs(i,:),Rs(:,i)]∈R2N. 例如,如图所示,3(a),矩阵Rs的第六行第六列,即r6=[Rs(6,:),Rs(:,6)],是一个已知的整数作为用于导出第六空间位置的注意力的关系特征为了学习第i个特征节点的注意力,除了成对关系项ri之外,我们还包括特征本身xi,以利用与该特征相关的全局范围结构信息和局部原始信息。考虑到这两种信息不在同一个特征域中,我们分别嵌入,并将其合并。W123456789C重塑( , :)亲和基质(: , )高×宽98765432 165432 13190×C将它们连接起来以获得空间关系-aware featureyi:y_i=[p_o_l_c(x_i)),x_s(r_i)],(2)其中,xs和xs分别表示特征本身和全局关系的嵌入函数。它们都是通过空间1×1卷积层实现的,然后是BN和ReLU激活,即s(xi)=ReLU(W为了推断第i个特征节点的注意力,类似于空间注意力的推导,除了成对关系项ri之外,我们还包括特征本身xi。类似于Eq。 (2)和(3),我们获得信道关系感知特征yi,然后获得第i个信道的信道关注值ai。请注意,所有转换功能都由节点/通道共享。没有跨通道的完全连接操作。CRs1,Ws2N×2N∈R2s1. 表示全局平均3.4.分析与探讨沿着通道维度的池化操作,将维度减为1。 则y∈R1+N/s1. 注意,其他卷积核大小(例如,3×3)也可以使用。我们发现它们实现了非常相似的性能,因此我们使用1 × 1卷积层来降低复杂度。全局范围关系包含着丰富的结构性信息,形成(e. 例如,在一个实施例中,类聚类状态的特征空间与语义),我们建议挖掘有价值的知识,从他们推断注意力通过一个可学习的模型。我们通过建模函数获得第i个特征/节点的空间注意力值ai,如下所示:ai=Sigmoid(W2ReLU(W1ymi)),(3)其中W1和W2是通过1×1卷积和BN实现的。W1以s2的比率收缩沟道尺寸,W2将沟道尺寸变换为1。3.3. 渠道关系感知全球关注给定一个中间特征张量X∈RC×H ×W,我们设计了一个关系感知的通道注意力块RGA-C,用于学习C维通道注意力向量我们将每个通道处的d=H×W维特征图作为特征节点。所有通道形成C个节点的图Gc。我们将C特征节点表示为xi∈Rd,其中i= 1,···,C。类似于空间关系,来自节点i到节点j可以被定义为嵌入空间中的点积亲和性,如下:ri,j=fc(xi,xj)=θc(xi)Tφc(xj),(4)其中θc和φc是在特征节点之间共享的两个嵌入函数。我们通过首先将输入张量X在空间上平坦化为X′∈R(HW)×C ×1,然后使用1×1卷积层,BN之后是ReLU激活以在X'上执行变换。如示于图3(b)中,我们得到了所有节点的成对关系,然后用一个仿射矩阵Rc∈RC×C表示。对于第i个特征节点,我们将其对应的对-智 能 关 系 的 所 有 节 点 有 一 个 关 系 向 量 ri=[Rc(i,:),Rc ( :,i)]∈R2C ,以表示全局结构信息。分析并讨论了它与其他相关方法的区别.此外,我们还讨论了空间和通道RGA的联合使用及其集成策略。RGA与CBAM[38]。 CNN中的大多数注意力机制实际上是局部注意力,它使用局部上下文来确定特征位置的注意力[38,33,32,22]。以代表性注意力模块CBAM [38]为例,它使用滤波器大小为7×7的卷积运算,然后使用sigmoid激活函数来确定空间特征位置的注意力。因此,只需利用7×7 = 49个相邻特征节点来确定中心位置的注意力.相比之下,对于我们的空间RGA(RGA-S),对于空间特征位置,我们联合利用所有空间位置处的特征节点。位置来决定全局的注意力。我们通过对堆叠关系的向量进行简单的1×1RGA与非本地(NL)[35]和简化NL [5]。非局部块[35]利用全局上下文来细化每个空间位置处的特征对于目标特征位置,为了获得聚合特征,然后将其添加到原始特征以进行细化,它们计算源位置的特征的加权总和。即使存在来自成对关系的结构信息,非局部也忽略了对这种有价值的信息的探索,并且仅通过这种确定 性 方 式 将 关 系 用 作 特 征 聚 集 的 权 重 正 如 Caoetal.[5],非局部块中的连接权重对目标位置不变,每个连接权重由源特征节点本身局部确定。因此,对于不同的目标位置,连接权重的向量是相同的,相应的聚合特征向量也是相同的。这导致缺乏目标位置特异性适应。相比之下,在我们的RGA中,即使我们同样利用成对关系,我们的意图是相当不同的,这是通过学习建模功能从关系的全局范围结构信息中挖掘RGA-S和RGA-C的使用。RGA-S和RGA-C可以以即插即用的方式插入任何CNN网络。我们可以单独使用RGA-S或RGA-C,也可以按顺序联合使用它们(例如,例如,在一个实施例中,在RGA-S之后应用RGA-C,表示为RGA-SC)或并行(RGA-S//C)。31914. 实验4.1. 实施细节和数据集表1.我们的模型与基线的性能(%)比较,以及全局关系表示的有效性(Rel.)和特征本身(Ori.)。w/o:没有。中大03(左)市场1501网络设置。按照一般惯例,id [41,1,43],我们采用ResNet-50 [15]来构建我们的基线模型R1 mAP R1 mAP网络并将我们的RGA模块集成到RetNet- 50主干中进行有效性验证。与[30]相似,基线ResNet-50 73.8 69.0 94.2 83.7RGA-S w/o Rel.76.8 72.3 94.343],去除conv5x块中的最后空间下采样操作在我们的实验中,我们在所有四个残差块(包括conv2 x,conv3x,conv4 x和conv5 x)之后添加所提出的RGA模块为了简洁起见,我们也将该方案称为RGA。在RGA模块中,我们空间信道RGA-S w/o Ori.78.2 74.0 95.4 86.7RGA-S79.3 74.7 96.0 87.5RGA-C w/o Rel.77.8 73.7 94.7 84.8RGA-C,不含Ori。78.1 74.9 95.4RGA-C79.3 75.6 95.9 87.9将比率参数s1和s2设置为8。我们使用RGA-S//C77.373.495.386.6标签平滑的识别(分类)损失[31]两RGA-CS78.675.595.387.8[16]三重损失与硬采矿作为监督。请注意,我们没有实现重新排序[49]。训练我们使用常用的随机裁剪[36]、水平翻转和随机擦除[50,36,32]的数据扩充策略所有数据集的输入图像大小为256×128。 骨干网是在ImageNet上预先训练[9]。我们采用亚当优化器训练所有模型600个epoch,学习率为8×10−4,重量衰减为5×10−4。数据集和评估指标。我们在三个公共人物re-id数据集上进行了实验,CUHK03[21]、Market1501 [46]和大规模MSMT17 [37]。我们遵循通常的做法,并使用累积匹配特征(CMC)在秩1(R1)和平均精度(mAP)来评估性能。4.2. 消融研究按照惯例,我们对两个代表性数据集CUHK03(具有标记边界框设置)和Market1501进行了RGA相关模型与基线。表1示出了我们的空间RGA(RGA-S)、通道RGA(RGA-C)、它们的组合和基线的比较。我们注意到:1) 与基线相比,RGA-S或RGA-C均显著改善了患者的预后。在CUHK 03上,RGA-S、RGA-C和顺序组合版本RGA-SC在mAP上分别显著优于基线5.7%、6.6%和8.4%,在Rank-1准确度上分别显著优于基线5.5%、5.5%和7.3%在Market 1501上,尽管基线的性能已经非常高,但RGA-S和RGA-C分别将mAP提高了3.8%和4.2%2) 对于学习注意力,即使不采取视觉特征(Ori.),I.例如, 特征本身,作为输入的一部分,使用所提出的全 局 关 系 表 示 本 身 ( RGA-S w/o Ori. 或 RGA-C w/oOri。)显著优于基线,例如,CUHK03的mAP准确度为5.0%或5.9%3) 对 于 学 习 注 意 力 , 不 采 取 所 提 出 的 全 局 关 系(Rel.)作为输入的一部分,方案RGA-S w/o Rel. 或RGA-C w/o Rel. 都不如我们的RGA-SRGA-SC或 RGA-C 在 CUKH 03 上 的 mAP 准 确 度 提 高 2.4% 或1.9%2)和3)都证明了全局范围关系表示对于学习注意力是非常强大的。4) 空间RGA和通道RGA的组合实现了最佳性能。我们研究了三种组合方式:并行融合(RGA-S//C)、序列空间通道(RGA-SC)、序列空间通道(RGA-CS)。RGA-SC在CUHK 03上实现了最佳性能,在mAP精度方面分别比RGA-S和RGA-C顺序架构允许后一个模块基于其前一个注意力模块产生的调制特征来学习注意力,这使得优化更容易。RGA与其他方法。为了比较的公平性,我们在我们的基线之上重新实现了他们的设计,并在表2中显示了结果。1) 空间关注 CBAM-S[38]使用7×7的大过滤器来学习注意力,而FC-C[23]在(通道池)空间特征图上使用完全连接。非局部(NL)[35]将成对关系/亲和度作为权重,以获得用于细化的聚合特征SNL是非局部的简化方案[5],它仅使用源特征本身来确定聚合的权重。NL忽略了从关系中挖掘全局范围的结构信息,而仅将它们用于加权求和。相比之下,我们的RGA旨在从关系中挖掘。可以观察到,方案NL和SNL中的聚合权重对于目标位置是不变的[5]。由于对全局结构信息的探索和通过可学习的建模函数对其进行挖掘,我们的RGA-S在CUHK03(L)上实现了最佳性能,在mAP精度上比其他算法高出为了更好地理解非局部NL [35]和我们的RGA-S之间的差异,我们将它们关于图1中的三个随机选择的目标位置的学习的成对关系/亲和度值可视化。4.第一章我们发现,对于非局部,关系值是目标位置不变的3192表2.我们的注意力和其他方法的性能(%)比较,应用于我们的基线之上。中大03(左)市场1501CBAM-C [38] 76.9 72.7 95.3 86.3信道FC-C [23]77.472.995.386.7RGA-C(我们的)79.375.695.987.9CBAM-CS[38]78.073.095.085.6两FC-S//C [23]78.473.294.885.0RGA-SC(我们的)81.177.496.188.4方案(顶行),这与Cao等人的观察结果相似。[5]的文件。相比之下,由于应用于关系向量和外观特征的学习建模函数,它驱动成对关系函数(参见等式10)。(1)更好地对关系进行建模,并使学习到的关系在我们的方案中的目标位置自适应(底行)。对于目标位置,我们观察到具有相似语义的特征位置这表明我们的注意力模型已经挖掘出了有用的知识,例如,在一个实施例中,语义空间中的聚类模式,从关系推断注意。2) 频道关注在挤压和激发模块(SE[18])中,他们使用空间全局平均池特征来计算通道注意力,通过使用两个具有非线性的完全连接(FC)层。与SE相比,我们的RGA-C在Rank- 1和mAP精度上分别获得了3.0%和3.7%的增益CBAM-C[38]类似于(SE)[18],但它还使用全局最大池化特征。类似地,FC-C[23]在空间平均上使用FC层池化特征。在合并之前,特征通过1×1卷积进一步嵌入。由于对成对关系的探索,我们的方案RGA-C在Rank-1准确度上优于FC-C[23]和SE[18],它们也使用全局信息,分别为1.9%和3.0%。CUHK03。在Market1501上,虽然我们的方案的精度已经很高,但仍然优于其他方案.3) 空间和频道的注意力。当同时利用空间和通道注意力时,我们的模型始终优于单独使用通道注意力或单独使用空间注意力。参数如表3所示,方案RGA-S的参数数目小于NL方案,而方案RGA-C的参数数目比其它方案大约2%至6%。嵌入函数的影响 我们使用不对称图4.对于非局部方案(顶行)和我们的RGA-S方案(底行),每三个子图像可视化来自三个目标位置(由红色正方形标记)的所有位置的连接权重(关系值)。对于颜色强度,红色表示较大的值,而蓝色表示较小的值。我们观察到非局部模型的权重对目标位置是不变的,但在我们的RGA-S中是自适应的。对于目标位置,具有相似语义的位置通常在我们的RGA-S中具有较大的关系值,这反映了聚类模式。表3.不同方案的参数数量(百万)。基线CBAM-S空间FC-S NLRGA-SCBAM-C信道FC-C SERGA-C25.126.126.930.628.326.426.427.628.1表4.嵌入函数对性能的影响(%)。型号CUHK03(L)Market1501嵌入函数(参见等式(1))对节点i和节点j之间的方向关系(ri,j,rj,i)进行建模。我们将它与表中的对称嵌入和无嵌入进行了4. 我们观察到,直接使用特征(w/o Embedding)或使用对称嵌入函数也显著优于Baseline,但明显劣于使用非对称嵌入。这表明,主要的改进来自我们的新设计的基于关系的注意力学习,其中更好的关系建模将提供更好的性能。使用非对称嵌入函数留下更多的优化空间。哪个ConvBlock可以添加RGA-SC?我们比较了将RGA-SC模块添加到不同残差块的情况。RGA-SC在每个残差块上带来增益,并且将其添加到所有块执行最佳。详情请参阅4.3. 与最新技术表5显示了我们的关系感知全局注意力模型(RGA-SC)与三个数据集上的最新方法的性能比较。与基于注意力的方法[28,25,39,19]相比,这些方法利用了人类语义(例如,前景/背景,RGA-S(我们非局部模型方法R1地图R1地图基线ResNet-5073.869.094.283.7CBAM-S [38]77.372.894.885.6[23]第二十三话77.073.095.286.2空间荷兰[35]76.672.695.687.4SNL [5]77.472.495.787.3RGA-S(我们的)79.374.796.087.5[第18话]76.371.995.286.0R1地图R1地图基线73.869.094.283.7无嵌入78.675.295.287.3对称79.475.295.687.4不对称(我们的)81.177.496.188.43193表5.性能(%)与CUHK03、Market1501和MSMT17的最新技术水平比较2CUHK03方法检出标记市场1501 MSMT17秩-1地图秩-1地图秩-1地图秩-1地图[28]第二十八话50.150.246.746.983.874.3--美国有线电视新闻网(CNN)[39]----85.966.9--SPReID(CVPR 18)[19]----92.581.3--美国有线电视新闻网(CNN)44.441.041.738.691.275.7--注意DuATM(CVPR 18)[27]----91.476.6---basedMancs(ECCV 18)[32]69.063.965.560.593.182.3--MHN-6(PCB)(ICCV19)[6]77.272.471.765.495.185.0--BAT-net(ICCV 19)[11]78.676.176.273.295.184.779.556.8PCB+RPP(ECCV 18)[30]63.757.5--93.881.668.240.4HPM(AAAI19)[13]63.957.5--94.282.7--MGN(w flip)(MM19)[34]68.067.466.866.095.786.9--其他IANet(CVPR 19)[17]----94.483.175.546.8[47]第----94.886.077.252.3DSA-reID(CVPR 19)[43]78.975.278.273.195.787.6--OSNet(ICCV 19)[51]--72.367.894.884.978.752.9基线73.869.070.565.594.283.775.751.5RGA-SC81.177.479.674.596.188.480.357.5原始基线RGA-SC原始基线RGA-SC原始基线 RGA-SCtive information, which benefits from our mining of knowl-edge from the global scope structural information (wherethey present clustering-like patterns in semantic space (seethe bottom row in Fig. 4).注意,我们观察到头部通常被忽略。这是因为脸通常图5.根据梯度响应的Grad-CAM可视化:基线vs. RGA-SC。人体部分分割)和那些从输入图像本身学习注意力的[22,27,32],我们的RGA-SC显著优于它们。在三个数据集CUHK 03(L)/CUHK 03(D)、Market 1501和大规模MSMT 17上,与所有其他方法相比,我们的方案RGA-SC实现了最好的性能,在mAP准确度上分别优于第二好的方法1.3%/1.3%、0.8%和0.7%。我们的RGA-SC模块的引入持续带来了超过基线的显著收益,即。例如,mAP准确性分别为8.4%/9.0%、4.7%和6.0%4.4. 注意力可视化与[38]类似,我们将Grad-CAM [26]工具应用于基线模型和我们的定性分析模型。Grad-CAM工具可以识别网络认为重要的区域。图五是比较。我们可以清楚地看到,我们的RGA模型的Grad-CAM掩模比基线模型更好地覆盖了人区域我们注意力的调节功能使网络专注于有区别的身体部位。我们将学习到的空间注意力掩模形象化,如图11所示。1.一、注意力集中在人身上而忽略了背景.与CBAM [38]不利用关系的注意力方法相比,我们的注意力更明显地集中在具有辨别力的身体区域上。分辨率低,并且对于区分不同的人来说不可靠更多的可视化结果,包括那些在不同的层可以在补充。5. 结论对于人的re-id,为了学习更多的判别特征,我们提出了一个简单而有效的全局注意力模型,该模型对全局范围的结构信息进行建模,并在此基础上通过学习模型来推断注意力。结构模式提供了某种全局作用域语义,有助于注意力的转移。特别地,对于每个特征位置,我们将该特征与所有特征之间的成对关系这种特征表示便于使用浅卷积层(即,不同位置上的共享内核)来全局地推断注意力。我们将此模块应用于CNN特征的空间和通道维度,并在这两种情况下证明了其有效性广泛的消融研究验证了我们设计的高效率,并实现了最先进的性能。确认这项工作得到了国家自然科学基金U1908209,61632001 和 中 国 国 家 重 点 研 究 发 展 计 划2018AAA0101400的部分支持。2我们不包括DukeMTMC-reID [48]的结果,因为该数据集不再公开发布。3194引用[1] 乔恩·阿尔玛赞,博贾纳·加吉奇,奈拉·默里,戴安·拉鲁斯.正确完成重新识别:制定重新识别身份的良好措施。arXiv预印本arXiv:1801.05339,2018。6[2] Connelly Barnes , Eli Shechtman , Adam Finkelstein ,andDanBGoldman.Patchmatch : Arandomizedcorrespondence algorithm for structural image editing. 在TOG,第28卷,第24页。ACM,2009年。2[3] Antoni Buades,Bartomeu Coll,and J-M Morel.一种非局部图像去噪算法。在CVPR,第2卷,第60-65页,2005年。2[4] Antoni Buades,Bartomeu Coll,and J-M Morel.基于卷积神经网络的非局部彩色图像去噪。在CVPR,2017年。2[5] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet:非局域网 络满足挤压激 励网络和超 越。arXiv预印本arXiv:1904.11492,2019。二三五六七[6] Binghui Chen,WeiongDeng,and Jani Hu.混合高阶注意网络用于人的再识别。在ICCV,第371-381页一、二、八[7] Peihao Chen,Chuang Gan,Guangyao Shen,WenbingHuang,Runhao Zeng,and Mingk
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功