没有合适的资源?快使用搜索试试~ 我知道了~
5735一致性注意Siamese网络孟政1,斯里克里希纳·卡拉纳姆2,吴紫燕2,理查德·J·Radke11纽约州特洛伊伦斯勒理工学院电气、计算机和系统工程系2新泽西州普林斯顿西门子公司技术zhengm3@rpi.edu,{first.last}@ siemens.com,rjradke@ecse.rpi.edu摘要我们提出了一个新的深度架构的人重新识别(re-id)。虽然re-id最近取得了很大进展,但用于鲁棒跨视图匹配的空间定位和视图不变表示学习仍然是关键的未解决的问题。我们通过一种新的注意力驱动的连体学习架构来解决这些问题,这种架构被称为一致的注意连体网络。与现有的竞争方法相比,我们的关键创新包括:(a)灵活的框架设计,仅用身份标签作为监督来产生注意力,(b)明确的机制来加强同一个人的图像之间的注意力一致性,(c)一个新的暹罗框架,将注意力和注意力一致性结合起来,产生有原则的监督信号以及第一个可以解释暹罗框架预测背后的推理的机制。我们对CUHK 03-NP、DukeMTMC-ReID和Market-1501数据集进行了广泛的评估,并报告了竞争性能。1. 介绍给定“探测”相机视图中的感兴趣的人的图像或图像集合,人重新识别(re-id)尝试在另一相机视图中的“图库”候选集合中检索该感兴趣的人。由于其在几个视频分析应用(如监控)中的广泛吸引力,re-id在计算机视觉社区中出现了爆炸性增长[15,44,45]。虽然我们已经看到了re-id的巨大进步[4,5,28,31,32,34,36,37],但仍然有一些问题阻碍了person re-id的可靠,真实世界的使用。真实世界应用中的探测和图库相机视图通常具有大的视点变化,导致同一人的探测和图库图像之间的大量视图未对准。安装摄像机的位置之间的照明差异以及捕获数据中的遮挡增加了re-id理想情况下,我们需要一种方法,可以可靠地空间定位解释一致性图1:我们提出了第一个re-id框架,该框架提供了在连体学习架构中使注意力和注意力一致性端到端可训练的机制,从而产生了一种强大的交叉视图匹配技术,并解释了模型预测两张图像属于同一个人的原因。在图像中的感兴趣的人,同时还提供局部化部分的鲁棒表示,以便准确地匹配到候选者的图库。这表明我们要联合考虑空间定位和特征表示问题,并以一种可以促进端到端学习的方式制定学习目标。注意力是理解和解释神经网络决策的强大概念[9,25,27,49],提供了在给定图像级标签和训练模型的情况下生成注意区域以及执行空间定位的方法与其在一些现有工作中用作权重矩阵不同[2,3,35],这里我们指的是通过类特定梯度反向传播计算的最近的一些扩展[18]通过训练模型向前迈进了一步,注意力提供端到端的监督,从而改善了空间定位。这些方法不是为re-id问题设计的,因此不必联合考虑定位和不变表示学习虽然已经有一些尝试在联合学习这两个目标[17,21,24,38],这些方法并没有明确地执行任何类型的注意力一致性之间的图像相同的人。实际上,给定同一个人从不同角度拍摄的图像,相同是暹罗人?关注注意力一致性重新识别5736典型地,存在一些对于匹配来说重要的公共区域,这应当反映在如何对注意力进行建模以及如何将注意力用于监督中。此外,这种注意力一致性应该导致两个不同图像的一致特征表示,从而导致用于鲁棒跨视图匹配的不变表示。这些考虑自然地建议设计一个连体框架,该框架联合学习同一个人的图像的一致注意区域,同时还产生鲁棒的、不变的特征表示。虽然最近的一篇论文联合探讨了这些问题[38],但这种方法需要专门设计的注意力建模架构它也没有一个明确的机制来解释模型预测背后的为此,我们为re-id设计并提出了一个新的 深 度 架 构 , 我 们 称 之 为 一 致 性 注 意 连 体 网 络(CASN),解决了上面讨论的所有关键问题和注意事项(图1)。具体来说,我们设计了一种新的两分支架构,该架构(a)在训练期间产生注意区域,而不需要除了身份标签或任何专门设计的用于建模注意力的架构之外的任何额外监督,(b)明确地强制这些注意区域对于同一个人是一致的,(c)使用注意力和注意力一致性作为学习过程的明确和原则部分,以及(d)学习产生用于跨视图匹配的鲁棒表示。总而言之,我们的主要贡献包括:• 我们提出了一种技术,使感兴趣的人的空间定位的学习过程的一个原则部分,提供监督,只有通过个人身份标签。这使得空间定位端到端可训练,并自动发现完整的注意区域。• 我 们 提 出 了 一 个 新 的 计 划 , 强 制 注 意considerations 作为学习过程的一部分,提供支持,- 促进对同一人的图像的连续注意区域的端到端学习的透视• 我们提出了第一个学习架构,集成了注意力的一致性和连体学习的联合学习框架。• 我们提出了第一个连体注意力机制,该机制联合模拟了相似图像之间的一致注意力,从而产生了一种强大的方法,可以帮助我们解释网络预测背后的原因2. 相关工作传统的人重新身份识别算法涉及手工制作的特征设计,然后是监督距离测量,ric学习参见Karanam等人。 [15]和Zheng等人。 [45]详细的实验和算法研究。深度学习[11,12]的最新发展也影响了re-id算法的设计,深度re-id算法在chal-challening数据集上实现了令人印象深刻的性能然而,在没有空间定位感知的情况下对re-id模型的朴素训练将由于交叉视图误对准、遮挡和杂乱而不会导致令人满意的性能。为了解决这些问题,最近的几种方法采用了某种形式的局部表示学习。Zhao等人。 [43]将每个图像分解为不同的部分区域,并学习特定于区域的表示,然后通过聚合方案产生整体图像表示。Li等人 [17]提出首先通过空间Transformer网络[14]学习和定位身体部位特征,然后结合局部和全局特征来学习分类网络。 Su等人[31]使用人体姿势信息作为监督信号来学习作为识别网络的一部分的标准化人体部分表示。然而,这些方法和其他几种最近的方法[18]本身考虑了空间定位问题,并产生了不跨视图一致的表示和定位。另一方面,我们的方法在一个整体的联合框架中处理空间定位和表示学习,同时加强一致性,这是re-id的关键。在re-id中,注意力被用来解决定位和未对准问题。Liu等人。 [24]提出了HydraPlus-Net架构,该架构可以学习发现低级和语义级关注特征,以实现更丰富的图像表示。Li等人 [21]设计了一种方案,用于同时学习多粒度特征表示的“硬”区域级和“软”像素级特征。Li等人。 [19]学习了多个预定义的注意力模型,并表明每个模型对应于特定的身体部位,然后通过时间注意力模型聚合其输出这些方法通常具有不灵活的特定于区域的注意力模型作为学习图像中的重要区域的整体框架的一部分,并且更重要的是,没有明确的机制来强制注意力一致性。我们的方法与这类方法[30,40]明显不同,因为我们只需要图像级别的标签来学习注意力,同时还通过使其成为学习过程的原则部分来加强注意力的一致性。一致性是re-id解决跨视图差异的一个重要方面虽然这已经在一些先前的工作[16]中在术语“等方差”下进行了研究,但是对于re-id,它已经反映在尝试学习不变特征表示的Siamese类设计中[7,8,20,28,42]。这些模型联合学习特征和距离度量,并且不直接解决空间定位问题,通常制定基于局部部分的方法来解决5737n=1n=1问题所在在涉及遮挡和杂乱的场景中,这可能不是最佳解决方案,注意力会导致更好的空间定位。为此,与这些方法相反,我们的方法在学习过程中利用注意力,同时还联合学习一致的空间局部化和不变特征表示。3. 一致注意暹罗网络在本节中,我们将介绍我们提出的基于注意力的深度架构,即一致性注意力连体网络(CASN),如图2. CASN包括一个识别模块和一个Siamese模块,它们提供了一种强大、灵活的方法来处理视点变化、遮挡和背景杂波。识别模块(第3.1节),其明确的注意力指导作为监督,只给出身份标签,帮助找到可靠和准确的空间定位的人在图像中的兴趣,并执行身份(ID)预测。暹罗模块(第3.2节)为网络提供了来自注意力一致性的监督信号,确保我们为同一个人的图像获得空间一致的注意力区域,以及学习-3.1.1IDE基线架构IDE基线基于ResNet50架构[11],遵循[45]中的工作和最近采用ResNet50的论文从conv1到conv5的卷积层在ImageNet上进行预训练[10],然后由两个完全连接的层组成的IDE分类器为输入图像生成身份预测。鉴别基线目视总结见图3。请注意,虽然图3显示了IDE架构[45],但这可以很容易地与任何其他可以给出特征向量f的基线架构交换。例如,要使用基于部分的卷积基线(PCB)架构[34],只需在获得f之前将图3中的“特征提取”块与PCB的主干交换PCB是IDE的一个修改,它用空间池代替了IDE中的全局平均池操作,用于区分部分信息特征学习。基线模型是通过优化识别损失来学习的,这基本上最大化了为每个训练信息预测正确的类(身份)标签的可能性年龄形式上,给定N个训练图像{I n},N属于到C个不同的身份,每个图像具有身份标签{c n}N∈{1,.,C},我们优化以下内容使用视图不变特征表示进行鲁棒的图库匹配。在下文中,我们将分别描述这两个多类交叉熵损失:ΣNexp(y)模块更详细,导致整体设计,的CASN。Lide=−n=1对数ΣCnjexp(yj)(一)其中ycn是来自输入图像In的IDE分类器的类cn的预测。Resnet50(预训练)特征提取鉴别基线FCFCIDE分类器图2:一致的注意暹罗网络。3.1. 识别模块首先介绍了CASN的身份识别模块的体系结构。我们首先描述训练识别(IDE)模型的基线架构[45],然后是将注意力引导集成到IDE架构中的整体识别模块图3:基线。f是Resnet50conv5之后的特征向量,y是维度等于训练标识总数的ID预测向量,并且yc是输入图像的ID标签c注意,这里的IDE或PCB [34]。3.1.2识别注意事项感兴趣的人的空间定位是re-id算法的关键第一步,这应该反映在端到端的学习过程中。虽然最近的许多工作⋯特征映射特征映射conv1conv55738专注于生成给定图像级标签的注意力区域[9,25,27,49],我们需要使注意力成为学习过程本身的一个明确部分,然后可以引导网络更好地定位感兴趣的人。为此,我们采用Li等人的框架。[18]并引入注意力学习作为我们识别模块的一部分,帮助网络在人物图像中生成空间注意区域,而不需要任何额外的信息作为除了身份标签之外的监督,这已经可用。给定一个输入图像In及其身份标签cn,我们首先通过Grad-CAM [27]从IDE分类器预测中获得注意力(定位)图。然而,仅使用IDE损失训练的re-id模型将仅关注tion模块,我们首先使用IDE基线架构来获得身份预测。注意力图是用Grad-CAM计算的,并在排除高注意力区域的掩蔽图像上使用识别注意力目标进行细化,以执行更完整的空间定位。3.1.3讨论虽然IDE架构可以为匹配提供良好的基线特征表示[15,36,45],并且我们上面讨论的提出的识别模块可以通过设计进一步实现合理的空间定位,但仍有一些问题尚未解决。首先,识别模块没有机制来确保我们为同一个人的不同图像获得一致的注意区域。这可以从设计本身推断出来,它缺乏任何导致注意一致性的指导原则。直观地说,这是鲁棒的re-id的关键,因为在同一个人的不同图像中通常有共同的区域,这些区域需要在图4:识别损失的注意力地图(左)和识别损 失 的 注 意 力 学 习(右)。大多数区分区域对于满足当前分类目标是重要的,并 且 可 能 不 能 很 好 地 概括。为了更好地说明这一概念,请考虑Grad.匹配。第二,识别模块没有机制来学习跨不同相机视图的不变此外,注意一致性应该与一致的特征表征相对应最后,识别模式的注意力成分-CAM 注 意 力 图 示 例 如 图 4 ( 左 ) 所 示 , 来 自Market1501 [44]的图像。per-son的灰色裤子吸引了最多的注意力,但蓝色夹克也是左侧注意力地图中被忽略的有用信息。为了获得更完整的注意力地图和对前景主题的关注,我们使用注意力学习的概念。具体而言,给定In和Cn,我们计算其注意力地图Mn,并屏蔽In中最具区别性的区域(对应于Mn),得到I n=I n<$(1−<$(M n)),其中<$是逐像素乘法,<$(·)=sigmoid(α(Mn−β))。这产生排除所有高响应图像像素的In如果Mn完美地在空间上定位感兴趣的人,In将不包含对对应的身份预测ycn有贡献的像素。我们使用这个概念来提供监督的识别模块,以产生更完整的空间定位。具体地,我们将识别模块的识别注意力损失Lia定义为掩蔽输入图像In的预测分数:规则在推理过程中并不特别合适,因为我们不知道测试图像的身份来计算其注意力图。虽然解决这个问题的方法是使用前k个预测来计算注意力,但这显然是一个次优解决方案。识别模块的问题导致我们设计CASN的连体模块,试图以原则性的方式解决这些问题。3.2. Siamese模块在这一部分中,我们引入了Siamese模块来补充所提出的CASN的识别模块。给定一对输入图像,我们首先考虑二进制分类问题(第3.2.1节),然后使用其目标函数来制定暹罗注意机制(第3.2.2节),以加强注意一致性和一致性感知不变表示学习。3.2.1二元分类给定一对输入图像,我们构造一个二进制类-Lia=ycn(二)用于预测该对是否属于同一类的sification目标 给定特征向量f1和f2从模型在图4中示出了仅用识别损失训练的一个和用识别损失和注意力学习训练的一个,其中我们在右边看到了更多的用注意力学习的前景主题覆盖 总之,在身份证上-对于输入对中的图像I1和I2(参见图3),我们计算差值f−=f1−f2,它形成了使用二进制交叉熵的分类器的输入目标(BCE)来获得当前输入对的类预测。 请注意,由于我们开始计算注意力,5739f−−M1M1M1M212ǁ2M2M2在GradCAM [27]的精神中,我们需要一个分类目标来计算接下来描述的连体注意力,为此我们选择了BCEBCE分类器在结构上类似于第3.1.1节中的IDE分类器,具有两个完全连接的层。BCE分类器的输出预测向量z是2维向量,其指示输入对是否属于同一身份。对于一批P个输入对,被优化的BCE分类目标被定义为:部分为了提供一个明确的注意一致性感知的支持信号,并引导网络发现一致的跨视图重要性区域,我们引入了空间注意力约束的概念,基于来自BCE分类目标的注意力地图。.. ΣΣexpzcp(a)(b)(c)Lbce=−日志pexp(z0)+exp(z1)(三)c p∈ {0,1},p= 1,. . . 得双曲余切值.其中z_c_p是输入对p的BCE分类器的相同(c_p=1)或不同(c_p=0)身份预测。3.2.2暹罗注意力机制如前所述,识别注意力本身并不能确保注意力的一致性和身份感知的不变性表征。为此,我们提出了一个新的暹罗注意力机制,明确指导注意力的一致性。考虑具有相同身份的两个图像I1和I2以及对应的BCE分类器预测z1。我们首先本地化的两个图像,有助于此BCE预测的关注区域为此,我们计算预测得分相对于特征向量f-的梯度,即,z1.然后,我们通过构造如下的指示向量α,找到f−中对最终BCE预测有积极影响(d)(e)(f)图5:BCE损失的注意力地图演示。(a-c):正对,(d-f):负对。给定注意力图M1和M2,我们首先应用最大池化操作来计算每个水平像素行的最高响应,从而给出两个重要向量Mm1和Mm2。为了加强注意力,我们明确地限制它们尽可能接近为了避免如图5(c)中的对齐问题,我们在Mm1和Mm2中找到大于某个阈值t的垂直向量的第一个和最后一个元素,然后重新调整剩余元素的大小以具有相同的维度。我们将强制注意力一致性的暹罗注意力损失定义为:αi=.1、如果为1,fi>0,i ={0,., dim(f −)}(4)Lsa =Lbce +αM中国(5)∗ ∗0,否则其中Lbce在等式3中定义,Mm1和Mm2分别为对齐后Mm1和Mm2的调整大小的向量,基于指示向量α,重要性得分其中,α是M和M之间的l2距离,α是对于输入特征向量f1和f2,可以计算为α和特征向量的点积: s1=(α,f1)和s2=(α,f2)。与Grad-CAM [27]的精神相同,从s1和s2反向传播的梯度首先是glob,我是一个普通人。- 游泳池已经找到了通道。重要性权重- 权重参数,其相对于空间注意力约束控制BCE损失的重要性。我们提出的暹罗注意力机制的视觉摘要如图6所示。对于属于相同身份的输入对,从αk=间隙第一章A1αk=GAP第二章A2,其中A1和BCE分类器预测,然后它们是最大的-A2是图像I1和I2在最后一次卷积时的特征图卢蒂奥蒂昂莱河. 在地图上的注意力可以。电子计算机数据库汇集以收集本地化统计信息,注意力一致性M1=ReLUαkAkM2=ReLUα k A k.K1 1K2 23.3. CASN的总体设计注意力地图的可视化,从BCE损失如图5所示。对于同一个人的图像,我们希望注意力图M1和M2为图像中的相应区域提供一致的重要性。例如,如图5(b)所示,图1中的注意力图集中在人的全身,而图2中的注意力图主要集中在下半身有了前面几节中讨论的识别和连体模块,我们现在展示集成这两个模块的整体框架。我们提出的CASN(如图2所示)是一个双分支架构。在训练过程中,我们将一对属于相同或不同身份的图像作为输入。后特征- -米M5740图6:暹罗注意力机制的演示。黄色箭头表示向后操作,绿色箭头表示向前操作。BCE损失Lbce和空间约束被添加为连体注意力损失Lsa。注意,这里的“特征提取”块可以来自任何基线架构,例如,IDE或PCB。提取(见图3),特征向量分别输入到在识别模块中,首先将特征向量传递到IDE分类器进行身份分类,然后从其身份标签中检索识别注意力损失然后引导识别模块发现输入图像的完整注意力区域。Siamese模块将来自两个分支的特征向量的元素减法作为输入,然后将其输入到BCE分类器以从BCE损失中检索图像对鉴于此,我们强制执行空间约束目标,以确保输入对中的两个图像之间的注意区域的空间一致性。我们针对这里联合描述的所有目标优化了我们提出的CASN,总体CASN训练目标如下:L=Lide+λ1Lia+λ2Lsa(6)其中Lide是IDE分类损失,Lia是识别注意力损失,Lsa是连体注意力损失。请注意,图2中两个分支中的特征提取块共享权重。所提出的CASN以原则性的方式解决了之前讨论的所有问题,允许我们(a)生成具有注意力一致性的注意力地图,(b)通过设计学习身份感知不变表示,以及(c)在推理过程中使用注意力地图来识别训练期间未看到的身份。此外,相比现有的注意力机制中采用的人re-id,我们的框架是灵活的设计,它可以与任何基础架构或基线re-id算法结合使用。例如,在第4节中,我们展示了IDE [39]和PCB [34]基线的性能改进。此外,我们在训练过程中只需要身份标签(竞争算法也使用),但关键是,不需要任何专门设计的架构子模块来使注意力成为学习过程的一部分。4. 实验和结果数 据 集。 我 们 使用 Market-1501 [44], CUHK 03-NP [20 ,48],和DukeMTMC-ReID [26,46]。[44]第44话来自6个摄像机视图的人物图像,包含具有751个不同身份的12,936个训练图像。图库和查询集分别有19,732和3,368张图片,有750个不同的身份。CUHK03-NP是CUHK 03 [20]的一种新的训练-测试分割协议,首次提出于[48],将训练和测试集分割为767和700个身份 。DukeMTMC-ReID [46]是从DukeMTMC[26]生成的基于图像的re-id数据集,该数据集将训练集和测试集随机平均分为702个身份。实施详情。我们将所有图像的大小调整为288×144,使用动量为0.9的SGD,学习率为0.03,总共40个epoch,学习率为1.5。在时期30增加10倍。公式5中的参数α被设置为0.2,公式6中的λ1和λ2分别被设置为0.5和0.05。对于PCB基线,我们遵循与[34]相同的协议,并将图像大小调整为384×128。我们将批处理大小设置为16,使用两个NVIDIAGTX-1080Ti GPU,并在Pytorch [1]中实现所有代码评价方案。训练后,我们使用查询和图库作为配对输入,从BCE分类器预测中获得注意力图。注意力图的l2距离(第3.2.2节中的等式5)和特征向量的l2我们报告秩1累积匹配特征(CMC)和平均精度(mAP)结果。4.1. 与最新技术水平的比较在表1和表2中,我们比较了我们的方法与最近提出的 几 种 应 用 于 CUHK 03-NP , DukeMTMC-ReID 和Market-1501数据集的算法的性能。请注意,我们所有的结果都是评估,没有重新排名[48]和PCB [34]架构作为后端。CUHK03-NP。我们报告的实验结果检测和标记的人的图像。新的训练-测试分割只包含大约7,300张训练图像,5741与其他数据集相比,更容易过拟合。然而,实验结果表 明 , 我 们 的 方 法 在 检 测 集 和 标 记 集 上 的 rank-1(+4.7%,+5.7%)分别超过了最先进的水平,证明了CASN的强大泛化能力。更重要的是,与最近提出的基于注意力的方法HA-CNN [21]相比,我们的CASN分别实现了29.8%和25.8%的rank- 1和mAP改进(在检测集上)表1:CUHK 03-NP(检测和标记)。检测标记R-1地图R-1地图[44]第四十四话[22]第二十二话百分之六点四百分之十二点八百分之六点四百分之十一点五百分之七点九百分之十四点八百分之七点三百分之十三点六IDE [45]百分之二十一点三百分之十九点七22.2%21.0%[第四十七话]百分之三十六点三34.0%百分之三十六点九35.0%[41]第四十一话40.7%37.0%43.0%百分之四十点五[21]第二十一话41.7%百分之三十八点六44.4%41.0%MLFN [4]52.8%百分之四十七点八百分之五十四点七49.2%[37]第三十七话百分之六十三点三59.0%百分之六十六点一61.6%PCB+RPP [34]百分之六十三点七百分之五十七点五--MGN [36]66.8%66.0%68.0%67.4%CASN(IDE)百分之五十七点四百分之五十点七百分之五十八点九百分之五十二点二CASN(PCB)71.5%64.4%百分之七十三点七68.0%表2:DukeMTMC-ReID和Market-1501(SQ)。dukemtmc-ReidMarket-1501R-1地图R-1地图[44]第四十四话[22]第二十二话百分之二十五点一百分之三十点八12.2%17.0%44.4%百分之四十三点八百分之二十点八22.2%SVDNet [33]76.7%百分之五十六点八百分之八十二点三62.1%[21]第二十一话百分之八十点五百分之六十三点八91.2%百分之七十五点七DuATM [28]百分之八十一点八64.6%百分之九十一点四76.6%PCB+RPP [34]百分之八十三点三百分之六十九点二百分之九十三点八81.6%DNN CRF [6]百分之八十四点九百分之六十九点五--MGN[36]88.7%百分之七十八点四95.7%86.9%CASN(IDE)84.5%67.0%百分之九十二百分之七十八CASN(PCB)百分之八十七点七百分之七十三点七94.4%82.8%DukeMTMC-ReID。我们在表2中报告了竞争结果。再次,与最近提出的基于注意力的方法HA-CNN [21]和DuATM [28]相比,我们的CASN分别实现了7.2%和5.9%的秩1准确性改进以及9.9%和9.1%的mAP改进。市场-1501。 我们在表2中报告了与CASN的竞争结果。然而,与最近提出的基于注意力的方法相比,例如,HA-CNN[21]和DuATM[28] ( 如 表 所 示 ) 和 CAN [23] ( R-1 : 60.3% , mAP :35.9%)、HPN [24](R-1:76.9%)、MSCAN [17](R- 1:80.3%,mAP:57.5%),我们的方法产生了更高的结果与秩-1和mAP。从这些结果可以看出,拟议的CASN5742基本上优于现有的用于RE-ID的基于注意力的方法。更重要的是,与这些竞争性的基于注意力的方法不同,CASN不需要任何专门设计的用于建模注意力的深层架构,仅依赖于身份标签进行监督。这使得CASN能够高度灵活地与任何基线 CNN 架 构 结 合 使 用 , 例 如 VGGNet [29] ,DenseNet [12]或SqueezeNet [13]。例如,使用DenseNet 和 IDE 基 线 , CASN 在 CUHK 03-NP(检测到)上分别实现了57.2%和52.0%的rank-1和mAP性能,这接近CASN使用ResNet 50和IDE的结果,下面将4.2. 消融研究和讨论在本节中,我们进一步研究了识别注意和连体注意机制各自的作用,以及它们如何影响CASN的表现在表3中,我们报告了我们提出的模型对CUHK 03-NP(检测到)、DukeMTMC-ReID和Market-1501的评估结果,从基线IDE和PCB架构开始,一直到完整的CASN模型。从表3中,我们可以看到,与单独的注意力模块相比,性能有了明显的提高。例如,在CUHK 03-NP中,IDE+IA将基线IDE的1级和mAP性能分别提高了9.0%和9.2%,而IDE+SA将1级准确度分别提高了9.4%和10.2%。这为我们最初的假设提供了证据,即通过端到端可训练的注意力机制,空间定位应该是框架设计的重要组成部分。此外,添加两个atten- tion模块提高了性能,如通过等级-1准确度和mAP测量的,证明了使用识别和连体模块的重要性表3:消融研究。IA:识别注意事项,SA:暹罗注意,SQ:单查询。损失类型CUHK03-NPdukemtmc-Reid市场-1501(SQ)R-1地图R-1地图R-1地图IDE [34]百分之四十三点八38.9%百分之七十三点二52.8%百分之八十五点三68.5%IDE + IA百分之五十四点八百分之四十八点一83.2%66.0%91.0%百分之七十六点九IDE + SA55.2%49.1%83.5%66.0%百分之九十一点六百分之七十七点七CASN(IDE)百分之五十七点四百分之五十点七84.5%67.0%百分之九十二百分之七十八PCB [34]百分之六十一点三百分之五十四点二81.7%百分之六十六点一92.4%百分之七十七点三PCB + IA68.5%62.4%87.3%百分之七十三点四百分之九十三点九百分之八十一点八PCB + SA百分之六十九点九64.2%百分之八十六点八百分之七十三点五94.1%百分之八十二点六CASN71.5%64.4%百分百分之94.4%82.8%(PCB)之八十七点七七十三点七图7(a-b)显示了从使用BCE损失和BCE损失与暹罗注意力损失训练的模型中获得的注意力地图的比较。显然,与图7(a)相比,使用所提出的连体注意力机制,我们在图7(b)中获得此外,我们还展示了这些注意力地图的测试图像对5743(a) 从BCE丢失中检索的注意力地图(培训)(b) 从BCE损失与暹罗注意力损失(训练)检索注意力地图(c) 从使用Siamese Attention训练的模型中检索到的注意力图(查询图像的1级图库匹配图7:通过对同一个人的图像的注意力地图来证明所提出的连体注意力的有效性在图7(c)中,我们再次看到查询和检索到的图库图像之间的注意力一致性。这些例子证明了我们提出的连体注意机制的有效性有了这样的注意力地图,我们现在可以解释为什么我们的暹罗网络预测某个输入图像对是相似或不相似的,从而直观地解释人的re-id。更详细地,图8(a)示出了两个查询图像(每行一个),以及它们的秩1(左列)和地面实况匹配(右列)。每个秩1匹配都是错误匹配(失败案例),而地面真实值具有较低的秩,我们可以从注意力地图中理解推理。例如,在第一行,我们看到查询和rank-1之间的合理注意一致性(注意都显示穿着连衣裙的女性),这解释了为什么错误的匹配排名为1,而不像地面实况,我们看到注意力集中在不同的区域,导致排名较低(在这个例子中排名3)。在图8(b)中,我们证明了我们提出的连体注意力的有效性(两个例子,每个例子一行)。左列显示{query,ground-truth}和没有暹罗关注的地面真实值权列显示了这些结果与暹罗的关注。我们可以看到,连体注意导致更好的注意一致性,这也反映在提高排名。5. 结论我们提出了第一个学习架构,它集成了注意力一致性建模和连体表征学习的联合学习框架,称为一致性注意连体网络(CASN),用于人的re-id。我们的框架提供了原则性的监督信号,指导我们的模型为相同的身份图像发现一致的关注区域,同时还学习跨视图匹配的身份感知不变表示。我们对三位受欢迎的人进行了广泛的评估图8:(a)我们的注意力地图可以解释错误(高排名,例如,等级1)和地面实况匹配(低等级,例如,等级3)。(b)连体注意力提高了排名,提供了注意力一致性的推理。re-id数据集并展示了具有竞争力的性能。虽然第3.2.2节中的计算注意力特定于现有基准中常见的站立姿势,但我们的框架是可扩展的,以在给定数据或特定于领域的先验的情况下实施不同类型的一致性,以实现现实世界的普遍性。鸣谢本材料基于由美国政府支持的工作。国土安全部,编号2013-ST-061-ED 0001。本文件中包含的观点和结论是作者的观点和结论,不应被解释为必然代表美国官方政策,无论是明示还是暗示。国土安全部5744引用[1] Pytorch https://pytorch.org/的网站。[2] Jacob Andreas,Marcus Rohrbach,Trevor Darrell,andDan Klein.神经模块网络。在CVPR,2016年。[3] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年,国际会议[4]作者:Timothy M.Hospedales和Tao Xiang。用于人员重新识别的多级分解网络。在CVPR,2018年。[5] 陈大鹏,李洪生,刘希辉,沈艳涛,袁泽建,王晓刚.通过全局和局部图像-语言关联来改进用于人重新识别的深度视觉表示。在ECCV,2018。[6] Dapeng Chen,Dan Xu,Hongsheng Li,Nicu Sebe,andXi-王奥刚。通过深度CRF进行群体一致性相似性学习,以进行人员重新识别。在CVPR,2018年。[7] Weihua Chen,Xiaotang Chen,Jianguo Zhang,andKaiqi煌除了三重态损失:一种用于人员重新识别的深度四元组网络。在CVPR,2017年。[8] 郑德成,龚义红,周三平,王金军,和南宁郑。通过具有改进的三重损失函数的基于多通道部件的CNN进行人员重新识别。在CVPR,2016年。[9] Ramazan Gokberk Cinbis、Jakob Verbeek和Cordelia施密特基于多重多示例学习的弱监督目标定位。IEEETransactionsonPatternAnalysisandMachineIntelligence,2017年1月。[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and李飞飞ImageNet:一个大规模的分层图像数据库。CVPR,2009。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[12] Gao Huang,Zhuang Liu,Laurens van der Maaten,andKil-伊恩·Q·温伯格密集连接的卷积网络。在CVPR,2017年。[13] 福雷斯特N. 放大图片放大图片作者:Matthew W. 莫斯凯维奇作者:William J.达利和库尔特·库泽。Squeezenet:Alexnet 级 别 的 精 度 , 参 数 减 少 50 倍 , 模 型 大 小 为0.5mb。arXiv:1602.07360,2016。[14] 麦克斯·杰德伯格凯伦·西蒙尼安安德鲁·齐瑟曼还有科雷·卡武库奥卢空间Transformer网络。在NIPS。2015.[15] 斯里克里希纳·卡拉纳姆 苟梦然: 吴紫燕,天使Rates-Borras、Octavia Camps和Richard J.拉德克人员重新识别的系统评估和基准:功能、指标和数据集。IEEE Transactions on Pattern Analysis and MachineIntelligence,41:523-536,Mar. 2019年。[16] Karel Lenc和Andrea Vedaldi。 学习协变特征探测器在ECCVW,2016年。[17] Dangwei Li,Xiaotang Chen,Zhang Zhang,and KaiqiHuang. 在身体和潜在部位上学习深度上下文感知特征,在CVPR,2017年。[18] Kunpeng Li,Ziyan Wu,Kuan-Chuan Peng,Jan Ernst,and云福 。告 诉我 去哪 里看 :引导 注意 推理 网络 。在CVPR,2018年。[19] Shuang Li,Slawomir Bak,Peter Carr,and Xiaogang Wang.5745基于视频的人再识别的多样性正则化时空注意。在CVPR,2018年。[20] Wei Li,Rui Zhao,Tong Xiao,and Xiaogang Wang. 深-Reid:深度过滤配对神经网络用于人员重新识别。CVPR,2014。[21] Wei Li,Xiatian Zhu,and Shaogang Gong. 和谐在-用于人员重新识别的张力网络。在CVPR,2018年。[22] Shengcai Liao , Yang Hu , Xiangyu Zhu , andStan Z.李通过局部最大发生表示和度量学习进行个体再识别。CVPR,2015。[23] 刘昊: 贾士风: 祁美斌, 蒋建国,燕水城。端到端的比较注意力网络,用于人员重新 识 别 。 IEEETransactionsonImageProcessing,2017年7月。[24] 刘希慧,赵海宇,田茂清,卢胜,邵晶,Junjie Yan,and Xiaogang Wang. Hydraplus-net:用于行人分析的细心的深度特征。InICCV,2017.[25] Maxime Oquab、Leon Bottou、Ivan Laptev和JosefSivic。对象本地化是免费的吗?- 用卷积神经网络进行弱监督学习。CVPR,2015。[26] Ergys Ristani,Francesco Solera,Roger Zou,RitaCucchiara,卡洛·托马西多目标、多相机跟踪的性能测量和数据集。在ECCV,2016年。[27] 兰普拉萨河 Selvaraju,Michael Cogswell,AbhishekDas,Ramakrishna Vedantam,Devi Parikh,andDhruv Ba- tra. Grad-cam:通过基于梯度的定位从深度网络进行视觉解释。InICCV,2017.[28] Jianlou Si , Honggang Zhang , Chun-Guang Li , JasonKuen,Xiangfei Kong,Alex ChiChung K
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功