遮挡感知注意力网络：提高遮挡人物再识别准确性的新方法

13 浏览量更新于2023-10-15 收藏 12.63MB PDF 举报

厦门大学

行人再识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Peixian Chen1,3, Wenfeng Liu1, Pingyang Dai1*, Jianzhuang Liu2,Qixiang Ye4, Mingliang Xu5, Qi’an chen1, Rongrong Ji1pxchen@stu.xmu.edu.cn, wenfengliu.xmu.edu.cn, pydai@xmu.edu.cn, liu.jianzhuang@huawei.com,qxye@ucas.ac.cn, iexumingliang@zzu.edu.cn, cheer@xmu.edu.cn, rrji@xmu.edu.cn,118330Occlude Them All: 遮挡感知注意力网络用于遮挡人物再识别01 厦门大学，中国，2 华为技术有限公司诺亚方舟实验室，3 腾讯优图实验室，4中国科学院大学，中国，5 郑州大学，中国，0摘要0行人再识别（ReID）在深度学习时代取得了显著的性能。然而，大多数方法仅基于整体行人区域进行ReID。相反，现实世界的场景涉及到遮挡行人，这些行人提供了部分的视觉外观并破坏了ReID的准确性。一种常见的策略是通过辅助模型定位可见的身体部位，然而这种方法存在显著的领域差异和数据偏差问题。为了避免在遮挡人物ReID中出现这种问题的模型，我们提出了遮挡感知掩膜网络（OAMN）。具体而言，我们引入了一个注意力引导的掩膜模块，该模块需要来自标记的遮挡数据的指导。为此，我们提出了一种新颖的遮挡增强方案，可以为任何整体数据集生成多样且精确标记的遮挡。与现有方案相比，我们提出的方案更适合现实世界的场景，因为它考虑了更多类型的遮挡。我们还提供了一种新颖的遮挡统一方案，以解决测试阶段的模糊信息问题。上述三个组件使得现有的注意力机制能够准确捕捉到遮挡情况下的身体部位。在各种行人ReID基准测试上的综合实验表明，OAMN优于现有技术。01. 引言0行人再识别（ReID）旨在在不同的摄像头下识别相同的行人，这些摄像头的视角、光线和位置各不相同。随着深度学习时代的到来，基于卷积神经网络的ReID方法得到了广泛应用。0* 通讯作者。0（a）遮挡行人0（b）RGA-S0（c）我们的0图1：遮挡行人示例和引入注意力的说明。（a）显示了遮挡行人的示例。（b）和（c）分别说明了RGA-S[33]和我们提出的OAMN引入的注意力。（b）可能错误地关注遮挡，但（c）不会。0卷积神经网络（CNN）在性能上取得了显著的成果[2, 32,14,12]。然而，这些方法仅基于整体行人区域进行ReID，忽略了在现实世界场景中经常发生的遮挡，如图1a所示。识别遮挡行人面临着重要的挑战。特别是，遮挡行人与行人本身相比具有较少的可区分特征，同时引入了来自遮挡区域的模糊信息。这种模糊性，如丰富的纹理和噪声，会误导外观表示。现有的方法通常使用辅助模型来获取遮挡身体部位的信息，以辅助学习过程，例如使用人体解析来捕获身体部位特征[10]，分离118340一半0四分之一0一半0四分之一0（a）真实世界的遮挡0上下左右0一半0上下左右0一半0(b) 遮挡增强0图2：遮挡行人和增强图像。0使用身体掩模[42]遮挡和通过估计人的关键点[19, 30,28]来定位人体区域的方法已经被提出。然而，这些辅助模型是在不同领域上预训练的，导致学习过程受到显著的领域差距和数据偏差问题的困扰[8]。因此，错误的标签会误导学习过程，整个网络变得更加复杂和低效[17]。为了避免辅助模型的领域差距和低效问题，我们提出了一个注意力引导的掩模模块，该模块结合了注意力机制，已经被证明在引导模型关注身体区域而不是背景方面是有效的[29, 33,13]。然而，这些好处不能直接转移到遮挡问题上，因为现实世界的遮挡包含比背景更丰富的纹理信息。我们观察到直接使用注意力会产生错误的结果，如图1b所示。尽管使用先进的注意力网络（即RGA-S[33]）学习的模型能够避免背景对象，但这些模型不能有效地消除遮挡。这个问题的一个常见原因是缺乏标记的遮挡数据的指导。为了补充标记的遮挡数据，我们提出了一种新颖的遮挡增强方案，该方案使用从其他图像中裁剪的“遮挡”来增加具有上述遮挡类型的训练数据，并继承原始训练图像的标签，如图2b所示。因此，与现有的数据增强方案相比，该方案更适用于现实世界的遮挡，后者只考虑单调的遮挡，这些模型学习到的数据很容易过拟合到一组特定的遮挡，提供的改进有限。相反，通过多样化的遮挡图像和精确的标签，该方案更适合于现实世界的场景。然而，在测试阶段，测试图像带有各种不同的未标记遮挡，破坏了ReID的性能。0我们提出了一种遮挡统一方案来解决这个问题。首先，通过学习辅助遮挡评分器来标记目标行人的遮挡类型。其次，我们使用与目标行人相同类型的遮挡遮挡所有画廊图像，即“全部遮挡”策略（有少数例外，详见第3.4节）。因此，原始的模糊信息被统一，使注意力模块能够精确地捕捉身体部位，而不受遮挡的影响。总之，我们提出了一种面向遮挡问题的遮挡感知掩模网络（OAMN）来解决人物ReID中的遮挡问题。OAMN采用了三个创新组件：注意力引导的掩模模块、遮挡增强和遮挡统一。这些组件使现有的注意力机制能够精确地捕捉身体部位，而不受遮挡的影响，如图1c所示。OAMN解决了几个挑战，最终将注意力机制引入到遮挡的人物ReID中。0我们总结我们的贡献如下。01.我们提出了遮挡感知掩模网络，这是一种高效而有效的方法，用于解决人物ReID中的遮挡问题。我们使注意力机制能够精确地捕捉身体部位，而不受遮挡的影响。02.我们提出了一种新的遮挡增强方案，可以为任何整体数据集生成多样化的遮挡图像和精确的标签。我们提出了一种新颖的遮挡统一方案，以在测试阶段统一模糊性。03.我们在包含遮挡的三个人物ReID数据集中评估了提出的OAMN。定量结果显示，OAMN在Occluded-DukeMTMC、Partial-ReID和Partial-iLIDS上的rank-1准确率分别为62.6％、86.0％和77.3％，达到了最先进的性能。02. 相关工作02.1. 人物重新识别0人物重新识别的目标是在其他摄像头中找到感兴趣的人物，并且在最近几年的研究中取得了很大的进展。与手工制作的描述符[32, 18]和度量学习方法[1, 6,39]相比，深度学习算法[27, 33,13]现在在人物重新识别中占据主导地位。一些方法尝试学习局部信息以实现更精细的特征匹配[27, 31, 34,35]。注意机制也被采用，以确保模型专注于人体区域，从而产生更有效的特征[29, 33,13]。然而，这些方法忽视了遮挡问题，无法将人物与遮挡物分开，而在真实世界中，特别是在拥挤场景中，这是不可避免的。118350� � �0� � �0整体图像0L mask0L score0L tri-g0L ide0增强 f g0m0h r0底部遮挡顶部遮挡0右遮挡左遮挡0遮挡图像0图3：OAMN的概述。增强机制产生额外的遮挡图像。我们将主干编码器分为下部分EI和上部分EII。在分割编码器之间，我们插入一个注意力引导的掩码网络M来引导网络的注意力。遮挡评分器T在测试阶段学习预测遮挡类型。02.2. 部分人物重新识别0部分人物ReID的目标是手动裁剪被遮挡探测图像的可见部分作为新的探测图像，然后将部分探测图像与画廊的整体图像进行匹配。Zheng等人首次提出了部分ReID问题。他们采用了一个名为敏感性模糊匹配分类器（AMC）的模型来匹配全局到局部的信息，并引入了一个全局基于部分的匹配模型，称为滑动窗口匹配（SWM）。Sun等人提出了一个适用于部分人物ReID任务的可见性感知部分模型（VPM），通过自监督来定位行人图像上的可见区域。He等人提出了用于部分人物ReID的深度空间特征重建（DSR），它是无需对齐的，适用于任意大小的人物图像。Luo等人提出了一种基于配对空间变换网络（STNReID）的新型深度部分ReID框架，可以在整体数据集上进行训练。然而，部分人物Re-ID问题需要手动裁剪操作，效率低下，可能引入人为偏差。尽管部分人物ReID取得了巨大的进展，但仍然不足以克服遮挡问题。02.3. 遮挡人物重新识别0由Zhou等人提出的人物ReID中的闭塞研究与部分人物ReID不同。它直接从被遮挡的人物图像中提取特征，而不是裁剪掉不可见部分，这在实际场景中比部分人物ReID更实用。这个主题的最新研究方法可以分为两类：语义分割[42, 8,10]和带有人体关键点的姿势引导[19, 30,3]。一些作品中使用了语义分割。例如，Zhuo等人[42]训练了一个共同显著性分支，其中的真值来自于由一个外部模型预测的掩码。0现有的显著目标检测器中，He等人提出了FPR[8]，一种无需对齐的方法，使用语义分割模型[21]获取人物掩模重建。Huang等人[10]采用人体解析来解决这个问题。至于带有人体关键点的姿势引导方法，Miao等人引入了一种名为Pose-Guided FeatureAlignment（PGFA）[19]的方法，利用姿势地标来从遮挡噪声中解开有用的信息。Gao等人提出了PVPM[3]，它同时学习判别特征和姿势引导注意力，通过图匹配获取有用的信息。Wang等人[30]利用人体关键点提取局部特征，并使用拓扑信息预测相似性分数。然而，这些方法仍然使用预训练模型，引入了数据偏差，限制了性能，同时使网络复杂化。与上述所有方法不同，我们的方法不依赖于额外的模型。受[33]的启发，我们将注意力方法与我们的新数据增强方法相结合，该方法与[40]不同，以解决人物ReID中的困难遮挡问题。通过这种简单的方式，我们在测试阶段节省了大量时间，并取得了很好的性能。此外，我们的方法还可以帮助扩大迄今为止仍然有限的遮挡数据集。03. 方法0在本节中，我们介绍了提出的遮挡感知掩模网络（OAMN）。图3展示了OAMN的概述。它始于一个产生训练图像的遮挡增强机制。我们将骨干编码器E(∙)分为两部分，即EI(∙)和EII(∙)，以便我们可以在它们之间插入一个注意力模块。骨干编码器由θe参数化。对于每个输入图像x，下部编码器EI(∙)将输入映射到特征f�EI(x)。随后的注意力引导掩模模块M(∙)由θm参数化，产生一个空间注意力图m�M(f)，该图用于3.1. Occlusion Augmentationmp = M(f p),gp = mp ⊙ f p,(1)Lmask1 = 1nLmask2 = 1|I|Lmask = α1 · Lmask1 + α2 · Lmask2,(4)+,5)118360通过逐元素乘法生成关注特征g�m⊙f。我们以两种方式利用关注特征g。首先，它将剩余的高部分编码器EII(∙)转发到获取最终表示h和分类logitsr。其次，由θt参数化的辅助评分器T(∙)预测输入特征的遮挡类型。0现有的人物ReID方法无法处理被遮挡的人物图像。限制其对遮挡的鲁棒性的一个因素是缺乏遮挡数据。因此，我们提出了遮挡增强，这是一种产生多样化和标记的遮挡数据的新方案。根据实证，在各种真实场景中，常见的遮挡可以粗略地分为四个位置（上、下、左、右）和两个区域（一半、四分之一）。我们忽略了罕见的情况，即超过一半行人被遮挡。相应地，我们的方案通过以下三个步骤增加训练数据中的上述遮挡类型：（1）随机选择一个训练图像x，从中裁剪出一个矩形补丁p；（2）将补丁p随机缩放到两个区域之一，相对于输入图像；（3）将缩放后的补丁分别放置在输入图像的四个位置上。由于我们将裁剪的补丁视为遮挡，一个关键的设计是避免裁剪人体。为此，我们从所选图像的角落裁剪补丁。我们将上述过程形式化描述如下。首先，令a'表示所选图像x的面积，我们确定裁剪补丁的大小ph×pw，使得p^2h=a∙r和p^2w=a/r，其中a�ϵ∙a'是减小的面积，ϵ�U(0.02,0.2)和r�U(0.3,3.3)是ph和pw的比率。U表示均匀分布。其次，我们随机选择裁剪补丁的位置，从四个角落(x,y)∈{0,h−ph}×{0,w−pw}，其中h×w表示所选图像x的大小。第三，我们缩放并将获得的补丁放置在上述目标图像上。按照这个过程，我们获得每个训练图像的四个遮挡副本。我们用xp表示这些副本，其中p∈P�{t,b,l,r}表示遮挡的位置：上、下、左或右。特别地，我们省略上标p，或设置p=\，表示原始的整体图像x，或非遮挡。因此，xp继承了x的相同标签。03.2. 注意引导的掩码模块0根据上述遮挡增强方案，我们能够通过注意机制引导模型学习非遮挡的身体部位。具体而言，我们使用RGA-S[33]生成一个空间权重图。由于我们观察到纹理特征可能会误导网络的注意力，我们利用中间层特征来捕捉轮廓信息。基于上述分析，我们提出了一个注意引导的掩码模块，用于为每个输入特征生成空间权重图，形式上描述为：0注意引导的掩码模块用于为每个输入特征生成空间权重图 m，形式上描述为：0其中 ⊙ 表示逐元素乘法，f 和 g分别表示输入和输出特征。下面，我们推导出两个约束来指导遮挡特征的学习。首先，我们希望网络能够尽可能完整地捕捉到人体特征，即使给定遮挡数据。由于我们的数据增强，遮挡图像中保留的身体部位与整体图像的相应部位是相同的。因此，从遮挡图像中学到的注意力掩码，如果应用于遮挡和整体图像，应该分别聚焦在相同的区域。这个约束还可以防止注意力掩码错误地聚焦在增强的遮挡上。因此，我们将遮挡和整体特征的关注部分之间的ℓ2距离最小化：0计算公式0n0计算公式 , (2)0其中 n表示批次大小。其次，对称遮挡图像（例如，上半部分与下半部分，左半部分与右半部分）的特征在结合时应该能够完整地捕捉到信息。例如，来自上半部分和下半部分遮挡的图像的特征，在结合在一起时，应该能够恢复完整的特征。因此，我们将它们与完整特征之间的ℓ2距离最小化：0计算公式0计算公式0计算公式 , (3)0其中 I表示半遮挡特征的索引集合（我们随机在每个训练图像上增加一半/四分之一的遮挡区域）。注意，所有 g p i 都是从第i个训练图像中获得的，但具有不同的遮挡类型。总之，我们施加以下约束来指导提出的掩码模块：0其中 α 1 和 α 2 是控制两个项之间权衡的两个超参数。03.3. 分组三元组损失0三元组损失是人物重识别中另一种有效的准则，用于辅助相似性学习[9]。特别地，它减小了类内距离，同时增大了类间距离。通常，三元组损失函数 L tri ( ∙ ) 定义为：0L tri ( h a , h p , h n ) = 计算公式Ltri-g =1|P′|�p∈P′n�i=1Ltri(hpi, hpi-p, hpi-n),(6)Lscore =1n · |P′|�p∈P′n�i=1∥T(gpi ) − si∥22,(7)aq =(8)118370其中 h 是表示，m tri 是边界，下标 a ， p 和 n分别表示锚点、正样本和负样本。然而，这种常见的三元组损失与我们的方法不兼容。由于我们提出的遮挡增强（见第3.1节）中的随机性，每个数据批次包含混合类型的遮挡。盲目地减小遮挡和非遮挡特征之间的距离可能对学习到的注意区域产生负面影响。因此，需要一种遮挡感知的三元组损失。因此，我们提出了分组三元组损失 L tri - g来分别处理不同类型的遮挡。它的定义如下：0其中P ′ =P∪{\}是所有四个遮挡位置与非遮挡情况（用“\”表示）的集合。对于每种类型的遮挡特征，我们搜索具有相应遮挡类型的正样本和负样本。我们将正/负样本定义为与锚点具有相同/不同标签的最远/最近样本。03.4. 遮挡统一0在测试阶段，一些测试图像带有各种不同的未标记遮挡，这会破坏ReID的性能。我们提出了一种遮挡统一方案来解决这个问题。与训练阶段不同，测试阶段避免多样性以减少歧义。因此，我们通过“全部遮挡”策略减少遮挡的多样性。然而，这种统一依赖于遮挡类型的知识，而在测试阶段通常是未知的。0为了实现这一目标，我们利用增强的遮挡数据并学习一个监督评分器，在测试阶段识别输入图像的遮挡类型。在第3.1节中，我们考虑了四个位置和两个面积的遮挡，总共形成了八种遮挡类型。然而，仅仅使用一个八分类器是有问题的。具体来说，尽管这些遮挡类型可以补充增强，但它们不足以精确量化现实世界中的多样遮挡。因此，使用这样的分类器可能会过拟合我们考虑用于增强的有限遮挡类型。为了解决这个问题，我们提出了一种基于阈值的遮挡评分器。遮挡评分器T(∙)由一个全连接层和一个softmax运算符组成。它输出一个四维分数向量s = { s t , s b , s l , s r }，表示四个位置的遮挡分数。我们将这样的分数解释为遮挡的面积。在训练阶段，我们定义增强数据x p 的分数s p，使得s p = 2 ∙ a aug ，其中a aug表示我们增强的遮挡面积（即1/2或1/4）。我们0使用以下损失函数来学习这个评分器：0其中g i 是掩蔽特征，s i是相应的遮挡分数。请注意，这个评分器是独立于其他模块的。我们不会将其梯度反向传播到编码器和掩蔽网络等其他模块。在测试阶段，我们采用基于阈值的方法推断遮挡类型。特别地，对于给定的分数s，我们将p = arg max s视为遮挡位置，s p视为遮挡面积。我们将查询图像的遮挡面积a q减少为三种情况：00 ，如果s p < 0.5 ，1/4，如果0.5 ≤ s p < 0.75，1/2 ，如果s p ≥ 0.75，0它确定了遮挡的位置p和面积a q。然后我们采用“全部遮挡”策略，通过遮挡区域的掩蔽来遮挡所有画廊图像与目标行人相同的遮挡。如果画廊图像已经包含遮挡，我们也可以相应地遮挡查询图像。因此，原始的不确定性信息被统一，使我们能够比较具有相同遮挡的画廊特征G � { h p i } n g i =1和查询特征h p q ，其中n g是画廊集的大小。03.5. 整体目标函数0在本小节中，我们解释了身份目标并总结了整体目标函数。与第3.3节类似，我们在所有五个遮挡位置上进行操作（包括非遮挡情况）。因此，身份损失L ide 可以写成0Lide = 10n ∙ |P'|0�0i=1 ℓCE(rp_i, yi), (9)0其中(ri,yi)表示小批量内第i个输入的最终logits和真实标签。总之，我们得到以下损失函数0L2 = λ4 ∙ Lscore, (10)0其中λ1，λ2，λ3和λ4是控制不同损失之间权衡的超参数。我们在整个网络上最小化L1，只在遮挡分级器上最小化L2。04. 实验0我们在三个遮挡/部分人物ReID基准数据集和两个整体数据集上进行实验，以评估我们方法的性能。118380方法类型 Occluded-Duke Partial-REID Partial-iLIDS Rank-1 Rank-5 m AP Rank-1 Rank-5 m AP Rank-1Rank-5 m AP0IDE [5] H 39.4 57 27.8 57.0 76.3 53.6 68.9 84.9 72.4 PCB [27] H 42.6 57.1 33.7 66.3 84.0 63.8 46.8 - 40.2Random-Erasing [40] H 40.5 59.6 30.0 54.3 75.0 54.4 68.1 82.4 75.1 RGA-S [33] H 47.3 64.0 38.5 62.0 79.3 59.175.6 89.1 78.6 FD-GAN [4] H 40.8 - - - - - - - -0DSR [6] P 40.8 58.2 30.4 73.7 - 68.07 64.3 - 58.1 SFR [7] P 42.3 60.3 32 56.9 - - 63.9 - -0TCSDO [42] O - - - 82.7 91.3 85.57 - - - FPR [21] O - - - 81.0 - 76.6 68.1 - 61.80PGFA [19] O 51.4 68.6 37.3 69.0 84.7 61.5 71.4 85.7 74.7 PVPM+Aug [3] O - - - 78.3 89.7 72.3 - - - HOReID [30] O55.1 - 43.8 85.3 - - 72.6 - -0OAMN (Ours) O 62.6 77.5 46.1 86.0 91.7 77.4 77.3 86.6 79.50表1：在不同数据集上与最先进方法的比较：Occluded-Duke [19]，Partial-REID [37]和Partial-iLIDS[6]。方法类型包括整体、部分和遮挡。04.1. 数据集和评估设置0Occluded-DukeMTMC[19]由702人的15,618张训练图像，519人的2,210张查询图像和1,110人的17,661张图库图像组成。由于遮挡人员的比例较大，这是最具挑战性的数据集之一。Partial-REID[37]包含来自60人的600张图像，这些图像在视角、背景和遮挡方面不同。图库集仅包含整体图像，而查询集仅包含遮挡图像。Partial-iLIDS[6]包含来自119人的238张图像，这些图像是在机场拍摄的，人们通常被行李或其他人遮挡。所有探测图像都是遮挡人物图像，而所有图库图像都是整体图像。Market-1501[36]是一个常见的整体数据集。它包含751人的12,936张训练图像，750人的19,732张查询图像和750人的3,368张图库图像，这些图像来自6个摄像头。其中只有很少的遮挡图像。DukeMTMC-reID[38]包含702人的16,522张训练图像，702人的2,228个查询和702人的17,661张图库图像。由于其中包含的整体图像比遮挡图像多得多，因此该数据集被认为是整体re-id数据集。评估协议。为了与现有方法进行公平比较，所有实验都遵循人物ReID方法中的常见评估设置。采用累积匹配特性（CMC）和平均平均精度（mAP）来评估性能。所有实验都在单个查询设置中进行。评估设置。我们使用ResNet50[5]和RGA-S[33]作为我们编码器和注意力引导掩模模块的骨干。将ResNet50的第3层的输出设置为Attention-GuideMask模块的输入。所有输入图像都调整大小为256×128。我们使用SGD优化器[22]和批量大小为64进行端到端训练，其中包含32个身份和2个示例。0每个身份的样本数为16，我们在三个RTX 2080TiGPU上进行所有实验。三元组损失中的边界m_tri在公式（5）中设为0.5。在公式（4）中，α1和α2设为1.0。在公式（10）中，λ1、λ2、λ3和λ4分别设为5.0、0.5、1.0和1.0。04.2. 与最先进的方法的比较0我们将我们的OAMN与现有的最先进（SOTA）人员ReID方法在三种不同类型的数据集上进行比较，包括遮挡、部分和整体数据集。04.2.1 遮挡数据集上的比较0在遮挡-DuckMTMC数据集上的结果如表1所示。提出的OAMN在Rank-1准确率和mAP分别为62.6%和46.1%，大幅超过SOTA。整体方法。现有的整体方法通常采用多种技术来提高性能[27, 40, 33,4]。然而，所有这些方法在遮挡数据集上都无法获得显著的性能提升，因为缺乏遮挡信息。具体而言，OAMN将Rank-1准确率提高了15.3%，mAP提高了7.6%，超过了RGA-S。这些结果表明，注意力机制的使用指向了遮挡处的错误注意力。部分方法。我们观察到，现有的部分人员ReID方法（如DSR [6]和SFR[7]）在遮挡数据集上仍然无法达到令人满意的性能。与SFR相比，我们的性能改进显著，例如，Rank-1和mAP的提升分别为20.3%和14.1%。这些结果表明，虽然部分ReID与遮挡ReID面临类似的挑战，但这些方法在解决遮挡问题上并不有效。遮挡方法。我们与遮挡人员ReID的SOTA方法PGFA[19]、PVPM [3]和HOReID[30]进行比较。尽管这些SOTA方法使用关键点模型来辅助模型训练，但性能提升增加了模型复杂性。尽管如此，我们的OAMN仍然改进了es.118390对于遮挡人员ReID，我们的方法相对于当前最佳方法（如HOReID）将Rank-1准确率提高了7.5%，mAP提高了2.3%。04.2.2 部分数据集上的比较0在部分数据集上的测量性能报告如表1的最后两列所示。我们遵循现有部分人员ReID方法的常见训练协议[42, 8, 10,19, 30,28]。具体而言，我们使用Market-1501作为训练集，将两个部分数据集（Partial-REID和Partial-iLIDS）作为测试集。我们与部分方法[6, 7]、带有分割网络的遮挡方法[42,21]以及带有关键点模型的遮挡方法[19, 30,3]进行比较。与遮挡数据集上的结果类似，OAMN在当前SOTA上始终表现优异：在Partial-REID上，它将HOReID的Rank-1准确率提高了0.7%，在Partial-iLIDS上提高了4.7%。04.2.3 整体数据集上的比较0在整体数据集上的性能报告如表2所示。我们在Market-1501和DukeMTMC-reID数据集上分别达到了93.2%和86.3%的准确率。我们的方法超过了许多先进的整体方法，如PCB[27]、VPM [26]、DuATM [23]、SPReID[11]、MaskReID [20]、MGCAM [24]、PDC[25]和Pose-transfer [15]。我们还超过了遮挡方法PGFA[19]。即使与使用更强基线模型的遮挡方法（如FPR[21]和HOReID[30]）进行比较，我们也能获得有竞争力的结果。此外，我们的方法将常用基线模型的性能提升了7.5%。相比之下，其他遮挡方法只能将其对应的基线模型提升不到3%。这些结果表明，我们的方法不会过拟合增强的遮挡，在整体数据集上表现良好。04.3. 模块性能0在本节中，我们进行了详细的实验，研究了每个模块的性能，包括遮挡增强、分组三元组损失和掩码模块。04.3.1 遮挡增强0我们的方案通过在四个位置和两个区域进行遮挡来增加训练数据。我们通过改变遮挡的位置和面积来验证该方案的设计。我们在表3中呈现了结果。位置：Partial-REID包含的遮挡图像在不同遮挡位置的图像数量之间没有显著差异。因此，如果去除某些类型的遮挡，我们观察到性能显著下降。其他两个数据集包含更多底部遮挡的图像。只有在禁用顶部和底部遮挡增强时，我们观察到更多的性能下降。0方法 Market-1501 DukeMTMC-reID 排名-1 m AP排名-1 m AP0PCB [27] 92.3 77.4 81.8 66.1 VPM [26] 93.0 80.8 83.6 72.6DuATM [23] 91.4 76.6 - - SPReID [11] 92.5 81.3 - -MaskReID [20] 90.0 75.3 - - MGCAM [24] 83.8 74.3 46.746.0 PDC [25] 84.2 63.4 - - Pose-transfer [15] 87.7 68.9 30.128.30PGFA [19] 91.2 76.8 82.6 65.50FPR [21] 基线 94.1 84.6 87.3 76.2 FPR [21] 95.4 86.6 88.678.40HOReID [30] 基线 92.6 77.7 83.8 69.7 HOReID [30] 94.2 84.986.9 75.60OAMN（我们的方法）基线 85.7 66.1 80.1 61.6OAMN（我们的方法） 93.2 79.8 86.3 72.60表2：在整体数据集上与最先进方法的比较。虚线分隔使用不同和更强的基线的方法。OAMN在大多数方法上取得了显著的改进。即使FPR和HOReID使用了不同和更强的基线，OAMN对基线的改进也显著。0遮挡类型 Occluded-Duke Partial-REID Partial-iLIDS 位置面积排名-1 m AP排名-1 m AP 排名-1 m AP0{\, t, b} {1/2, 1/4} 56.5 41.0 73.3 67.3 71.1 74.8 {\, l, r} {1/2, 1/4} 48.0 36.6 74.0 65.766.4 69.6 {\, t, b, l, r} {1/2} 60.1 45.3 83.7 76.7 68.9 72.5 {\, t, b, l, r} {1/4} 52.8 39.672.0 65.4 76.5 79.4 {\, t, b, l, r} {1/2, 1/4} 62.6 46.1 86.0 77.4 77.3 79.50表3：比较不同遮挡类型。0面积：Occluded-Duke和Partial-REID主要包含半遮挡的图像。我们观察到，当我们只增加了四分之一的遮挡时，性能下降更多。相反，小于半遮挡的数据集显示出较少的性能下降。总结：我们凭经验观察到，我们考虑的所有遮挡类型都是有效的。如果启用了所有类型的增强，它们在所有数据集上都能获得最佳结果。04.3.2 分组三元组损失0我们提出了分组三元组损失来明确处理不同类型的遮挡图像。在本节中，我们通过将其与普通三元组损失进行比较来研究其有效性。由于我们的增强数据包含混合的遮挡类型，盲目地减小不同遮挡类型之间的距离可能会产生负面影响。网络可能无法有效地捕捉特定遮挡的注意力图。图4中的定性结果显示，普通三元组损失侧重于身体部位周围的区域，包括遮挡物。表4还显示，使用分组三元组损失时明显改善了高达10%的性能。),118400(a) 图像0(b) L tri0(c) L tri - g0图4：不同三元组损失的注意力热图。0Triplet类型 Occluded-Duke Partial-REID Partial-iLIDS 排名-1 m AP排名-1 m AP 排名-1 m AP0L tri 55.2 39.8 76.7 69.9 73.9 76.6 L tri - g 62.6 46.1 86.0 77.477.3 79.50表4：使用L tri或L tri - g时的性能比较。04.3.3 注意力层的选择0我们通过将提出的注意力引导掩码模块附加到主干网络的特定中间层来引入注意力机制。我们的目标是捕捉更多描述轮廓信息的特征。下面，我们研究了在不同中间层选择时性能的变化。表5展示了将注意力机制放置在主干网络（即ResNet50）的不同层上时的性能。浅层（第1层）虽然保留了丰富的轮廓特征，但不够可区分。然而，深层（第4层）主要描述引起遮挡区域上的纹理特征。相比之下，选择的中间层-3获得了最佳结果。0层遮挡-Duke 部分REID 部分iLIDS 排名1 m AP 排名1 m AP排名1 m AP0层-1 57.5 43.5 80.7 73.2 60.5 65.0 层-2 56.9 43.2 82.0 75.576.5 79.3 层-3 62.6 46.1 86.0 77.4 77.3 79.5 层-4 60.0 45.776.3 70.5 73.1 76.00表5：将注意力网络添加到不同层时的性能比较。层-k表示将其附加到主干网络（ResNet-50）的第k层。04.4. 消融研究0我们检查了每个组件的有效性：遮挡增强，分组三元组损失，注意力引导掩模模块的约束以及遮挡统一。我们在表6中报告了结果。特别是，我们考虑了基线模型：L ide 和Ltri。遮挡增强。我们观察到启用遮挡增强时，准确性提高了超过10%。0OA L tri - g L mask OU 遮挡-Duke 部分REID 部分iLIDS 排名1 m AP 排名1 m AP排名1 m AP0� � � � 36.9 26.2 56.7 53.0 62.2 66.8 � � � � 51.2 37.5 76.0 71.2 67.2 70.2 � � � � 55.5 41.6 78.774.5 71.4 74.9 � � � � 57.7 44.0 82.0 75.1 75.6 78.8 � � � � 60.3 44.1 82.3 76.3 73.1 76.7 � � � �62.6 46.1 86.0 77.4 77.3 79.50表6：遮挡增强（OA），分组三元组（L tri -g），注意力引导掩模模块（Lmask）和遮挡统一（OU）的消融研究。0启用遮挡增强时，相对于基线模型，我们观察到准确性的提高。这意味着我们的方案可以产生多样的遮挡数据。分组三元组损失。从第二行和第三行可以看出，L tri - g 相对于Ltri提高了4.3%的准确性，表明分组三元组损失可以有效地引导遮挡感知掩模的学习。掩模模块和遮挡统一。通过将最后三行与第三行进行比较，我们研究了注意力引导掩模模块的有效性。L mask和OU都可以帮助捕捉更精确的注意力，并在同时启用它们时取得最佳结果。05. 结论0在本文中，我们研究了人物再识别中的遮挡挑战。我们确定了以前方法在整体、部分和遮挡人物再识别中的主要弱点。我们提出了具有三个创新组件的遮挡感知掩模网络（OAMN）：注意力引导掩模模块、遮挡增强和遮挡统一。在训练阶段，遮挡增强产生多样且标记的遮挡数据，以指导注意力引导掩模模块。在测试阶段，遮挡统一减轻了查询图像的模糊性。总之，OAMN使现有的注意力机制能够精确地捕捉到身体部位，无论是否存在遮挡。对各种人物再识别基准进行的全面实验表明，OAMN相对于现有技术具有优势。0致谢0本工作得到国家杰出青年科学基金（No.62025603），国家自然科学基金（No.U1705262，No.62072386，No.62072387，No.62072389，No.62002305，No.61772443，No.61802324和No.61702136），广东省基础与应用基础研究基金（No.2019B1515120049）和中央高校基本科研业务费（No.20720200077，No.20720200090和No.20720200091）的支持。118410参考文献0[1]陈伟华，陈晓堂，张建国和黄凯琪。超越三元组损失：用于人物再识别的深度四元组网络。在CVPR，页1320-1329。IEEE计算机学会，2017年。20[2]董虎生，卢平，钟山，刘春平，季毅和龚胜荣。通过增强的局部最大出现表示和广义相似度度量学习进行人物再识别。神经计算，307:25-37，2018年。10[3]高尚，王静雅，卢虎川和刘子模。用于遮挡人物再识别的姿态引导可见部分匹配。在CVPR，页11741-11749。IEEE，2020年。3，6，70[4] Yixiao Ge, Zhuowan Li, Haiyu Zhao, Guojun Yin, Shuai Yi,Xiaogang Wang, and Hongsheng Li. FD-GAN:姿势引导特征提取GAN用于鲁棒的人员再识别. In NeurIPS ,pages 1230–1241, 2018. 60[5] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别. In CVPR , pages 770–778. IEEEComputer Society, 2016. 60[6] Lingxiao He, Jian Liang, Haiqing Li, and Zhenan Sun.部分人员再识别的深度空间特征重构: 无需对齐方法. In CVPR ,pages 7073–7082. IEEE Computer Society, 2018. 2 , 3 , 6 ,70[7] Lingxiao He, Zhenan Sun, Yuhao Zhu, and Yunbo Wang.识别部分生物特征模式. CoRR , abs/1810.07399, 2018. 6 , 70[8] Lingxiao He, Yinggang Wang, Wu Liu, He Zhao, ZhenanSun,

下载后可阅读完整内容，剩余1页未读，立即下载