基于身体部位的遮挡人物再识别的表示学习

61 浏览量更新于2023-10-16 收藏 22.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

HeadTorsoArmsLegsFeet16130基于身体部位的遮挡人物再识别的表示学习0Vladimir SomersEPFL＆UCLouvain＆Sportradar0vladimir.somers@epfl.ch0Christophe De VleeschouwerUCLouvain，比利时0christophe.devleeschouwer0@uclouvain.be0Alexandre AlahiEPFL，瑞士0alexandre.alahi@epfl.ch0摘要0遮挡人物再识别（ReID）是一项人物检索任务，旨在将遮挡人物图像与整体图像进行匹配。为了解决遮挡ReID问题，基于部分的方法已被证明是有益的，因为它们提供了细粒度的信息，并且适合表示部分可见的人体。然而，训练基于部分的模型是一项具有挑战性的任务，原因有两个。首先，单个身体部位的外观不如全局外观有辨别力（两个不同的ID可能具有相同的局部外观），这意味着使用身份标签的标准ReID训练目标不适用于局部特征学习。其次，ReID数据集没有提供人体地形注释。在这项工作中，我们提出了BPBreID，一种基于身体部位的ReID模型，用于解决上述问题。我们首先设计了两个模块，用于预测身体部位注意力图和生成ReID目标的基于身体部位的特征。然后，我们提出了一种新的训练方案GiLt，用于学习对遮挡和非辨别性局部外观具有鲁棒性的基于部分的表示。在流行的整体和遮挡数据集上进行了大量实验，证明了我们提出的方法的有效性，该方法在具有挑战性的Occluded-Duke数据集上的mAP和rank-1准确率分别超过了现有方法0.7％和5.6％。我们的代码可在https://github.com/VlSomers/bpbreid找到。01. 引言0人物再识别[34,17]，或者ReID，是一项人物检索任务，旨在将感兴趣的人物图像（称为查询）与大型数据库中的其他人物图像（称为库）进行匹配。ReID在智能城市的视频监控[42, 43]或体育理解[26,4]中具有重要应用。人物再识别通常被形式化为一项表示学习任务，非常具有挑战性，因为人物图像通常受到来自背景杂乱、不准确的边界框、姿势变化、亮度变化、图像质量差以及来自街道物体或其他人的遮挡[17]的影响。为了解决ReID任务，大多数方法采用全局方法[14,8]，学习目标人物的全局表示作为单个特征向量。然而，这些方法无法解决遮挡引起的挑战，原因有两个，如图1所示：� 1 � 障碍物和行人干扰：全局学习的表示可能包含来自遮挡物和行人的误导性外观信息。� 2 �部分到部分匹配的要求：当比较两个遮挡样本时，只有在两个图像中都可见的身体部位之间进行比较才是相关的。全局方法无法实现这种部分到部分的匹配，因为对于每个比较都使用相同的全局特征。为了解决上述问题，基于部分的方法[23, 46,37]显示出了有希望的结果。这些基于部分的方法通过生成多个局部特征向量（即，每个输入样本的每个部分一个）来解决ReID任务。0ReID相关的身体部位注意力0我们模型的K=5的注意力图0<1> 障碍物0和行人0干扰0<3> 非辨别性局部0外观0<2> 对匹配的要求0部分到部分0外部模型0<4>来自的粗糙标签0解析标签0我们的粗糙人体0从背景杂乱中0图1.我们工作中的关键概念概述。第一行说明了我们提出的方法试图解决的遮挡和基于部分的ReID的四个挑战。第二行说明了我们预生成的人体解析标签和我们的模型BPBreID生成的与ReID相关的软注意力图。0街道物体或其他人的遮挡[17]引起的挑战。为了解决ReID任务，大多数方法采用全局方法[14,8]，学习目标人物的全局表示作为单个特征向量。然而，这些方法无法解决遮挡引起的挑战，原因有两个，如图1所示：� 1 �障碍物和行人干扰：全局学习的表示可能包含来自遮挡物和行人的误导性外观信息。� 2 �部分到部分匹配的要求：当比较两个遮挡样本时，只有在两个图像中都可见的身体部位之间进行比较才是相关的。全局方法无法实现这种部分到部分的匹配，因为对于每个比较都使用相同的全局特征。为了解决上述问题，基于部分的方法[23, 46,37]显示出了有希望的结果。这些基于部分的方法通过生成多个局部特征向量（即，每个输入样本的每个部分一个）来解决ReID任务。16140然而，学习这样的基于部分的表示涉及处理两个关键挑战：�3�非判别性局部外观：标准的ReID损失，如id或三元组损失，假设不同身份具有不同的外观，因此它们对应的全局特征向量是不同的。然而，当使用基于部分的特征向量时，这个假设被打破，因为具有不同身份的两个人在某些身体部位上的外观可能非常相似，如图1所示。由于局部外观不一定具有判别性，用于学习全局表示的标准ReID损失在局部表示学习中不具有良好的可扩展性。在之前的基于部分的ReID工作中，对学习局部特征的特异性及其对训练损失的选择的影响一直被忽视，我们是第一个指出这一点的。为了解决这些问题，我们提出了GiLt，一种新的基于部分方法的训练损失。GiLt旨在对遮挡和非判别性局部外观具有鲁棒性，并且在考虑到联合时具有判别性，学习一组每个局部特征都代表其相应局部部位的特征。�4�缺乏人体拓扑注释：基于部分的方法通常依赖于空间注意力图在全局特征图中执行局部池化，并构建ReID目标的身体部位特征。然而，没有ReID数据集提供关于局部区域池化的注释，使用外部姿势信息或部分分割工具生成此类注释会因域变化和图像质量差而产生不准确的结果。此外，基于身体部位的特征池化与像素精确的人体解析 fundamentally不同。实际上，空间注意力图必须定位图像中的身体部位，同时识别最能代表身体部位外观的特征向量。因此，理想的注意力图不一定是准确的分割形状。之前利用人体解析构建基于部分特征的ReID工作要么直接使用姿势估计模型的输出作为局部注意力掩码，而不对其进行调整以处理ReID任务[3, 5,15]，要么使用部分发现学习局部特征，而不需要人体拓扑先验[13, 46,39]。在这项工作中，我们提出了一个身体部位注意力模块，通过新的双重监督使用身份和粗糙的人体解析标签进行训练。该模块展示了如何有效利用外部人体语义信息来生成与ReID相关的身体部位注意力图。最后，我们将这个身体部位注意力模块和GiLt（全局身份局部三元组）损失结合起来，构建了我们的基于身体部位的ReID模型BPBreID，有效解决了之前提到的所有四个挑战。我们总结了我们工作的主要贡献如下：01. 对于ReID任务，我们首次提出了一种软性的0从双重监督中训练的注意力，利用身份和先验人体拓扑信息。我们的工作证明了这种方法优于所有之前的基于部分的方法。02.我们提出了一种新的GiLt策略来训练基于部分的方法。GiLt对遮挡和非判别性局部外观具有鲁棒性，并且很容易与任03.BPBreID在Occluded-Duke数据集上的mAP和rank-1分别比现有方法提高了0.7%和5.6%。我们已经发布了BPBreID代码库，以鼓励进一步研究基于部分的方法。02. 相关工作0基于部分特征对齐的ReID：为了解决空间错位问题，一些研究[23, 30, 15, 20, 38, 41, 36, 5, 15, 27,3]采用固定的注意机制，使用预定的像素分区对输入图像进行划分，并应用部分池化来生成局部特征表示。这些方法在特征选择和对齐方面效果不佳，因为生成的注意力图不适用于池化ReID相关的身体部位特征。为了解决这些问题，其他研究[21, 10, 46,28]使用端到端训练的注意机制生成专门用于解决ReID任务的注意力图。其中一些方法[21, 10,28]将姿势估计作为并行分支，与外观主干分支一起在ReID数据集上进行端到端训练。然而，并行分支会引入显著的计算开销，而且这些方法没有明确解决遮挡的ReID问题。其他基于部分的方法通过自监督方式学习局部特征，而不需要人体拓扑先验[46, 13,39]。这种方法可能会引入对齐错误、遗漏部分和背景杂乱。与之前的工作不同，我们的基于部分的特征是通过一个注意力分支构建的，该分支(i)被明确训练为汇集与ReID任务相关的局部特征，(ii)利用外部人体解析标签来偏置空间注意力，集中关注先验身体区域。0ReID中的局部特征学习：身份损失和批次硬三元组损失[8]是训练ReID模型的两个常用目标，也适用于基于部分的方法[18, 15, 27, 5, 46, 9, 25,3]用于学习局部表示。这些方法中的大多数[23, 33, 15,18]仅对每个基于部分的特征应用身份损失。因此，它们对非判别性身体部位更敏感，并且错过了三元组损失作为ReID的补充深度度量学习目标的好处[8,14]。为了处理部分特征的不完整信息，一些工作[46,25]提出在组合嵌入上应用三元组和身份损失，这些嵌入是通过连接或H−1∑h=0�(2)16150局部特征的求和。[25]提出了一种专门用于训练基于部分特征的改进的硬三元组损失（IHTL），但该目标不能很好地处理遮挡或相似样本。最后，[9]在组合部分特征上同时应用三元组和身份损失，但在训练过程中不使用整体特征，这使得他们的训练方案对不准确的身体部位预测和严重遮挡的鲁棒性较差。我们提出的GiLt训练过程旨在解决上述问题，并解决了针对基于部分方法的训练选择损失缺乏共识的问题。最后，值得注意的是，其他工作[13,5]采取了相反的方法来处理标准的ReID损失不适用于非判别性身体部位外观的问题。他们通过约束每个基于部分的特征在自身上具有判别性，通过同时参与多个身体区域[13]或通过消息传递在每个局部特征中添加高阶信息[5]来解决这个问题。03. 方法0我们的BPBreID模型的整体架构如图2所示。它包括两个模块：第3.1节中描述的身体部位注意力模块和第3.2节中描述的全局局部表示学习模块。BPBreID的整体训练过程在第3.3节中描述，用于计算查询到库距离的推理过程在第3.4节中描述。03.1. 身体部位注意力模块0身体部位注意力模块接收由主干提取的特征图作为输入，并输出一组突出显示ReID目标身体部位的注意力图。该模块由一个像素级部位分类器组成，使用我们的粗糙人体解析标签进行训练，并使用身体部位注意力损失进行训练。我们将在下面详细介绍这三个组件。由于我们的模型是端到端训练的，身体部位注意力模块还从ReID损失接收训练信号，该损失使用身份标签，如第3.3节所述。因此，该注意力分支从双重监督中进行训练，既有身体部位预测目标，又有ReID目标。由于双重监督的结果，该模块生成的注意力图比使用预训练人体解析模型的固定输出获得的注意力图更与ReID任务相关。该模块在图2的左上部分中表示。03.1.1 像素级部位分类器0身体部位注意力模块接收外观图G作为输入，G是由特征提取器生成的大小为RH×W×C的张量。对于外观图G中的每个像素(w,h)，像素级部位分类器预测它是否属于背景或K个身体部位之一，这意味着0有 K + 1个目标类，索引为0的类是背景。对G应用参数为P∈R(K+1)×C的1x1卷积层，然后应用softmax函数，得到分类得分M∈RH×W×(K+1)：0M = softmax(GPT). (1)0这K +1个概率图Mk因此指示哪些像素属于哪些身体部位（或背景）。03.1.2 人体解析标签0用于训练我们的部位注意力模块的人体解析标签Y∈RH×W是使用PifPaf[12]姿势估计模型生成的，具体过程详见补充材料。如果空间位置(h,w)属于K个身体部位之一，则Y(h,w)设置为{1，...，K}，背景设置为0。对于给定的K值，手动定义了人体语义区域。例如，对于K =8，我们定义了以下语义区域：{头部，左/右臂，躯干，左/右腿和左/右脚}。这些粗糙的人体语义解析标签在图1中以K= 5进行了说明。03.1.3 身体部位注意力损失0像素级部位分类器使用部位注意力损失Lpa进行监督，实际上是一个带有标签平滑[24, 1]的交叉熵损失，如下所示：0Lpa = −K ∑ k =00W − 1 ∑ w = 0 qk ∙log(Mk(h,w)) ,0其中qk =0Nε if Y(h,w) = k ε Notherwise ,0其中人体解析标签映射Y在3.1.2节中描述，N是批量大小，ε是标签平滑正则化率，Mk(h,w)是部位k在空间位置(w,h)的预测概率，如式(1)所述。03.2 全局-局部表示学习模块0全局-局部表示学习模块以前一模块生成的身体部位注意力图作为输入，并输出ReID目标的整体特征和基于身体部位的特征，以及每个部位的可见性分数。它可以在图2右上部分进行可视化。基于部位的表示与其可见性分数相结合，是我们解决部位对部位匹配和解决第1和第2节中的挑战的解决方案。03.2.1 整体特征和基于身体部位的特征0如3.1.1节所述，身体部位注意力模块产生了K个空间热图，突出了输入图像中相应的K个预测身体部位。我们首先将K个身体部位图{M1，...，MK}组合在一起WHC!"("!"""#"$")"*#!#"###$#)")"!"""#"$BPBreID{"!, … , ""}$BPBreID"#"$"%"&"'WK+1H16160主干网络0身体部位注意力0损失03.1 身体部位注意力模块0GWAP GWAP GWAP GAP 1x1卷积 + Softmax0前景0掩码0基于身体部位的特征整体特征0部位平均三元组损失0人0解析标签0可见性0推理中使用的分数0训练0推理 3.4 基于可见性的部位对部位匹配03.2 全局-局部表示学习模块0身份损失0连接03.3 GiLt策略0图2.BPBreID的结构，顶部部分详细介绍了体系结构和训练过程，底部部分介绍了推理过程。该模型由一个身体部位注意力模块用于身体部位注意力图和一个全局-局部表示学习模块用于生成整体特征{fg，ff，fc}和基于身体部位的特征{f1，...，fK}以及它们的可见性分数{vf，v1，...，vK}。对于整体特征，“g”代表“全局”，“f”代表“前景”，“c”代表“连接”。GWAP代表全局加权平均池化。网络以端到端的方式进行训练，使用身体部位注意力损失进行部位预测的监督，使用标准的身份损失对整体特征进行监督，以及使用基于部位的平均三元组损失对基于身体部位的特征进行监督。在推理中，使用基于部位的匹配策略仅比较相互可见的身体部位来计算查询到库的距离。绿色/红色表示可见/不可见的身体部位。体系结构的每个组件都用灰色矩形框起来，带有其名称和引用描述它的部分的编号。为了简洁起见，此处以K =4表示BPBreID：{头部，躯干，腿部，脚部}。0单一前景热图Mf∈RH×W：Mf(h,w) = max �M1(h,w),...,MK(h,w)�。然后，使用这些热图对外观特征图G进行K+1个全局加权平均池化（在图2中表示为GWAP），以获得前景嵌入ff和K个基于身体部位的嵌入{f1,...,fK}：0fi =∑H-1h=0∑H-1h=0∑W-1w=0Mi(h,w)，�i∈{f,1,...,K}。(3)0初始的全局外观特征图G也进行全局平均池化（GAP），以获得全局嵌入fg：fg =GAP(G)。通过在通道维度上连接K个基于身体部位的特征，还产生了最后一个嵌入fc∈R(C∙K)：fc =concat(f1,...,fK)。因此，我们的全局局部表示学习模块产生了三个整体嵌入{fg, ff,fc}和K个基于身体部位的嵌入{f1,...,fK}。03.2.2 身体部位可见性估计0为了检测遮挡的身体部位，我们为每个嵌入计算一个二进制可见性分数vi，其中0/1分别对应于不可见/可见的部分。在我们的BPBreID模型中，可见性分数仅在推理时使用。对于所有的整体嵌入，可见性分数设置为1，即vi =1。对于基于身体部位的特征，如果Mi中至少一个像素的值超过阈值λv，则可见性分数vi设置为1，该阈值经验性地设置为0.4，如下所示：0对于整体嵌入，可见性分数设置为1，即vg = vf = vc =1。对于基于身体部位的特征，如果Mi中至少一个像素的值超过阈值λv，则将可见性分数vi设置为1，该阈值经验性地设置为0.4，如下所示：0vi =0� 0如果max h，w(Mi(h,w)) > λv，则为10否则为0。(4)03.3.总体训练过程0在训练阶段，用于优化网络的总体目标函数如下所示：0L = λpa Lpa + LGiLt，(5)0其中Lpa是通过人体解析标签进行监督的身体部位注意力损失（在第3.1.3节中介绍），LGiLt是我们的GiLt损失，通过身份标签进行监督。参数λpa用于控制整体部分注意力损失的贡献，并经验性地设置为0.35。03.3.1 GiLt损失0为了使用身份标签监督模型训练，我们的GiLt损失依赖于两个损失：流行的身份分类损失和自定义的部分平均三元组损失。LGiLt = Lid +Ltri =∑i∈{g,f,c}LCE(fi) +Lpartstri( f1,..., fK),(6)di jparts = ∑k=1 disteucl(f ik, fk )K,(7)Lpartstri( f a0 ,..., f aK) = [dapparts −danparts +α]+ ,(8)∑i∈{f,1,...,K}�vqi ·vgi ·disteucl( f qi , f gi )�∑i∈{f,1,...,K}�vqi ·vgi�.(9)16170我们的模型产生了K+3个嵌入，因此我们必须仔细选择在每个嵌入上应用哪种损失。首先，与其他流行的基于部分的方法不同，我们不会在基于部分的特征上应用身份损失，因为存在遮挡和非判别性的局部外观，如第1节所介绍的。事实上，基于部分的特征并不总是足够判别一个人，这使得身份预测目标无法实现。因此，在这种局部表示上添加身份损失将对性能有破坏性。然而，与大多数先进的ReID方法一样，我们仍然通过在整体特征上应用身份损失来受益于身份损失的监督。其次，我们通过我们的自定义部分平均三元组损失在基于部分的特征上应用三元组损失约束，详见第3.3.2节。在推理阶段，使用这些基于部分的特征计算样本之间的距离，因此直接使用三元组损失约束来优化它们的相对距离是有意义的。然而，我们认为不应该在整体嵌入上强制执行三元组约束，因为存在遮挡。事实上，如果两个相同身份的整体嵌入至少有一个部分被部分遮挡，它们将具有本质上不同的表示，因为每个嵌入将代表整个目标身体的不同子集。因此，使用三元组损失将这两个整体特征拉近在特征空间中将对性能有破坏性。总之，我们声称基于部分的方法的最佳训练策略是仅在整体特征上应用(i)身份损失约束和(ii)在基于部分的特征上应用三元组损失约束，通过我们的自定义部分平均三元组损失。我们将这个策略称为全局身份局部三元组或简称GiLt，并在我们的GiLt损失中进行了规定。0其中LCE是带有标签平滑[24]和BNNeck技巧[14]的交叉熵损失，Lparts tri是我们下面详细介绍的部分平均三元组损失。Lid优化网络以从每个全局嵌入{ f g , f f , f c}中预测输入样本的身份。我们在第4.4节中提供了大量的消融研究来验证我们的说法。这些实验还证明了我们的GiLt策略相对于其他三元组和身份损失的组合在训练基于部分的方法方面的优越性。据我们所知，我们是第一个提出这种三元组和身份损失组合用于训练基于部分的方法。我们也是第一个进行广泛实验来展示这两种损失在强制施加在全局和基于部分的嵌入上的训练性能方面的影响。GiLt在图2中有所说明。03.3.2 部分平均三元组损失0我们的部分平均三元组损失与标准的批次难三元组损失[8]在计算两个样本之间的距离的策略上有所不同。事实上，它依赖于两个样本之间所有基于身体部位的特征{ f 1 , ..., f K}的配对部分距离的平均值：0其中disteucl指的是欧几里得距离。与[8]类似，然后使用最难的正样本和最难的负样本的平均部分距离d ap parts和d anparts计算部分平均三元组损失：0其中锚样本到最难的正样本和负样本的距离分别表示为dap和dan，α是三元组损失的边界。因此，我们的部分平均三元组损失全局优化了相应部分之间的局部距离的平均值，而不是每个部分都采用不同的三元组，如[5,13]中所采用的，并在“BPBreID w/o part-averagedtripletloss”中显示出较差的结果。这个关键的设计选择使得每个训练步骤有机会专注于具有最强大和最有辨别力特征的部分，从而减轻了遮挡和非辨别性局部特征的影响。03.4. 基于可见性的部分匹配0给定查询样本q和图库样本g，在推理过程中使用基于可见性的部分对部分匹配策略使用前景嵌入和基于身体部位的嵌入计算成对距离：0总距离qg =0可见性分数v q | gi用于确保仅比较相互可见的身体部位。如果两个样本之间没有相互可见的部分，则将它们的距离设置为无穷大。该策略在图2的底部部分中有所说明。在推理过程中不使用全局和连接嵌入，因为它们可能传递来自遮挡对象和行人的信息。04. 实验04.1. 数据集和评估指标0我们在全局数据集Market-1501 [42]和DukeMTMC-reID[43]以及遮挡数据集Occluded-Duke[15]，Occluded-ReID 1 [48]和P-DukeMTMC[48]上评估我们的模型。我们报告了两个标准的ReID指标：01 Occluded-ReID没有训练集，因此我们使用Market-1501进行训练。Model architecture A ResNet-50 (RN) [6] is employedas the main backbone feature extractor. The ﬁnal fully con-nected layer and global average pooling layer are removedand the stride of the last convolutional layer is set to 1 in-stead of 2. For a fair comparison with methods using heav-ier architecture or training, we also employ the ResNet-50-ibn (RI) [16] as in [7, 35, 31], and the HRNet-W32 (HR) [22]backbone as in [46]. HRNet feature maps with higher res-olution are particularly beneﬁcial to BPBreID for buildingﬁne-grained attention maps. All backbones are pre-trainedon ImageNet [19]. The number of body parts K is set to 5for holistic datasets and 8 for occluded datasets. An ablationstudy on K is provided in the supplementary materials.Training procedure The training procedure is mainlyadopted from BoT [14]. All images are resized to 256×128for ResNet-50 (RN) and 384×128 with HRNet-W32 (HR)and ResNet-50-ibn (RI). Images are ﬁrst augmented withrandom cropping and 10 pixels padding, and then withrandom erasing [45] at 0.5 probability. A training batchconsists of 64 samples from 16 identities with 4 imageseach. The model is trained in an end-to-end fashion for 120epochs with the Adam optimizer on one NVIDIA QuadroRTX8000 GPU. The learning rate is increased linearly from3.5×10−5 to 3.5×10−4 after 10 epochs and is decayed to3.5×10−5 and 3.5×10−6 at 40th epoch and 70th epoch re-spectively. The label smoothing regularization rate ε is setto 0.1 and triplet loss margin α is set to 0.3.Market-1501Occluded-DukeP-Duke-MTMCR-1 mAP R-1 mAP R-1 mAP R-1 mAP R-1 mAPBoT [14] †94.5 85.9 86.4 76.4 51.4 44.7 58.4 52.3 87.0 74.9SGAM [33] ‡ 91.4 67.3 83.5 67.3 55.1 35.3----PGFA [15] ‡ 91.2 76.8 82.6 65.5 51.4 37.3--44.2 23.1MHSA [25] ‡ 94.6 84.0 87.3 73.1 59.7 44.8--70.7 41.1VGTri [32] ‡----62.2 46.3 81.0 71.0--OAMN [2] † 93.2 79.8 86.3 72.6 62.6 46.1----HG [11] †95.6 86.1 87.1 77.5 61.4 50.5----BPBreIDRN ‡ 95.1 87.0 89.6 78.3 66.7 54.1 76.9 68.6 91.0 77.8PVPM [3] ‡------66.8 59.5 85.1 69.9HOReID [5] ‡ 94.2 84.9 86.9 75.6 55.1 43.8 80.3 70.2--ISP [46] ‡95.3 88.6 89.6 80.0 62.8 52.3----PAT [13] ‡95.4 88.0 88.8 78.2 64.5 53.6 81.6 72.1--PGFL [40] ‡ 95.3 87.2 89.6 79.5 63.0 54.1 80.7 70.3 81.1 64.2HPNet [9] ‡------87.31 77.43--SSGR [31] † 96.11 89.3 91.1 81.3 69.0 57.2 78.5 72.9--FED [29] †95.0 86.3 89.4 78.0 68.1 56.4 86.32 79.32--LDS [35] †95.82 90.31 91.53 82.53 64.3 55.7--91.92 82.92PFD [28] ‡95.5 89.72 91.2 83.22 69.53 61.82 81.5 83.01--BPBreIDRI ‡ 95.7 88.4 91.72 81.3 71.32 57.53 77.0 70.9 91.33 79.23BPBreIDHR ‡ 95.73 89.43 92.41 84.21 75.11 62.51 82.93 75.24 93.01 83.2116180在单个查询设置下，评估性能时不进行重新排序[44]，评估指标为排名1的累积匹配特性（CMC）和平均精度（mAP）。04.2. 实现细节04.3. 与最先进方法的比较0我们在表1中将我们的模型与其他ReID方法进行了比较，并且在整体上排名第一。表的第一部分的方法使用了与我们类似的ResNet-50主干和类似的训练过程，以及BoT[14]。表的第二部分的方法要么使用更大的图像尺寸[9, 3,40, 35]，更先进的主干网络[28, 29, 46,31]，或者使用额外的主干网络或分支的更重的架构[28, 3,5, 35, 40,13]。Occluded-Duke和P-DukeMTMC：我们的模型在这两个遮挡数据集上的表现优于所有先前的基于部分的方法（‡）。对于直接使用姿势估计模型的输出作为局部注意力掩码的方法[5, 15, 3,28]，缺乏端到端的训练导致在ReID相关特征池化方面的次优注意力图。对于通过部分发现产生局部特征的方法[46,13]，不使用先验的人体拓扑信息使得他们的模型更容易受到对齐错误、遗漏部分和背景干扰的影响。我们的工作证明了空间注意力的端到端训练的有效性。0表1.BPBreID与最先进方法的比较。符号†/‡分别表示全局/基于部分的方法。最好的性能分别用1、2、3表示。0方法0整体数据集遮挡数据集0DukeMT-MC-ReID0Occluded-reID0基于单个ResNet-50主干的BoT训练方案0任意的主干/训练方案或更重的架构0同时，具有身份和人体解析标签的注意力分支优于以前的架构，用于执行ReID相关的基于部分的池化。最近，专门设计用于遮挡ReID任务的全局方法（†）[11, 29, 35,31]在与以前的基于部分的方法相比表现出有希望的性能。然而，BPBreID也优于它们，展示了基于部分的方法在解决遮挡任务上的优势，因为全局方法无法实现部分对部分的匹配。Market-1501和DukeMTMC-ReID：我们的方法在Market-1501和DukeMTMC-ReID上优于所有基于部分的方法（‡），除了Market-1501上的PFD[28]，它使用了更重的架构，具有ViT主干和HRNet-W48并行分支用于姿势估计。关于全局方法（†），BPBreID在DukeMTMC-ReID上优于它们，并在Market-1501上取得了竞争性的性能，尽管大多数SOTA方法之间的性能差异在其上仍然不显著。这表明基于部分的方法是整体人员ReID的一个有竞争力的选择。遮挡-ReID：这个遮挡数据集需要强大的领域自适应能力，因为它不提供训练集，并且通常用于预训练的Market-1501数据集不包含遮挡样本。所有BPBreID66.7 54.1fg60.2 47.5ff64.1 49.7f64.4 50.3{ 16}{ ff, f1, ..., f6} 66.1 52.5Table 4.Impact of identity loss and triplet loss on training per-formance when applied selectively on holistic embeddings (global”g”, foreground ”f” and concatenated ”c”) and body part-basedembeddings (”p1,..,K”). Triplet loss on p1,..,K refers to our part-averaged triplet loss described in Section 3.3.2. Triplet loss onother embeddings (g, f and c) refers to a standard batch-hard tripletloss [8]. Identity loss on p1,..,K refers to a identity loss appliedindividually on each part-based embeddings. We also report per-formance for the popular part-based ReID architecture PCB [23],which does not use a foreground embedding.gfcp1,..,Kgfcp1,..,KR-1 mAPR-1 mAPGiLt ✓ ✓ ✓✓66.7 54.154.6 46.3PCB✓57.2 43.251.2 40.81✓✓ ✓ ✓52.9 43.250.2 40.92✓ ✓ ✓✓✓ ✓ ✓✓59.5 48.251.1 42.83✓ ✓ ✓✓61.5 49.552.1 44.84✓ ✓ ✓✓53.9 41.945.5 37.65✓ ✓ ✓✓✓61.8 49.451.0 43.56✓ ✓✓65.5 51.452.9 43.57✓✓✓56.5 41.9--8✓ ✓✓64.0 52.956.2 46.29✓ ✓ ✓✓✓66.2 53.355.9 46.110✓ ✓ ✓✓✓63.6 52.2--11✓ ✓ ✓✓✓64.0 52.454.8 45.912✓ ✓ ✓✓65.3 52.954.4 45.716190表2.BPBreID在Occluded-Duke上的消融研究。对于实验“没有部分平均的三元组损失”，我们将方程（8）中引入的部分平均的三元组损失替换为每个部分的不同三元组损失。方法 R-1 mAP0BoT [14] 基准 51.4 44.70- 没有可学习的注意力 51.6 39.20- 没有可见性分数 52.6 45.30- 没有部分平均的三元组损失 64.8 51.70表3.身体部位和整体嵌入的性能比较。方法 R-1 mAP0f 1 (头部) 47.1 24.70f 2 (躯干) 52.0 31.70f 3 (左臂) 55.7 34.40f 4 (右臂) 56.7 34.1 f 5(腿) 22.3 13.30f 6 (脚) 16.1 9.00在这一部分，我们使用Occluded-Duke数据集和BPBreIDRN进行一些消融研究，以分析我们的架构选择对ReID性能的影响。04.4. 消融研究0well-performing methods on Occluded-reID rely on the in- formation from an externalpose estimation model at infer- ence [3, 5, 40, 28] or on occlusion data augmentationtech- niques [29, 31] to achieve robust part pooling on the new occluded domain.Different from these methods, we don’t use any external model at inference, norocclusion data aug- mentation, but still achieve competitive performance.04.4.1 BPBreID的组成部分0与我们模型的不同组件相关的性能增益在表2中报告。我们采用Bag ofTricks（BoT）[14]作为基线，并在其基础上构建BPBreID。没有可学习的注意力的BPBreID是一种替代方法，其中由身体部分注意模块预测的K个身体部分概率图{M1，...，MK}被直接从PifPaf输出中导出的固定注意力权重替换，具体过程在补充材料中详细说明。性能下降主要表明，注意力权重上缺乏端到端训练导致固定的注意力掩码与骨干特征池化的ReID需求之间存在差异。这证实了以端到端方式训练注意机制，同时具有基于部分的预测和ReID作为目标，可以得到更专门解决ReID任务的注意机制，具有更好的选择辨别性外观特征。没有可见性分数的BPBreID是指在推理中使用所有嵌入，而不考虑它们的可见性，即方程（9）中的所有可见性分数vq |gi都设置为1。如预期，使用对应于非可见部分的噪声嵌入会大大降低性能。这验证了我们基于可见性的部分对部分匹配策略在解决挑战�1�和�2�方

下载后可阅读完整内容，剩余1页未读，立即下载