没有合适的资源?快使用搜索试试~ 我知道了~
142780从单张图像中的换衣人员再识别中进行步态预测和正则化0Xin Jin 1,2* , Tianyu He 2 , Kecheng Zheng 1 , Zhiheng Yin 3 , Xu Shen 2 , Zhen Huang 1 , Ruoyu Feng 1 , Jianqiang Huang 2 , Zhibo Chen1† , Xian-Sheng Hua 2†01中国科学技术大学,2阿里巴巴云计算有限公司,3密歇根大学0{ jinxustc,zkcys001,hz13,ustcfry } @mail.ustc.edu.cn,yzhiheng@umich.edu,chenzhibo@ustc.edu.cn0{ timhe.hty,shenxu.sx,jianqiang.hjq,xiansheng.hxs } @alibaba-inc.com0摘要0换衣人员再识别(CC-ReID)旨在在长时间跨度内(例如几天)匹配不同位置上的同一个人,因此不可避免地会出现换衣的情况。在本文中,我们专注于在更具挑战性的情况下处理CC-ReID问题,即仅通过一张单独的图像进行识别,这样可以实现高效和无延迟的人员身份匹配。具体而言,我们引入步态识别作为辅助任务,通过利用个人独特且与服装无关的步态信息,驱动图像ReID模型学习与服装无关的特征表示,我们将这个框架命名为GI-ReID。GI-ReID采用了两个流的架构,包括图像ReID流和辅助步态识别流(步态流)。步态流在推理过程中被丢弃以提高效率,它作为一个调节器,鼓励ReID流在训练过程中捕捉与服装无关的生物运动特征。为了从单张图像中获取连续的时间运动线索,我们设计了一个步态序列预测(GSP)模块,用于步态流以丰富步态信息。最后,通过两个流之间的语义一致性约束来实现有效的知识正则化。在多个基于图像的换衣ReID基准测试中(如LTCC、PRCC、Real28和VC-Clothes),广泛的实验证明GI-ReID相对于最先进的方法表现出色。01. 引言0人员再识别(ReID)旨在跨摄像头、时间和地点识别特定的人。已经提出了丰富的方法来解决由于人员图像之间几何不对齐而引起的挑战。0* 本工作是他在访问阿里巴巴期间完成的研究实习。† 通讯作者。0(a)0同一个人不同的服装0步态告诉我们他们是同一个人0不同的人相似的服装0步态告诉我们他们是不同的人0(b)0图1.(a)展示了一个现实中的案例,嫌疑人为了躲避追捕将外套从黑色换成了白色。(b)揭示了人的步态可以帮助ReID,特别是在身份匹配遇到换衣挑战时(图像中的所有人脸都被打码以保护隐私)。0由于人的姿势[43, 48, 66]、摄像机视角[24, 50,62]和风格/尺度[25,26]的多样性,这些方法通常会不经意地假设查询和画廊中的同一个人的图像具有相同的服装。一般来说,它们在经过训练的短期数据集上表现良好,但在长期收集的ReID数据集上进行测试时性能会显著下降[45, 52, 57,59]。由于这些数据集中存在长时间的服装变化,这严重影响了ReID的准确性。例如,图1(a)展示了一个现实中的案例,嫌疑人在不同的时间/地点被监控设备捕获时将外套从黑色换成了白色,这使得ReID变得困难,特别是当她戴着口罩并且捕获的图像质量较低时。近年来,为了解决换衣ReID(CC-ReID)问题,一些研究已经贡献了一些新的数据集,其中换衣是常见的(例如01 信息来源于https://www.wjr.com/2016/01/06/woman-wanted-in-southwest-detroit-bank-robbery/142790Celebrities-reID [ 19 , 21 ], PRCC [ 57 ], LTCC [ 45 ],Real28 and VC-Clothes [ 52 ]).他们还提出了一些新的算法,可以学习适用于CC-ReID的无关服装的表示。例如,Yang等人[57]提出了一种基于轮廓素描的网络,以克服中等换衣问题。同样,Qian等人[45],Li等人[32]和Hong等人[17]都使用身体形状来解决CC-ReID问题。然而,无论是使用轮廓素描还是身体形状,所有这些方法都容易受到估计误差问题的困扰。因为单视图轮廓/形状推断(来自2D图像)由于可能的情况范围广泛,特别是当人们在冬天穿厚衣服时,这是极其困难的。此外,这些基于轮廓素描或形状的方法只关注从人物中提取静态空间线索作为额外的无关服装表示,而丰富的动态运动信息(例如步态,暗示的运动[28])往往被忽视。在本文中,我们探索利用暗示行人动态运动线索的独特步态特征来驱动模型学习无关服装和有区分度的ReID表示。如图1(b)所示,虽然很难在同一人穿不同衣服时识别出相同的人,或者在他们穿相似/相同衣服时区分不同的人,但我们仍然可以利用他们独特/有区分度的步态来实现正确的身份匹配。这是因为作为一种独特的生物特征,与其他易变的外观特征(例如面部,身体形状,轮廓[36,63])相比,步态具有更好的不变性。此外,即使在低质量的摄像机成像下,步态也可以在长距离上进行认证。不幸的是,现有的与步态相关的研究主要依赖于大型视频序列[3,8]。捕捉视频需要时间延迟,保存视频需要大量的硬件存储成本,这两者对于实时ReID应用都是不可取的。即使最近的工作[55]首次尝试从单个图像中实现步态识别,如何利用步态特征从单个图像处理CC-ReID问题仍然是未研究的,由于潜在的视点变化和遮挡,这个任务更具挑战性。在本文中,我们提出了一种基于图像的ReID框架,称为GI-ReID,它可以在步态特征的辅助下从单个图像中学习无关服装的ReID表示。GI-ReID由一个主要的基于图像的ReID-Stream和一个辅助的步态识别流(Gait-Stream)组成。图2显示了整个框架。Gait-Stream旨在规范ReID-Stream,从单个RGB图像中学习无关服装特征,以实现有效的CC-ReID。在推理中,它被丢弃以提高效率。由于全面的步态特征提取通常需要步态视频序列作为输入[3,8],我们为Gait-Stream引入了一个新的步态序列预测(GSP)模块,以从单个输入查询图像中近似预测连续的步态帧,这丰富了0学习到的步态信息。最后,为了促进主要的ReID-Stream从步态流中高效学习,我们进一步对两个流的特征上的同一人施加高级语义一致性(SC)约束。我们总结我们的主要贡献如下:•我们专门针对图像ReID中具有挑战性的换衣问题,以促进实际应用。提出了一种基于步态辅助的基于图像的换衣ReID(GI-ReID)框架。作为调节器,GI-ReID中的步态流可以在推理中被移除而不损失ReID性能。这减少了对步态识别准确性的依赖,使我们的方法在计算上高效且稳健。0•设计良好的步态序列预测(GSP)模块使我们的方法在具有挑战性的基于图像的ReID场景中有效。高级语义一致性(SC)约束对两个流进行有效的正则化,增强了在换衣服的情况下ReID流的区分能力。通过步态预测和正则化,GI-ReID在基于图像的换衣服ReID上实现了最先进的性能。除了ResNet-50 [13],我们还使用OSNet [69],LTCC-shape[45]和PRCC-contour [57]作为我们的评估基线。02. 相关工作02.1. 人物再识别0一般ReID。在没有换衣服的情况下,一般的ReID在深度学习方面取得了巨大的成功。它包括探索细粒度行人特征描述[9, 51, 53, 69],解决由于(a)不同的摄像机视角[24,49],(b)不同的姿势[10, 43,48],(c)语义不一致性[26,65],(d)遮挡/部分观察[14, 39, 68,70]等引起的空间错位问题。这些方法在很大程度上依赖于静态的空间纹理信息。然而,当人物ReID遇到换衣服的情况时,纹理信息就不那么可靠了,因为即使对于同一个人来说,纹理信息也会发生显著变化。与静态纹理相比,作为一种有区分度的生物特征模态,步态信息更加一致和可靠。换衣服的ReID。考虑到换衣服ReID(CC-ReID)的更广泛应用范围和更大的实际价值,越来越多的研究开始关注解决这个具有挑战性的问题。黄等人提出使用向量神经元胶囊来感知同一个人的衣服变化。杨等人,钱等人/李等人,于等人/万等人分别提出利用轮廓素描、身体形状、面部/发型来辅助换衣服下的ReID。然而,这些方法通常由于难以获取外部线索(例如身体形状、面部等)而导致估计误差。此外,它们还忽略了对可利用性的探索。Ƹ……142800�0输入0ReID骨干0�0步态序列0��0GSP模块0轮廓0中间0�� 预测0GaitSet0��0��0� ��0� �0� ���0� �.0� �.0步态0流0ReID流0语义一致性0�0�0输入0� �0� 推理0� : 位置嵌入器0� : 编码器0� : 特征聚合器0长度 = �0� : 解码器0重建层0嵌入层嵌入层0重建层0图2.所提出的GI-ReID概述,包括ReID流和步态流,它们通过高级语义一致性(SC)约束进行联合训练。步态流在单个图像中驱动ReID流学习与衣服无关的表示,并在推理中被丢弃以提高计算效率。步态序列预测(GSP)模块旨在从图像中预测步态帧。GaitSet[3]负责提取有区分度的步态特征。0表1. 步态识别和CC-ReID之间的差异。0任务:步态识别,服装变化的人员ReID0数据格式0步态能量图(GEI)/轮廓的序列/视频序列0跨摄像头的不连续RGB图像0数据集:USF,CASIA-B,OU-ISIR,OU-MVLP等0COCAS,PRCC,LTCC,Real28,VC-Clothes等0未解决的问题01)视角(例如正面视图);2)遮挡,身体不完整;3)杂乱/复杂的背景;0服装变化0鉴于辨别性的动态运动线索,如步态。FITD[63]基于视频的真实运动线索解决了服装变化的ReID问题。我们的工作与FITD在至少三个方面不同:1)FITD使用从密集轨迹(光流)派生出的运动信息,这需要连续的视频序列。我们的GI-ReID通过步态预测和规范化处理单个图像中的服装变化ReID,这更具挑战性和实用性。2)FITD直接使用人体运动线索完成ReID,这依赖于准确的运动预测,可能会受到估计误差的影响。我们的GI-ReID只将步态识别任务作为调节器,驱动主要的ReID模型学习与服装无关的特征,使得我们的方法对步态估计误差不太敏感。3)FITD仅对ReID进行时间运动模式的表征,忽略了其他可区分的局部空间线索,如个人物品(例如背包)。我们的GI-ReID不仅探索动态步态线索,还从原始RGB图像中学习,得到更全面的特征。02.2. 步态识别和预测0步态识别[2, 3, 7, 8, 30, 36, 37, 40,55]直接使用步态序列进行身份匹配,也是与服装无关的0独立于服装,但与我们的工作不同,不能直接应用于基于图像的服装变化ReID。我们在表1中详细阐述了两个任务之间的区别:本文侧重于基于图像的服装变化ReID,其中大的视角变化,遮挡和复杂环境导致步态识别失败。而且,这些基于步态序列的方法对于基于图像的CC-ReID来说并不是最优的。因此,我们只将步态识别作为辅助规范化,驱动ReID模型学习与服装无关的表示,使得我们的方法对于识别错误更加鲁棒。此外,步态表示可以分为基于模型的[31, 33,42]和基于外观的[2, 3,8]。前者依赖于人体姿势,而后者依赖于轮廓。为了简化和提高鲁棒性,我们使用轮廓作为步态表示。从单帧预测步态,或者说,视频帧预测(即运动预测)的领域已经得到广泛研究并取得了巨大成功[12, 18, 35, 41,55],这证实了我们工作的可行性。这个任务非常具有挑战性,这就是为什么我们精心设计了步态序列预测模块,同时以一种稳健的规范化方式间接使用预测结果来帮助处理服装变化的ReID。03. 提出的GI-ReID框架0GI-ReID框架旨在充分利用独特的人体步态,仅依靠一张单个图像来处理服装变化的ReID挑战。图2显示了整个框架的流程图。给定一个单个人物图像,首先提取其轮廓(即掩码)作为fS = E(S).(1)142810使用语义分割方法,如PointRend[27],将其放入步态流中。通过提出的步态序列预测(GSP)模块,我们可以预测具有更全面步态信息的步态序列,然后将其输入到后续的识别网络(Gait-Set[3])中提取有区分度的步态特征。通过高级语义一致性(SC)约束,独立于服装的步态流作为调节器,鼓励主要的ReID-Stream从单个RGB图像中捕捉与服装无关的特征。我们在下面的章节中讨论每个组件的细节。0fS = E(S)。0Gait-Stream的辅助部分0Gait-Stream由两部分组成:Gait SequencePrediction(GSP)模块和预训练的步态识别网络(GaitSet[3])。GSP用于增强步态信息。然后,GaitSet从增强的步态中提取独立于衣物的判别性运动特征,以指导/规范ReID-Stream的训练。Gait SequencePrediction(GSP)模块:GSP模块旨在预测包含连续步态帧的步态序列。该模块与一般的视频帧预测任务(例如帧插值和外推研究[12, 18, 35,41])相关,步态序列预测可以被视为一个“步态帧合成”的过程。如图2所示,GSP基于一个自编码器架构[6],包括特征编码器E和解码器D。为了减少预测的不确定性和难度(例如,给定一个悬空的手臂,很难猜测它在下一帧中是上升还是下降),我们通过位置嵌入器P和特征聚合器A手动将中间帧索引的额外先验信息整合到内部学习到的特征中。直观地说,中间帧索引意味着输入的步态轮廓对应于预测步态序列的中间结果。这种先验知识旨在驱动GSP模块预测当前输入步态状态之前和之后的相邻行走状态,以减少预测的不确定性。(1)编码器。给定一个轮廓输入S,编码器E旨在提取一个维度缩小的紧凑特征。0输入中间步态的位置定义为pmid =N/2,表示输入帧与整个序列的相对位置关系。为了方便起见,我们将位置标签转换为one-hot向量以计算损失。在公式中,位置嵌入器P的作用是:0在公式(2)中,p是一个维度为1的位置标签,Lposi0其中,我们将嵌入的位置输出�p与真实的pmid进行比较,构建位置损失Lposition。P用于建立输入和中间位置之间的映射关系。特征聚合器A通过一个全连接层实现,在编码器和解码器之间插入,将原始编码特征fS转换为中间位置感知特征f�pS,同时考虑到嵌入的中间位置信息�p,为接下来的解码器提供明确的指示,告诉解码器我们需要预测当前输入中间步态之前和之后的步态状态,从而减少预测结果的不确定性。这个特征聚合过程可以表示为:0在公式(3)中,fSp是由fS和p拼接而0其中[∙]表示简单的拼接。(3)解码器。我们将聚合的特征f�pS输入解码器D,解码器的结构与编码器E相对称,用于预测具有预定义固定帧数N的步态序列。这个过程可以表示为:0在公式(4)中,R是一个维度为h*w的特征图,Lpred.0其中(h,w)表示预测步态帧的高度和宽度,与输入的轮廓图像相同。计算预测损失Lpred.以确保预测的步态序列结果与真实结果(GT)一致。步态特征提取:将预测的步态序列�R输入预训练的GaitSet[3]中,学习判别性和独立于衣物的步态特征g。GaitSet是一个基于集合的步态识别模型,将一组轮廓作为输入,并将特征聚合到集合级别的特征中,表示为g =GaitSet(�R)。更多细节请参见附录。03.2. 主要的ReID-Stream0ReID-Stream的主干可以是任何现成的网络,例如常用的ResNet-50 [13]、ReID特定的PCB [51]、MGN[53]和OS-Net [69]。我们使用广泛采用的分类损失[9,51]和带有批次难例挖掘的三元组损失[15]作为基本的优化目标进行训练。特征r最终用于参考。03.3. 两个流的联合学习0由于GSP模块潜在的粗糙轮廓提取和步态序列预测错误,它是142820直接利用步态信息单独完成有效的ReID非常困难。实验上,我们尝试仅使用预测的步态序列�R作为输入进行CC-ReID,发现这种方案无法取得良好的结果(详见消融研究以获取更多细节)。因此,为了利用步态信息的独立于服装的优点,同时避免上述问题,我们提出通过高级语义一致性(SC)约束共同训练Gait-Stream和ReID-Stream,其中步态特征被视为调节器,驱动ReID-Stream进行独立于服装的特征学习。请注意,推理过程中不需要SC约束。语义一致性(SC)约束。SC约束与常见的特征学习工作(如知识蒸馏[16]、相互学习[64]和知识融合[58])有着本质上的关联。我们的SC约束与它们主要在两个方面有所不同:1)SC是为了鼓励两种模态(动态步态和静态RGB图像)的高级共同特征学习。2)SC确保每个流/模态的信息完整性。SC约束的详细信息如图2所示。Gait-Stream的学习到的步态特征g和ReID-Stream的学习到的特征r首先通过嵌入层转换为一个共同且可交互的空间:ˆr = Emb.(r)和ˆg =Emb.(g),其中ˆr和ˆg具有相同的特征维度。然后,我们通过最小化最大均值差异(MMD)[11]来使转换特征ˆr和ˆg彼此接近。MMD是一种测量概率分布的域不匹配的距离度量。我们使用它来衡量转换特征ˆr和ˆg之间的高级语义差异,并将其最小化以使ReID-Stream更加关注独立于服装的步态生物特征。对于ˆr和ˆg的MMD距离的经验近似化简如下:0L MMD = ∥µ(ˆg) - µ(ˆr)∥22 + ∥σ(ˆg) - σ(ˆr)∥22, (5)0其中,µ(∙)、σ(∙)表示转换特征ˆr和ˆg的均值和方差计算函数。为了避免由于带有SC约束的特征正则化导致的信息丢失,我们进一步施加重构惩罚,以确保转换特征ˆg和ˆr能够恢复到原始版本。具体而言,我们通过一个重构层(由FC层实现)对原始输出特征进行重构:�r = Recon.(ˆr)和�g =Recon.(ˆg),并计算相应的重构损失如下:0L recon. = ∥�g - g∥22 + ∥�r - r∥22. (6)0训练流程。提出的GI-ReID的整个训练过程包括三个阶段:1)对步态特征提取进行预训练的GaitSet[3]。2)对提出的步态序列预测(GSP)模块和0在步态相关数据集上对Gait-Stream中的GaitSet进行训练。3)在CC-ReID相关数据集上对Gait-Stream和ReID-Stream进行联合训练。更多细节请参见补充材料,包括伪代码和损失平衡策略。04. 实验04.1. 数据集、指标和实验设置0数据集详情。我们使用了四个最近的换装ReID数据集Real28 [52],VC-Clothes [52],LTCC [45],PRCC[57]和一个通用视频ReID数据集MARS[67](以突出图像为基础的CC-ReID的困难性和必要性)进行实验。表2给出了这些ReID数据集的简要信息和比较。更详细的介绍可以在补充材料中找到。0表2. 数据集的简要介绍和比较。0MARS Real28 VC-Clothes LTCC PRCC0类别 视频 图像 图像 图像 图像 照片 风格 真实 真实 合成 真实 真实 规模大 小 大 大 大 换装 否 是 是 是 是 身份 1,261 28 512 152 221 样本20,715 4,324 19,060 17,138 33,698 摄像头 6 4 4 N/A 3 用途训练和测试 测试 训练和测试 训练和测试 训练和测试0评估指标。我们使用累积匹配特性(CMC)在Rank-1/-10/-20和平均精度(mAP)来评估性能。实验设置。我们构建了三种不同的实验设置,全面验证步态生物特征在人员ReID中的有效性,并验证了我们的GI-ReID框架中步态预测和正则化的合理性/优越性:(1)真实换装图像ReID,(2)通用视频ReID和(3)模拟换装视频ReID。在主要的文稿中,为了节省空间并突出我们论文的核心贡献,我们只呈现与最具挑战性的(1)真实换装图像ReID设置相关的结果。关于(2)(3)的其他结果在补充材料中。对于(1)真实换装图像ReID,我们使用真实图像换装数据集Real28[52],VC-Clothes [52],LTCC [45]和PRCC[57]进行实验,以验证GSP模块和SC约束的有效性,并将我们的GI-ReID与SOTA换装ReID方法进行比较。在这个设置中,GSP模块和GaitSet都首先在步态特定数据集CASIA-B[3]上进行预训练,然后在具有SC约束L MMD & Lrecon和ReID监督的CC-ReID数据集上进行微调。ResNet-50 [13],OSNet [69],LTCC-shape [45]和PRCC-contour[57]被用作ReID的骨干网络进行比较。04.2. 消融研究0基准模型指的是只使用RGB图像的模型。142830表3.在真实图像换装数据集Real28、VC-Clothes、LTCC上的性能(%)比较。GS-GSP表示带有步态序列预测(GSP)模块的步态流(GS)。ReID骨干网络为ResNet-50。'标准'是在计算mAP/Rank-1时丢弃具有相同身份和摄像头视角的测试集中的图像[45]。0方法 Real28 VC-Clothes LTCC(标准)0mAP Rank-1 mAP Rank-1 mAP Rank-10基准模型 4.1 6.7 49.1 53.7 23.2 55.1 + GS(拼接) 6.8 7.9 52.358.9 26.5 60.0 + GS-GSP(拼接) 10.1 10.8 59.0 63.7 28.8 64.5 +GS-GSP + SC(我们的方法) 10.4 11.1 57.8 64.5 29.4 63.20真实换装图像ReID的结果。我们在三个换装数据集Real28、VC-Clothes和LTCC上进行消融实验。Real28对于训练来说太小了,所以我们在VC-Clothes上训练模型,只在Real28上进行测试[52]。从表3中可以看出:1)所有与Gait-Stream(GS)相关的方案相对于基准模型都取得了明显的增益(mAP超过2.7%),这证明了使用步态处理换装问题的有效性。2)通过精心设计的GSP模块,基准模型+GS-GSP(拼接)在Real28/VC-Clothes/LTCC上的mAP分别比基准模型+GS(拼接)高出3.3%/6.7%/2.3%,这证明了步态序列预测(GSP)在步态信息增强方面的有效性。需要注意的是,基准模型+GS(拼接)只使用了Gait-Stream(GS),但去除了GSP,其中我们将唯一可用的单人轮廓复制为GaitSet的输入。3)在换装设置中,语义一致性(SC)表现良好,它在大多数评估案例中帮助我们的GI-ReID实现了最佳性能,同时通过在推理中丢弃Gait-Stream来节省计算成本。0表4.在换装数据集LTCC上的性能(%)比较。此实验旨在展示我们的GI-ReID能够带来收益,因为它探索了步态信息,而不仅仅是引入轮廓(即人体掩码)。ReID骨干网络为ResNet-50。0方法 LTCC(换装)mAP Rank-10基线 8.10 19.58 Silhouette-ReID 7.04 17.92GI-ReID(我们的)10.38 23.720改进来自步态预测,而不是轮廓使用。我们相信,我们的GI-ReID之所以能够成功解决换装ReID问题,是因为它有效地利用了步态预测,而不是引入人体轮廓(即掩码)。为了证明这一点,我们额外设计了一个Silhouette-ReID方案,它直接将人体RGB-Silhouette对作为输入传递给ReID模型(参考[4,47]),并将其与我们的GI-ReID在换装ReID数据集LTCC上进行比较。为了公平比较,所有方案都采用ResNet-50作为ReID骨干网络。0如表4所示,我们发现在换装场景下,Silhouette-ReID甚至比基线方案Baseline(ResNet-50)的mAP低1.06%。我们分析,直接使用轮廓在像素级别上去除背景杂乱会使ReID模型更多地关注前景对象的外观/服装颜色信息,这对于换装ReID来说是意外和不可靠的,从而导致性能下降。直接使用步态识别方法解决换装ReID问题的研究。正如我们在相关工作中讨论的那样,直接使用步态识别算法解决换装ReID问题并不是最优的,特别是在基于图像的CC-ReID场景中。实验上,我们将提出的GI-ReID与两种流行的纯步态识别方法GaitSet [3]和PA-GCR[55]进行比较。GaitSet需要一组/序列的人体轮廓作为输入,但最近发布的换装ReID数据集是缺少相同人的连续帧的图像数据集。因此,我们将唯一可用的单个人体轮廓复制为一组作为输入,以近似应用GaitSet到基于图像的CC-ReID任务。如表5所示,这些纯步态识别方法GaitSet[3]和PA-GCR[55]在换装场景下的mAP都不如基线方案Baseline(ResNet-50),这表明仅仅使用步态生物特征进行人员匹配对于换装ReID效果不好,我们的步态预测和正则化思想在处理CC-ReID方面表现更好,特别是在基于图像的CC-ReID中。0表5.在换装数据集LTCC上的性能(%)比较。此实验旨在展示这些纯步态识别方法在换装ReID方面效果不好。ReID骨干网络为ResNet-50。0方法 LTCC(换装)0mAP Rank-10基线 8.10 19.58 GaitSet [3] 2.14 7.22 PA-GCR [55] 3.369.01 GI-ReID(我们的)10.38 23.7204.3. 我们GI-ReID框架中的设计选择0我们研究了GI-ReID框架中的不同设计选择。我们在真实的大规模换装ReID数据集LTCC[45]上训练和测试模型。预测步态序列长度N的影响。如第3.1节的方程(4)所示,GSP的输出R ∈ R N � h �w是一个包含N个预测步态帧的序列。我们研究了长度N对ReID性能的影响。表6a显示,当N =8时,我们的GI-ReID获得了最佳性能,在步态预测误差和步态信息增强之间取得了良好的折衷。'中间帧输入原则'是否必要?如第3.1节的GSP方程(2)所述,我们使用位置嵌入器P和特征聚合器A来建立中间帧输入原则,以减少步态预测的干扰。LTCCmAP Rank-1 mAPRank-1LTCCmAP Rank-1 mAPRank-1LTCCmAP Rank-1 mAPRank-1LTCCmAPRank-1mAPRank-1acbdef142840表6.我们的GI-ReID框架中(a)(b)GSP模块和(c)SC约束中不同设计选择的研究。'更换衣物'设置意味着在测试期间丢弃具有相同身份、摄像机视角和衣物的图像。0(a)步态预测长度N的研究。0方法0标准 更换衣物0基准 23.2 55.1 8.1 19.6 N=4 26.9 59.2 8.921.7 N=6 28.2 61.9 9.8 22.6N=8(我们的方案) 29.4 63.2 10.4 23.7N=10 28.4 63.1 10.4 22.8 N=12 27.7 60.810.0 22.50(b)GSP中输入步态位置p的研究。0方法0标准 更换衣物0基准 23.2 55.1 8.1 19.6 Arb. 27.1 59.5 9.220.5 BEGN 28.4 61.2 9.8 22.0 END 28.161.5 9.5 22.4 Mid.(我们的方案) 29.463.2 10.4 23.70(c)SC约束中使用的损失研究。0方法0标准 更换衣物0基准 23.2 55.1 8.1 19.6 w/L MSE 27.5 61.09.0 21.4 w/o L recon. 28.3 62.7 9.6 22.9ours 29.4 63.2 10.4 23.70表7.不同的ReID推断策略研究。0方法0标准 更换衣物0基准 23.2 55.1 8.1 19.6 � R 8.6 21.1 4.3 9.9 ˆ r + ˆ g 29.8 64.010.9 24.4 � r + � g 28.9 63.2 9.7 23.1 � r 28.1 60.8 9.1 21.3r(我们的方案) 29.4 63.2 10.4 23.70模糊性和困难。在这里,我们比较了几种方案,以展示这种设计的必要性。Arb.:我们去除了位置嵌入器P,特征聚合器A,位置损失Lposition,以及GSP的训练中将任意位置的步态轮廓作为输入。BEGN和END:我们分别将开始位置和结束位置的步态姿势作为输入,用于预测GSP训练期间的步态序列。在表6b中,使用中间位置的步态帧进行步态序列预测的方案Mid.(我们的方案)在标准设置中取得了最佳性能,mAP比Arb.高出2.3%,这表明预测输入中间步态状态之前和之后的步态状态确实可以减少预测的困难和模糊性。为什么使用MMD进行正则化?对于SC约束,我们通过最小化L MMD来缩小嵌入的ReID向量ˆ r和步态向量ˆg之间的差距。我们在表6c中研究了这种设计,并发现当用LMSE 替换L MMD 时,w/L MSE的性能在mAP上下降了近2.0%。这是因为MMD损失是一种分布级别的约束,可以更好地强制动态运动步态特征和静态空间ReID特征之间的高级语义一致性。MSE损失是一种逐元素的约束,对于协调运动步态和RGB特征的两种模态不太适用。重建惩罚是否必要?当在Eq-(6)中去除Lrecon.时,如表6c所示,方案w/o Lrecon.在两个设置中都比我们的方案差1.1%/0.8%的mAP,这表明避免由特征正则化引起的信息丢失可以增强我们的GI-ReID框架的最终ReID性能。哪种用于ReID推断?我们比较了使用以下几种情况:(1)预测的步态序列�R,(2)对齐特征融合ˆ r + ˆ g,(3)重建特征融合� r +0� g,以及(4)重建的ReID向量� r用于ReID推断。表7显示:1)直接使用预测的步态序列� R进行CC-ReID无法获得令人满意的结果,这也表明这些步态识别工作[3,7,8]对于CC-ReID来说并不是最佳选择。2)使用良好对齐的特征融合ˆ r + ˆ g取得了最佳性能,在两个设置中的mAP分别比我们的方案高出0.4%/0.5%,但该方案仍需要在推断中使用Gait-Stream。3)使用重建的ReID向量� r进行推断会导致信息丢失,并且在两个设置中的mAP比我们的方案低1.3%。4)我们的方案使用经过正则化的ReID向量r,性能居第二,同时节省了Gait-Stream带来的计算成本。0CASIA-B步态数据集中的真实样本0图3. 六个预测的步态序列与真实步态样本的对比。04.4. 更多分析、可视化和洞察0为了进一步证明所提出的步态序列预测(GSP)模块实际上可以预测独特的人体运动特征,并且GI-ReID的改进确实来自于步态信息,而不是使用额外的与步态相关的数据集或人体轮廓图像,我们在这里提供更多的分析和可视化结果。例如,使用GSP模块生成的预测人体步态序列�R(详见附录)在使用GaitSet [ 3]进行基于步态的识别性能测试时,在CASIA-B上可以达到竞争力的62.4%的Rank-1。步态序列预测可视化。图3进一步展示了6组步态预测结果(左)和CASIA-B数据集[ 3]中的2组真实步态样本(右)。与真实步态样本相比,预测的步态结果(即GSP的输出)具有合理的连续运动,例如摆动手臂和开合腿。步态流可以从这些预测的步态结果中学习到有区分性的动态线索,如行走步幅、左右摆动的手臂范围、腿部的开合角度等(见图3中的红色圆圈)。特征图可视化。为了更好地理解我们的GI-ReID的工作原理,我们可视化了基线和我们的GI-ReID的中间激活特征图进行比较。142850表8. 我们的GI-ReID与其他竞争对手在服装变换数据集LTCC [ 45 ]和PRCC [ 57]上的性能(%)比较。'†'表示只使用有服装变换的身份进行训练。更多结果请参见附录。0(a) LTCC上的比较结果。0方法 标准 服装变换 标准 † 服装变换 †0Rank-1 mAP Rank-1 mAP Rank-1 mAP Rank-1 mAP0LOMO [ 34 ] + NullSpace [ 61 ] 34.83 11.92 16.45 6.29 27.59 9.43 13.37 5.34 ResNet-50 +Face [ 56 ] 60.44 25.42 22.10 9.44 55.37 22.23 20.68 8.99 PCB [ 51 ] 65.11 30.60 23.52 10.0359.22 26.61 21.93 8.81 HACNN [ 29 ] 60.24 26.71 21.59 9.25 57.12 23.48 20.81 8.27 MuDeep [44 ] 61.86 27.52 23.53 10.23 56.99 24.10 18.66 8.760基线(ResNet-50) 55.14 23.21 19.58 8.10 54.27 21.98 19.14 7.74GI-ReID(ResNet-50,我们的) 63.21 29.44 23.72 10.38 61.39 27.88 22.59 9.870基线(OSNet) 66.07 31.18 23.43 10.56 61.22 27.41 22.97 9.74 GI-ReID(OSNet,我们的)73.59 36.07 28.11 13.17 66.94 33.04 26.71 12.690基线(LTCC-shape [ 45 ]) – – 26.15 12.40 – – 25.15 11.67 LTCC-shape +Gait-Stream(我们的) – – 28.86 14.19 – – 26.41 13.260(b) PRCC上的比较结果。0方法 跨服装0Rank-1 Rank-10 Rank-200Shape [ 1 ] 11.48 38.66 53.21 LNSCT [ 54 ]15.33 53.87 67.12 HACNN [ 29 ] 21.8159.47 67.45 PCB [ 51 ] 22.86 61.24 78.27SketchNet [ 60 ] 17.89 43.70 58.62Deformable [ 5 ] 25.98 71.67 85.31 STN [ 22] 27.47 69.53 83.22 RCSANet [ 20 ] 31.60 ––0PRCC-contour [ 57 ] 34.38 77.30 88.05 +0基线(ResNet-50) 22.23 61.08 76.44G0基线(OSNet) 28.70 72.34 85.89GI-ReID(OSNet) 37.55 82.25 93.760基线GI-ReID(我们的)0不同的服装(a)(b)(c)0图4.左:基线和我们的GI-ReID之间激活图的比较示例,显示GI-ReID不仅关注人的服装,还关注整体的人体步态和局部的面部;右:Real28数据集上两个查询图像的GI-ReID前三名排名列表。GI-ReID可以通过步态的辅助来识别穿着不同服装的同一个人。0根据[ 23 , 25 , 69 ]的方法,我们在图 4的左侧展示了Real28上的三个激活图示例,我们观察到Baseline的特征图主要对人的服装有高响应。相比之下,我们的GI-ReID的激活特征不仅对人的服装有高响应,还覆盖了整体人体结构(步态)和局部面部信息(对服装变化具有鲁棒性)。04.5. 与现有技术的比较0对于换装ReID的研究相对较少 [ 19 ,021 , 32 , 45 , 52 , 57 , 59 ],并且其中大部分没有发布源代码,甚至数据集 [ 59 ]也没有发布源代码。我们将我们的GI-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功