服装状态感知对长期人重新识别的研究

102 浏览量更新于2023-10-15 收藏 1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11895服装状态感知对长期人重新识别的黄燕1、3吴强1徐劲松1钟毅2张兆祥31澳大利亚悉尼科技大学电气与数据工程学院2北京理工大学信息与电子学院3中国科学院自动化研究所，北京中国。outlook.com，{Qiang.Wu，JingSong.Xu} @ uts.edu.au，yi. bit.edu.cn摘要长期人员重新识别（LT-reID）暴露了极端的挑战，因为在两个记录片段之间的时间间隔较长，其中人员可能会更换衣服。LT-reID有两种类型的方法：基于生物统计学的方法和基于数据适应的方法。前者是寻找服装不相关的生物特征。然而，寻求高质量的生物特征是主要的关注点。后者采用微调策略，使用的数据具有显着的服装变化。然而，当其应用于没有服装变化的情况时，性能受到损害。这项工作认为，这些方法实际上不知道布料状态（即，改变或不改变）。相反，他们盲目地认为行人的所有镜头都有不同的衣服。为了解决这个问题，通过服装状态感知网络（RCSANet）的正则化建议，通过嵌入服装状态感知的行人的正规化描述因此，可以增强描述以保持最佳ID区分特征，同时提高其对真实世界LT-reID的鲁棒性，其中存在衣服变化情况和不存在衣服变化情况。实验结果表明，RCSANet在三个LT-reID数据集上表现良好。1. 介绍人的再识别（re-ID）是在视觉痕迹中确认人的根据捕获片段时的时间间隔的规模，人员重新识别有两种不同的情况：1）短期re-ID（ST-reID）和2）长期re-ID（LT-reID）。第一种方案通常解决几分钟的时间间隔。在这种情况下，我们可以有把握地假设一个人不改变衣服。研究界首先研究了这种情况，并产生了许多具有令人鼓舞的性能的最先进的作品[15，41，39，45，12，10，11]。近年来，更多的研究集中在LT-reID。在LT-reID，两个片段之间的时间间隔可以是几天甚至更长。因此，除了非人为因素的显著挑战（即图像分辨率、照明等。），这可以在ST-reID中观察到，存在由人为因素引起的重大挑战（即、布料和敷料附件）。服装变化特别是在LT-reID中非常常见，尽管在某些情况下可能不一定会改变。当用于ST-reID的方法被直接应用于LT-reID时，这样的改变显著地限制了用于ST-reID的方法的性能。为了应对LT-reID中所示的挑战，报告了各种方法，尽管它们仍处于初步水平。这些方法可以分为两种类型：1）基于生物特征的方法和2）基于数据自适应的方法。基于生物识别的方法努力避免在LT-reID中被认为不稳定的服装相关信息。这些方法[36，32，37，26，21，34，17]中的一种类型探索LT-reID的生物特征，例如运动、身体轮廓/形状和面部。理论上，生物特征应该是稳健的。然而，它严重依赖于高质量的片段。例如，为了获得人的运动特征，它需要成功地从杂乱的背景中提取人体，并在整个视频时段中跟踪人体。由于图像分割、跟踪和身体部位遮挡的限制，无法保证镜头中运动特征的可靠性[36]。另一种类型的基于生物测定的方法使用RGB-D相机引入附加的深度信息深度信息确实提供了另一个有用信息源（例如，、3D生物计量信息）。然而，它给相机设置带来了此外，由于其有限的感测距离，其离实际应用还很远。代替使用生物特征信息，数据自适应方法尝试通过提升在ST-reID数据集上预训练的模型的性能来使用微调机制[9，13]（例如，，Market-1501 [39]），然后用不同的换衣服案例训练LT-reID数据。通过11896通过精心设计的网络体系结构和损失函数，模型能够在一定程度上容忍服装变化。这种方法也有一定的局限性。它期望通过使用服装变化数据来调整预训练模型的参数。然而，它并不明确地考虑实际的服装状态（即，改变或不改变）。也就是说，该方法总是倾向于从一定量的服装变化数据中学习服装不相关的ID因此，数据自适应方法中的核心问题是，它只是将输入镜头馈送到复杂的模型中然而，由于缺乏服装状态意识，方法在处理无服装更换情况时可能导致次优性能。LT-reID方法的本质应该正确地感知每个人的服装状态当LT-reID中也存在无衣服变化情况时，这些规则化的ID特征应该能够处理基于上述讨论，本文提出了a通过衣着状况意识网络进行正规化。RCSANet将ID区分特征学习和服装状态感知学习解耦为网络早期的两个独立过程。在RCSANet的后半部分中，ID特征可以通过所提出的特征正则化模块（FRM）来正则化，以便鼓励它们在个人穿着相同衣服时更加一致这种正则化过程是通过将服装状态感知能力嵌入到FRM中来实现的。以这种方式，RCSANet不会牺牲在无衣服变化情况下的性能，同时仍然保持其在衣服变化情况下的性能值得注意的是，所提出的RCSANet在整个训练过程中仅需要ID标签。它不需要额外的衣服类型注释。本文的贡献可以概括为三个方面：1）与现有的基于生物特征的方法和基于数据自适应的方法不同，本文提出了一种新的服装状态感知LT-reID解决方案。2)建议的RCSANet明确建立了一个服装状态感知学习过程，这是用来提高ID功能的鲁棒性，处理服装变化的情况下，没有服装变化的情况下，在LT-reID。3)进行了大量的实验，以证明我们的RCSANet的有效性，在三个LT-reID基准，其中服装变化的情况下，没有服装变化的情况下存在。2. 相关作品2.1. 基于生物特征的方法已经研究了LT-reID的生物特征，包括运动[36]，身体轮廓/形状[32，21，17]和面[34，26]。 1）运动。 Zhang等人 [36]提取运动功能来关联LT-reID的不同人员。然而，为了提取鲁棒的运动特征，通常需要完整的运动周期，使得难以应用于基于图像的LT-reID场景。2）身体轮廓/形状。Yang等人[32]使用身体轮廓进行LT-reID。为了实现这一点，一个人只能以类似的厚度适度地改变她/他的衣服，这局限于有限的LT-reID应用场景。Qian等人。[21]采用姿势检测器来定位身体关节，其用于基于关节之间的空间关系来学习身体形状特征。然而，身体形状对相机的拍摄角度敏感，这在现实世界中可能无效。3）脸。 Wan et al. [26]和Yu et al. [34]学习LT-reID的面部特征。面部仅占据身体区域的一小部分，并且当图像质量或相机视图（例如，图像质量或相机视图）不稳定时，面部并不总是可用的。，后视图）很差。由深度相机提供的RGB-D图像（例如，、Kinect）在现有LT-reID工作中用于生物特征提取。Barbosa等人 [1]提出使用Kinect提供的RGB-D图像提取LT-reID的3D软生物特征。Munaro等人 [19]将人的点云转换为标准姿势。变换后的点云用于组成LT-reID的3D模型，以消除服装变化引起的影响。Haque等人 [6]利用原始深度视频数据作为训练输入，并提出了一种循环注意力模型，该模型通过关注小的、有区别的身体区域来重新识别人，以解决服装变化。然而，由于相机设置的复杂性和传感距离的限制，深度传感器难以广泛部署用于现实世界的2.2. 基于数据自适应的方法Huang等人 [9]介绍了一种两步微调框架来探索LT-reID的ID鉴别特征。该模型在ST-reID数据集上进行预训练，然后在具有不同服装变化情况的LT-reID数据集Huang等人。 [13]提出了一种ReIDCaps网络，通过采用胶囊层来学习 ID 区分特征 [23] 。与 [9] 类似，ReIDCaps的主干也在ST-reID数据集上进行了预训练。这两种方法或多或少地尝试将从ST-reID数据集学习的特征归一化，以通过微调机制减轻由服装变化引起的影响。然而，这些方法实际上没有明确地学习LT-reID中的服装状态感知。现有LT-reID数据集（例如、CelebreID [13]和PRCC [32]）确实具有一定量的情况，其中在训练集和测试集中都没有服装变化。然而，他们只是被视为干扰dur-ing模型训练，因为损失项和网络架构是故意设计的服装变化的情况下。为了解决这样的问题，我们的RCSANet引入服装状态感知学习，以通过LT-reID的正则化策略来增强所学习的ID区分特征11897nn述盖ncit阿尔法阿尔法IDn起来n起来n低n低nnnΣ.Σ|我所知道的最好的事情，就是在[13]中。，fa（Ik）=GAP（Ik[：，H/2：，：]），fm（Ik）=GMP（Ik[：，：]）上n n低n n通过使用向量胶囊神经元学习服装状态意识的初步尝试[23]。该方法隐含地假设分类层中的向量神经元（具有24-dim）的方向然而，胶囊神经元的原始定义持有这样的观点，即胶囊的取向是为了表示不同类型的属性（例如，、姿态、变形、纹理等。）[23]。在不使用任何显式约束的情况下，隐式假设（即，自动感测服装状态），因为服装状态仅属于属性之一，所以难以满足 ReIDCaps [13] 。与 [13] 不同，我们的RCSANet明确地建立了服装状态意识学习，而不使用复杂的胶囊神经元。3. 方法如示于图在图1中，RCSANet涉及类间执行（ICE）流和类内外观正则化（ICR）流。作为次要贡献，ICE流是通过最大化类间差异以学习ID区分特征的LT-reID的良好设计的基线模型。作为主要贡献，ICR流用于通过针对每个个体的衣物状态感知来规则化由ICE学习的特征，以鼓励ID特征可以用于现实世界LT-reID中的衣物变化和无衣物情况两者。3.1. 冰流如示于图1，在训练期间，给定小批量中的N个ID和每个ID的K个图像，ICE流学习每个图像的ID区别特征。我们的ICE流基于经典的ID判别嵌入（IDE）[40]网络。也就是说，CNN主干之后是识别损失（），以分离类间嵌入。叮。在IDE的顶部，我们引入了一个混合池模块H/2，：]））。我们的MPM的过程是非参数的。使用MPM的基本原理在LT-reID中，监视区域通常覆盖大规模[13]。在MPM中采用的GMP能够提取有用的身体区域上的极端特征，但也可以提取一些独特但无用的背景信息（例如：，在相当多的区域中出现黄色的bin相比之下，在MPM中采用的GAP学习更平滑的特征。然而，它考虑了所有信息（身体区域+背景）并且导致平均值，该平均值可能是微不足道的并且不适合于人重新ID匹配。它们的组合在我们的实验中证明了更好的性能（参见第2节）。4.6）。识别丢失。为了分离类间嵌入，使用分类器（从FC1到FC2，参见图1）。1）在ICE中使用，之后是Lid：L id=EΣ−log p（n|I k）Σ（2）其中p（n Ik））是Ik属于IDn的预测概率。服装不敏感的三胞胎丢失。采用Lcit减少了因班内服装变化带来的影响也就是说，为了最小化同一个人的特征之间的差距，甚至服装也发生了巨大变化同时，即使服装相似，Lcit也最大化了不同人的特征之间的差距。令Iα、Iρ、Iη是训练小批内的挖掘的硬三元组。也就是说，Iα和Iρ（Iη）是属于相同（不同）的图像。最远的距离（最近的距离）。这里，为了方便起见，Iα表示Ik。我们使用加权正则化三元组（WRT）[28，33]损失来完成这项任务，因为WRT不需要额外的超参数来控制正负对的边缘：L=log。1 +ewρ·dαρ−wη·dαηΣ，wρ=edαρ，wη=edαη(MPM)学习极端和平滑ID功能阿尔法ρ1，ρ2∈Pedρ1ρ2αΣη1，η2∈Nedη1η2骨干网的输出。此外，一件衣服不敏感引入三重损失（Lcit）以减少由类内服装变化引起的影响。MPM 如图1，图像Ik（第k个图像是第n个ID）被馈送到ICE的主干中以获得将被馈送到MPM中的输出特征图。在MPM中，我们首先将特征映射水平地均等地划分为两个部分（即，上半身和下半身），因为上半身和下半身的衣服通常不一致。然后，在每个部分上进行全局最大池化（GMP）和全局平均ID特征通过如下的级联操作来实现：f（Ik）=Σfa（Ik），fm（Ik），fa（Ik），fm（Ik）ΣT，（1）其中d表示欧几里得距离，P和N是相关距离。在小批量中分别响应Iα3.2. ICR流由于现有的LT-reID方法在不考虑服装状态的情况下处理输入图像ICR接收图像以提取它们的外观特征（即，f_ap），其用于规则化从ICE学习的f_id。如示于图1，在ICR中，MPM的输出之前的层与ICE完全相同。不同之处在于，为了提取fap，ICR中使用的CNN主干使用ST-reID数据集进行预训练通过预训练，可以将因为服装是最重要的因素，所以要学会穿其中a是GAP的缩写，m是GMP的缩写，以区分ST-reID中的人。此外还有（三）11898nnnnnn∈ −ncos=argmax d fap（In），fap（In）k′∈[1，K]cosnAPnAPnnΣ∈APnID1：ID2：ID3：...ID：图1. RCSANet概述。MPM、FRM和DAM以灰色标记。损失函数用黄色标记。FC和BN分别是全连接层和批量归一化层的缩写。在ICR中，三角形表示图像的fap。是ICR中涉及的两个模块通过搜索外观特征来计算特征正则化fdis（IkAP n模块（FRM）（参见第3.2.1）被提出来正则化FID以在人穿着相同衣服时更一致域自适应模块（DAM）（参见3.2.2）其在属于相同IDn的K个图像中离fap（Ik）最远：fdis（Ik）=f（Ik*），减少了在ST-reID数据和LT-reID数据上预训练的参数之间的域间隙。AP n∗美联社k′ΣΣ（五）3.2.1FRM在训练期间，提出FRM以正则化fid（Ik）（参见等式（1））。1）通过嵌入服装状态意识。为此，ICR在每次迭代时在小批量中提取属于IDn的K个输入图像的fap然后，采用无监督聚类方法对K_f_ap进行分离其中d（，）用于度量特征相似性（采用欧几里得距离）。给定第k个图像，k*是当fap（Ik）（第k个图像的特征）和f（Ik′）（第k′个图像的特征，其中k′[1，K]可以是K个图像中的任何一个）是最大的最后，用fsim（Ik）和fdis（Ik）正则化ap n分成N个C簇（例如，、C1、C2和C3，当NC=3时，参见图①的人。聚类结果用于感测人的服装例如，样品属于同一簇的被视为相似的布-通过最小化以下余弦损失（Lcos）来计算f_id（Ik）Lsim= 1−cosΣfid（Ik），fsim（Ik）Σ，ing（无变化）。相反，属于不同的样本-L dis=maxΣ0，cos.fid（Ik），fdis（Ik）Σ−ξΣ，（六）ENT群集被视为服装变化。两件相似的衣服可能会由于有限cosLcos=Lsim+Ldis，n ap n无监督聚类的能力然而，这样的一个AP-coscos只要两件衣服不必要地完全相同，Proach仍然可以感测衣服状态。为了规范其中ξ[1，1]是裕度参数。给定fid（Ik）通过ICE学习，Lcos用于正则化fid（Ik）。在k simKdisK在该过程中，L_sim将f_id（I_k）拉近f_sim（I_k），而f id（In），我们动态地计算fap （In）和fap（In）cosn ap nk_L_dis强制f_id（I_k）远离f_dis（I_k）。所示在每个训练迭代中，根据聚类-cosn ap nSIMdis图2，样品（例如，，f_id（I6））被拉向其集群结果。自由联合党（fap）用于最小化（最大化）nF之间相似性和它的相似之处，质心（即，fsim（I6）），以鼓励IDnAP ncosing，分别计算如下：f_id（In）保留在具有相同/相似布料的簇中-SIMK国王。相反，fid（I6）被推离fap（In）是聚类质心，其中fap（In）属于n3到. 例如，如果fap（Ik）属于集群Ci：fsim（Ik）=Σfap（Ik′）∈Ci，ICR流自由联合党CxHxW=2048x10x10C13C21六个2DAMLap输入（小批量）CNN骨干2预先培训MPM5无反向传播1 2 3 45K=6特征图C3四个班级内服装状态意识FRMLcosST-reID数据集输入尺寸：336x336…冰流MPM…......……...…CxHxW=2048x5x10间隙Fa起来FIDCxHxW=2048x10x10GMP分为两个垂直切片GAPGMPCxHxW=2048x5x10fm起来FC1 FC2BN+ReLU+脱落Concat述盖CNN骨架1flaowFC3特征图fm低Lcit用于测试阶段K、.11899∈（4）最不相似的衣服（即，，fap（In））。通过最小化这两种损失，网络可以知道对象的服装变化。图2直观地示出了正则化亲-其中k′[1，K]，对于属于该ID的K个图像如果簇Ci只包含fap（Ik），fsim（Ik）=fap（Ik）.cess的工作原理以及为什么它对LT-reID有用存在更换衣服和不更换衣服的情况。作为n ap n n11900Knn∈×个Ci=1Cin（al）fidw/o正则化（a2）通过FRM的fid在ICR中添加一个DAM模块，以减少此域差距。在DAM中只有一层完全连接的神经元。NC是属于第n个ID的K个图像的聚类数。在全连接层之后采用类内外观分类损失（Lap根据聚类结果对fap进行WT ·fap（Ik）eLap= −logΣNCJWT·fn、（7）（一）其中Cj 是图像I k. W∈Rdf×NC(b)正则化过程：以一个样本为例图2.FRM的示意图概述（al）和（a2）示出了IDl的fid虚线表示不同ID之间的边界。（b）示出了FRM如何利用属于ID1的fap来正则化fid（16）数字1-6表示特征点在（a1）、（a2）和（b）之间的对应关系示于图图2（al）中，在没有正则化的情况下，一些样本可能位于两个不同的ID之间，因为它们几乎不可区分。这是因为对于人re-ID重要的服装信息在LT-reID中不再可靠。当在某些约束下学习fid时，这些信息很容易被淹没（例如，，L citin ICE）和不同的更衣数据。此外，在图从图2（a1）可以看出，无论服装是否改变，特征都在空间中扩散。当相同服装的两个图像被馈送到LT-reID模型中时，它不能保证相同的描述因此，在我们的FRM中，服装信息（即，f_ap）被重新拾取并用于通过嵌入每个个体的服装状态意识来正则化f_id（参见图1B）。第2段（b）分段）。对于属于同一个人ID的图像，通过使用无监督聚类策略来获得服装状态感知在正则化之后，不可区分的样本可以在训练期间逐渐“拖回”它们的附属ID（参见图2）2（a2））。这样的正则化过程在一个人穿着相同的衣服时强制fid最后，通过结合ICE和ICR，fid可以最好地区分人ID时，变化的情况下（主要由ICE贡献）和无变化的情况下（主要由ICR贡献）存在。3.2.2大坝ICR预培训后（参见第3.2），当ICR和ICE一起训练时，ICR中的所有参数都被冻结。也就是说，ICR中的参数不通过最小化Lcos来更新（参见图1B）。①的人。因此，对于每个图像，其f_ap在整个训练阶段期间不改变然而，由于预训练数据与LT-reID数据之间的域间隙，从LT-reID数据提取的fap可能不够稳健。受基于特征的权重初始化[38]的启发，我们表示DAM中全连接层的参数WCRNC是W 的第 C列。df是fap的特征尺寸。在[38]之后，我们使用每个聚类的均值特征来初始化W，以确保网络训练的收敛性。在没有DAM的情况下，仅从ST-reID数据学习提取用于LT-reID图像的fap的能力。使用fap，如果域间隙大（可能由背景或照明的大变化引起），则聚类结果可能受到损害。DAM通过在训练期间使用聚类结果来实施ICR流以从LT-reID图像区分不同类型的服装通过这样做，可以更新ICR流的参数。因此，可以增强聚类结果。3.3. 优化在训练中，ICE和ICR流被联合优化。总目标可以用公式表示为以下损失的加权和：Ltotal=Lid+Lcit+λcos·Lcos+Lap，（8）其中λcos是控制Lcos重要性的权重。由于Lcos用于特征正则化，因此我们设置小的权重λcos=0.1以确保fid的学习是稳定的。直到0.5Niter训练迭代才涉及L_ap，其中Niter是迭代的总数。也就是说，在训练完成一半之前，ICR中的骨干的所有参数被冻结（即，，DAM不涉及）。4. 实验4.1. 实现细节网络详细信息。我们使用Py-torch [20]实现我们的方法。遵循之前的LT-reID方法[13]，ImageNet训练的[22]DenseNet-121 [8]被用作ICE和ICR中的骨干（没有参数共享）。如[9，13]所示，我们的ICR的主干在ST-reID数据集Market-1501 [39]上进行了预训练，以学习提取外观/服装特征的能力（即，f_ap）。我们分别在FC1、FC2和FC3层中设置神经元的数量（参见图1）。1）到512、N_id和2048，其中N_id是训练ID的数量非参数ID3 ID2ID3ID11个3426ID2ID11个2个5三六五、3C1C2第十六章推拉62C3传奇ID1的fapfidw/oregularari.在正规化之后54fsimof6AP3f显示月6日APeAP11901DBSCAN [5]算法用于ICR中的聚类任务，因为它不需要指定聚类的数量。我们在DBSCAN中将每个聚类的最小样本数设置为1。培训详情。 SGD用于动量0.9和重量衰减5e-4的训练。在ICE中，我们最初将FC 1和FC2的学习率设置为1 e-2，将骨干和FC 3的学习率设置为1 e-3。一开始，ICR中的所有参数都被冻结，直到训练完成一半（参见第3.2.2）。当ICR开始更新时，我们将back-bone和DAM的学习率对于每个训练小批量，我们设置N=12，K=6。训练在72个时期后完成。所有输入图像的大小调整为336×336，并随机水平翻转。4.2. 评价数据集三个LT-reID数据集已经发布并可用于评估，包括Celeb-reID [13]， Celeb-reID- light [9]和 PRCC [32]：Celeb-reID[13]使用从互联网获取的名人的街头共有34，186张图片，1，052个ID。一个人换衣服的概率平均为70%。也就是说，在Celeb-reID的训练集和测试集中，衣服变化情况（ 70%）和没有衣服变化情况（30%）共存。Celeb-reID-light[9]是Celeb-reID的精简版本。不同之处在于，Celeb-reID-light的训练集和测试集都仅包含服装更换案例（即，每个人不会穿相同的衣服两次），使其成为纯衣服变化LT-reID数据集。PRCC[32]在三个摄像机视图下采集。该数据集是专门为身体轮廓特征提取而构建的，以通过迫使人穿着相似厚度的衣服来克服衣服的对于每个人，由摄像机A和B（C）获取的图像没有（有）服装变化。下文[32]分别对PRCC进行了换衣评价和不换衣评价。4.3. 推理与评价标准在测试中，不涉及ICR流，因为从ICR提取的f_ap被视为辅助函数，以提高从ICE提取的f_id因此，仅fid（参考等式1)从ICE中提取的人物描述被用作用于推理的最终人物描述。遵循现有的LT-reID工作[13，32]，报告了rank-n准确度和平均平均精度（mAP）。4.4. 关于Celeb-reID和Celeb-reID-light我们比较了我们的RCSANet与七个ST-reID方法和两个LT-reID方法上的Celeb-reID和Celeb-reID- light。结果见表1。1.到目前为止，只有[9，13]是报告两个数据集上性能的LT-reID方法。ReIDCapsfg [13]意味着使用细粒度的身体部位来训练和测试模型（参见[13]）。除了D-表 1. 与 SOTA 方法对 Celeb-reID 和 Celeb-reID-light 的比较（%）。‘R-1’ is short for rank-1方法Celeb-reIDmAP R-1Celeb-reID-lightmAP R-1ST-reID设计方法双流[44]7.836.3--MLFN [3]6.041.46.310.6HACNN [16]9.547.611.516.2部分对齐[24]6.419.4--PCB [25]8.237.1--MGN [27]10.849.013.921.5DG-Net [43]10.650.112.623.5为LT-reID设计的方法2SF-B部分[9]--14.026.8ReIDCaps [13]9.851.211.220.3[13]第十三话15.863.019.033.5RCSANet（我们的）11.955.616.729.5RCSANetfg（我们的）17.565.324.446.6表2.PRCC（%）与SOTA方法的比较如[32]中所示方法不-C-CmAP R-1C-CmAP R-1ST-reID设计方法LOMO+XQDA [18]-29.4-14.5脸[29]-4.8-3.0形状上下文[2]23.911.5LNSCT [31]35.515.3PCB [25]-86.9-22.9PCB（草图）[25]-57.4-22.5HACNN [16]-82.5-21.8[16]第十六话-58.6-20.5SketchNet [35]-64.6-17.9为LT-reID设计的方法ASENet [32]+STN [14]-59.2-27.5ASENet [32]+SPT [32]-64.2-34.4RCSANet（我们的）96.699.631.531.6RCSANetfg（我们的）97.2100.048.650.2直接使用整个图像（例如，RCSANet），我们还报告了基于细粒度身体部位学习策略（即，、RCSANetfg）。我们的方法优于所有其他方法。例如，我们的性能超过最好的ST-reID方法DG-Net的15.2%和23.1%，在两个数据集上的秩-1精度，分别。Celeb-reID- light上的更多性能改进表明，所提出的方法可以更好地应用于绝对换衣服任务。当与采用相同主链（即，相同的分子量）的现有技术（SOTA）LT-reID方法相比时，，ReIDCaps [13]，DenseNet-121骨干在Market-1501上预训练），我们的方法在两个数据集上仍然实现了显着的性能提升。注意，用于提取f_id以进行推断的ICE流甚至没有使用任何预训练。11902额外的re-ID数据集。仅ICR使用Market- 1501进行预测试，但不参与测试（参见第4.1）。这种比较表明，我们的方法是最好的解决服装变化的情况下（即。，Celeb-reID-light），同时对于其中更换衣服情况和不更换衣服情况两者共存的场景（例如，Celeb-reID-light）也是鲁棒的。，Celeb-reID）。4.5. PRCC结果我们比较我们的RCSANet与七个ST-reID方法和一个LT-reID方法在PRCC上。结果显示在选项卡中。2.ASENet [32]是专门为PRCC数据集设计的，它直接使用身体轮廓作为输入。据观察，我们的RCSANet实现了最好的性能，曼斯在服装变化的评价和无服装变化的评价。与ASENet相比，我们的RCSANet提高了rank-1的准确性，在不换衣服的评估超过30%。此外，我们的RCSANetfg在无服装变化评估中的等级-1准确度方面达到100%，这在该比较中显著优于所有ST-reID方法。在这些ST-reID方法中，如[32]所述，PCB（2018年提出）在PRCC的无服装变化评估中实现了最佳性能（例如，秩-1：86.9%）。一些最近发表的ST-reID方法可能会实现竞争的性能，在这个无服装变化的评价相比，我们的RCSANet。然而，由于它们不是为LT-reID任务设计的，因此我们的实验仅报告了[32]中提到的七种ST-reID方法的性能。在服装变化评估中，当采用细粒度身体部位学习策略时，我们的方法也大大优于所有其他方法。可以观察到，在不使用身体部位的情况下，我们的方法的性能低于ASENet（即，，秩-1：31.6%vs. 34.4%）。这是因为PRCC数据集是专门为身体轮廓特征提取而构建的，通过强制每个人穿着相似厚度的衣服[32]。因此，以人体轮廓作为输入的ASENet更适合PRCC数据集的特点。当进行无服装变化评估时，与包含更有用的外观信息的RGB图像相比，身体轮廓不再具有竞争力，从而导致较低的性能（例如，，秩-1：64.2%）。4.6. 定量评价我们的RCSANet的消融研究见表1。3.由于RCSANet的主要贡献是处理更衣病例和非更衣病例，因此消融研究主要在Celeb-reID数据集上进行。这是因为作为典型的LT-reID数据集Celeb-表3.拟定方法的消融研究（%）。Celeb-reID用于该实验。‘w/o’ is short for方法地图R-11）评估L_id和L_cit：仅训练ICE（使用MPM）w/o。述盖7.841.4w/o。Lcit9.649.9Lid+Lcit10.352.02）在ICE中评估MPM：仅训练ICE（Lid+Lcit）w/o。分区，仅9.450.2w/o。部门，仅9.249.9w/o。部门，GAP+GMP（类似于[42]）9.650.62个水平切片，GAP+GMP9.250.82个垂直切片，仅9.851.42个垂直切片，仅GMP（LMP [4]）9.651.04个垂直切片，GAP+GMP9.951.62个垂直切片，GAP+GMP（我们的MPM）10.352.03）评估ICR中的模块：使用ICR训练完整的ICEw/o。DAM和Lsim+Ldis科斯科斯10.352.0w/o。DAM和Lsimcos10.853.0w/o。DAM和Ldiscos10.552.5w/o。仅DAM11.754.8ICE + ICR决赛（我们的）11.955.64)评估特征以进行推断：带ICR的全ICE列车仅使用从ICR中提取的文件2.13.3fap+f id3.316.4仅使用从ICE提取的fid（我们的）11.955.65)ResNet-50与DenseNet-121：带ICR的全ICE列车主干：ResNet-5011.054.9主干：DenseNet-121（Ours）11.955.6灯光数据集不包含每个人的无服装变化案例。因此，Celeb-reID最适合消融研究。消融研究分为五个部分：2）通过使用池化层和切片的不同组合来评估ICE中的MPM; 3）当ICR和ICE一起训练时评估ICR中的模块。4）评估用于推断的特征。5）不同主链的使用（即，ResNet-50 [7]vs. DenseNet-121 [8]）。4.6.1观察到在没有Lid或Lcit的情况下，性能在秩-1准确性上从52.0%下降到41.4%或49.9%，这表明Lid和Lcit的组合可以增强fid在ICE中的辨别能力4.6.2在没有切片划分的情况下，性能总是低于MPM，而不管所使用的池化层的类型（例如，，52%对 50.6%，就等级-1准确度而言）。其他类型的组合在比较中也不能胜过MPM。两个具有GMP的垂直切片（即，LMP）已经在[4]中用于经典的跨域每个重新ID任务。然而，它仍然比我们的MPM在rank-1准确度方面低1%（即，52.0% vs. 51.0%）。reID包含在非受控环境下收集的两个病例4.6.3由Lsim和Ldis组成的FRM是科斯科斯没有对人的特殊限制（例如：是ICE和ICR之间的桥梁。没有Lsim和Ldis，ICE科斯科斯儿子不需要穿与PRCC [32]中相似厚度的衣服）。与Celeb-reID相比，Celeb-reID-和ICR分别训练。因此，性能与仅训练ICE相同（即，，mAP：10.3%，等级-11903转∈ −表4.通过改变训练数据进行性能评估（%）。'Cel'是'Celeb-reID'的缩写。‘X Y’ means training is con- ducted on X andtesting is conducted on方法Cel→ CelmAP R-1Cel-light→ CelmAP R-1SOTA（ReIDCaps[13]）9.851.26.541.8RCSANet（我们的）11.955.611.150.4(a) 变化ξ。（b）改变λcos。图3. ξ和λcos的超参数分析1：52.0%）。此外，当去除Lsim或Ldis时，性能从55.6%下降到53.0%或52.5%这1，因为针对λcos的大权重可能导致过度正则化。当我们将λcos从0.1改变到0.01时，性能也略微下降约0.4%。小的λcos可以减小其对ID特征正则化的影响。训练数据中对无更衣案例数量的敏感性直观地说，如果模型能够科斯科斯结果表明，两个损耗应联合优化，以实现最佳性能。为了减少域间隙，我们在ICR中引入DAM。不使用DAM（即，ICR中的主干的参数被冻结），在秩-1准确度上性能可能下降约1%。4.6.4如Tab中所示。3，当我们改变为使用fap进行推理时，观察到性能急剧下降。这是因为f_ap用于在RCSANet训练期间正则化f_id，以鼓励f_id可以处理衣服更换和没有衣服更换的情况。由于ICR中没有提供监管信息，因此fap无法区分不同的ID3.2以取得详细数据）。当f_ap和f_id的排名列表被直接组合（即，，Tab中的fap+fid。3），性能也低于只使用fid。4.6.5我们为建议的RC-SANet选择的主干是DenseNet-121（见第2节）。4.1)其已经证明了其在现有 LT-reID 工作中的有效性（即，， ReI-DCaps[13]）。ResNet-50 [7]也广泛用于传统的ST-reID场景。因此，我们用ResNet-50代替DenseNet- 121，以证明使用不同主链所造成可以看出，当采用ResNet- 50时，性能略低于DenseNet-121（例如，，mAP：11.0%对 11.9%）。对于主干的选择，其他替代方案可以实现更好的性能。这项工作只是提供了DenseNet-121和ResNet-50之间的简要比较。超参数分析如图所示。3.在我们的RCSANet中有两个超参数，包括等式中的ξ[ 1，1]。6和等式中的λcos8.1）通过改变ξ，结果如图所示。第3（a）段。当ICR和ICE之间采用Lcos时，ξ会影响ID特征的可以看出，当ξ<0.5或>0.5时，性能因此，我们在等式中选择ξ=0.5。6、达到最佳性能。2）λcos是控制ICR算法对ID特征正则化能力的重要参数改变λ cos的结果如图所示。3（b）款。性能可能会逐渐下降为了处理LT-reID中的无衣服变化情况，训练数据应该包含一定数量的个人不改变衣服的情况。然而，在LT-reID中很难保证这一点，因为一个人有很大的机会更换衣服。为了示出由训练数据引起的影响，该实验使用Celeb-reID-light（仅包含换衣服案例）进行训练，并且使用Celeb-reID（换衣服案例和不换衣服案例共存）进行测试。这两个数据集具有较小的域间隙，因为前者是后者的子集[13]。选项卡. 4显示结果。如果ReIDCaps使用Celeb-reID-light进行训练，则模型会遭受灾难性的性能下降（即，秩 -1 ：从 51.2% 到41.8%）。我们的方法的结果（即从55.6%到50.4%）比ReIDCaps好得多。该实验表明，为了处理LT-reID中的无服装变化情况，我们的方法并不严重依赖于训练数据中无服装变化情况的数量。这是因为我们的方法中的服装状态感知具有明确地学习服装信息的能力，即使服装总是在每个ID内改变5. 结论本文提出了通过在我们的RC- SANet中嵌入服装状态感知学习来处理LT-reID问题。在RCSANet训练期间，可以使用所提出的特征正则化过程（即，基于特征正则化的特征正则化过程）来进一步改进从RCSANet 学习的用

下载后可阅读完整内容，剩余1页未读，立即下载