COCAS:一个大规模换衣人员数据集及换衣re-id设置

150 浏览量更新于2023-10-24 收藏 14.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

34000COCAS：一个用于重新识别的大规模换衣人员数据集0Shijie Yu � 1,2 , Shihua Li � 3 , Dapeng Chen 1 , Rui Zhao 1 , Junjie Yan 1 , and Yu Qiao † 101中国科学院深圳先进技术研究院，计算机视觉与模式识别深圳市重点实验室，中科院-商汤联合实验室 2 中国科学院大学 3 中国科学院微电子研究所0摘要0近年来，人物重新识别（re-id）取得了巨大的进展。市场1501、CUHK03和DukeMTMC等几个学术基准在推动re-id研究方面起到了重要作用。据我们所知，所有现有的基准都假设同一个人会穿同样的衣服。然而，在现实世界的场景中，一个人经常会换衣服。为了解决换衣人员re-id问题，我们构建了一个名为COCAS的新型大规模re-id基准，该基准提供了同一身份的多个不同衣服的图像。COCAS总共包含来自5266人的62382张身体图像。基于COCAS，我们引入了一个新的换衣问题的人物re-id设置，其中查询包括一个衣服模板和一个穿着其他衣服的人物图像。此外，我们提出了一个名为生物特征-衣服网络（BC-Net）的双分支网络，可以在我们的设置下有效地整合生物特征和衣服特征进行re-id。实验证明，使用衣服模板进行换衣re-id是可行的。01. 引言0“2015年12月29日星期二，一名白人女嫌疑人走进Comerica银行，声称她携带炸弹并要求钱。女嫌疑人逃跑并带走了一笔未公开金额的现金。视频显示，嫌疑人在洗衣店后面跑了起来，换了衣服并向北逃向I-94服务道。”10� 同等贡献的第一作者（sj.yu@siat.ac.cn，lishihua@ime.ac.cn）†通讯作者（yu.qiao@siat.ac.cn）1http://www.wjr.com/2016/01/06/woman-wanted-in-southwest-detroit-bank-robbery0(a)换衣人员re-id的现实场景。0(b)我们的换衣re-id设置示例0图1.(a)展示了一个现实情况，一个穿着黑色外套的嫌疑人换上了白色外套。(b)展示了我们的换衣re-id设置，其中穿着白色和黑色条纹T恤的男子（由红色框标记的目标图像）被穿着白色T恤的男子（查询图像）和穿着白色和黑色条纹T恤的男子（衣服模板）识别出来。0人物重新识别（re-id）在具有广泛应用的视频监控系统中扮演着越来越重要的角色。以前的re-id协议[47, 46, 24, 22,23, 39, 4, 6, 12,2]假设同一个人穿着同样的衣服，然而，它们无法处理上述新闻中的换衣情况。如图1a所示，嫌疑人想要逃避被逮捕，因此她故意换了衣服。传统的re-id模型[3, 34, 2, 47, 16,33,42]往往会因为至少两个原因而失败。首先，这些模型是在穿着相同衣服的身份上进行训练的。模型统计上将衣服的外观视为一种有区别的特征。此外，像脸部和身体形状这样的生物特征太弱，无法学习，因为它们只占据了身体图像的一小部分。另一方面，学习与衣服无关的个人特征是困难的。34010图2. COCAS的统计信息0图3. COCAS数据集中的实例0表1. COCAS与公共re-id数据集的比较0数据集 VIPeR[14] ETHZ[32] CUHK01[23] CUHK03[24] Market 1501[47] Airport[18] DukeMTMC[51] COCAS0ID编号 632 148 971 1,467 1,501 9,651 1,812 5,2660边界框数量 1,264 8,580 3,884 14,096 32,668 39,902 36,411 62,3820身体图像手手手手 DPM ACF 手手0多衣服否否否否否否否是0行人重识别模型也很困难。如果我们只利用模糊的面部和身体形状信息，那么该模型几乎无法应用于大规模的人物图像集。相反，我们考虑一个更简单但实际的换装重识别问题，如图1b所示：通过一个衣服模板图像和同一个人穿着其他衣服的图像来搜索一个人物图像（目标图像）。与当前的重识别设置相比，这种设置利用了衣服模板，并且仍然具有广泛的实际应用范围。举两个例子，为了找到失踪的儿童/老人，家庭只需提供失踪儿童/老人的最近照片和穿着的衣服的图像。对于换装嫌疑人追踪，警察可以通过一个被捕图像和一个由目击者描述或嫌疑人留下的衣服模板来找到更多相关图像。为了解决这个问题，我们建立了一个名为COCAS（Cl O thes C h A nging Person Set）的大规模基准测试。该基准测试包含5,266人的62,832个身体图像，每个人有5到25个图像，每个图像有2到3件衣服。对于每个人，我们将一种类型的衣服图像移入画廊集合，这些图像是目标图像。我们还从互联网上找到了一种与这些目标图像中的衣服相似的衣服模板。所有剩余的图像都放入查询集合。事实上，收集这样一个大规模的与人相关的数据集并不容易。我们将在第3节中详细描述数据收集、人物和衣服的关联、隐私保护策略和协议定义。我们还提出了具有两个分支的生物特征-衣服网络（BC-Net）来解决换装重识别问题。一个分支提取人物的生物特征，如面部、身体形状和发型。另一个分支提取衣服特征，其输入对于查询图像和目标图像是不同的。0查询图像利用衣服模板来更好地匹配目标图像的分支，而目标图像则利用衣服检测模块从自身获取衣服图像补丁。总之，我们的贡献有三个方面：（1）我们定义了一种由人物图像和衣服模板组成的换装重识别问题。（2）我们建立了一个名为COCAS的新型大规模数据集，用于换装重识别。（3）我们提出了BC-Net，可以将与衣服相关和与衣服无关的信息分离开来，通过提供目标图像的衣服模板，使换装重识别问题变得可行。我们进行了有趣的消融研究，包括检查衣服外观如何影响重识别。BC-Net的性能表明，通过使用衣服模板，换装重识别是有前途的。02. 相关工作0重识别数据集。最近的大多数人物重识别研究都是基于数据驱动的方法[47, 16, 49, 33,42]，并且出现了许多人物重识别数据集。其中，VIPeR[14]是最早和最常见的数据集，包含632个身份和由2个摄像机拍摄的1,264个图像。ETHZ [32]和RAiD[10]分别包含148个身份的8,580个图像和43个身份的6,920个图像。这些数据集的一个不足之处是数据规模太小，无法完全支持深度神经网络的训练。随着深度神经网络的发展，包括CUHK03 [24]、Market1501 [47]和DukeMTMC[51]等在内的几个大规模数据集变得越来越受欢迎。由于上述数据集的性能提升逐渐饱和，新提出的数据集变得越来越大，包括34020图4. 关联同一人物图像的流程。(1) 包含无序身体图像的数据集。(2) 人物图像聚类。(3) 人脸检测和锚点图像选择。(4)通过面部特征进行K最近邻搜索。(5) 手动注释K最近邻中真正匹配的人物。红色框是注释结果的示例。(6)最终的数据集，每个人都有不同类型的服装。0机场[18]，MSMT17[39]和RPI�eld[48]。0Re-ID方法。早期的人物重识别工作集中在特征提取[38, 28,9, 11]或度量学习[19, 26, 5,29]上。最近的方法主要受益于CNN架构的进展，这些方法以端到端的方式学习这两个方面[7, 25, 20, 37, 42,40]。我们的工作可以被定位为一种深度神经网络。通常，重识别问题可以简单地通过使用身份损失来训练，将每个人视为一个特定的类别[41]。通过深度相似性学习，人物重识别是通过对比损失训练一个连体网络[35,36]，其中任务是减小同一人物图像之间的距离，增大不同人物图像之间的距离。一些方法使用三元组损失来强制执行图像三元组之间的相对距离的正确顺序，即正样本图像对相对于同一锚点图像而言比负样本图像对更相似[8,1]。我们的方法与以前的重识别方法不同，查询包括人物图像和服装模板。我们采用了两个分支网络来提取生物特征和服装特征，同时受到身份损失和三元组损失的监督。0重识别中的换装。换装是重识别中一个不可避免的话题，但由于缺乏大规模真实数据集，对此的研究仍然较少。关于换装重识别有几个相关的工作。Xue等人[43]基于People inPhoto Album(PIPA)数据集[45]对照片中的重识别进行了研究。[21]中的工作基于从RAP[21]构建的子数据集，其中235个身份已经更换了衣服。此外，生成对抗网络（GAN）也被应用于换装。Jetchev等人[17]引入了条件类比GAN来将人物的衣服更换为目标衣服。Zheng等人[50]提出将人物图像分解为外观和结构，然后重新组合它们以生成具有不同服装的新人物图像。03. COCAS基准0COCAS是一个具有不同服装的大规模人物重识别基准。它包含5,266个身份，每个身份平均有12张图像。这些图像是在各种真实场景（30个摄像头）中捕获的，包括不同的照明条件（室内和室外）和不同的遮挡条件。与现有的重识别基准的比较如表1所示，从COCAS数据集中获取的几个实例如图3所示。数据收集。COCAS是在几个商品交易市场收集的，我们得到了在室内和室外放置30个摄像头的许可。我们招募了不介意出现在数据集中的人（我们承诺对个人隐私进行面部区域模糊处理）。由于人流量很大，可以观察到足够数量的身份。由于一些人每天都来市场，数据是在4个不同的日子收集的，因此有很大的机会捕捉到他们穿着不同衣服的图像。我们通过人体解析模型LIP[13]从人物图像中裁剪出衣服补丁，并通过图像搜索引擎从互联网上搜索相应的衣服模板来获取衣服模板图像。人物关联。现在我们已经收集到了所需的数据，但如何将穿着不同衣服的同一人物的图像关联起来是一个非常棘手的问题。从如此庞大的图像数据库中逐个注释图像是很尴尬的。如图4所示，关联有4个主要步骤：人物聚类：我们基于重识别特征对相似的人物图像进行聚类，并手动删除聚类中不同人物的异常图像。人脸检测[44]：我们从每个聚类中选择一张图像作为锚点图像，并从锚点图像中检测出人脸图像。面部检索：我们通过FaceNet[31]提取面部特征，并搜索前k个最近的锚点图像。............34030每个锚定图像的图像。手动注释：我们可视化与锚定图像相对应的身体图像，并手动选择真正匹配的相邻图像。根据关联结果，我们的数据集安排如下。对于每个人，我们选择2或3种不同的服装，每种服装有2到5张图像。一种类型的服装的图像被移动到图库集作为目标图像，而其他类型的服装被移动到查询集作为查询图像。水平划分如图5所示。0隐私保护。我们对选定的身体图像的特定区域进行模糊处理，以保护个人信息，包括面部、时间和位置。具体而言，我们使用MTCNN [44]获取面部的边界框，还采用LIP[13]来分离背景和身体区域。然后，我们对面部和背景区域应用高斯滤波器进行模糊处理，我们将模糊版本称为去敏感化的COCAS。实验（第5.2节）表明，如果使用去敏感化的COCAS，性能会稍微下降，但我们认为去敏感化的COCAS仍然有价值。这是因为面部不可能总是清晰可见，而背景不应该成为现实中重新识别问题的一个判别因素。在本文中，大多数实验都是基于去敏感化的COCAS进行的。0变化。我们解释了COCAS的变化。它们的统计数据如图2所示。(1)室内/室外。我们将所有人物图像分为两组，根据它们被拍摄的地点，包括“室内”（23%）和“室外”（77%）。室内和室外表示不同的照明条件。(2)服装/人物。2264个身份（43%）有3种不同的服装，3002个身份（57%）有2种不同的服装。(3)遮挡。被遮挡的人物图像意味着图像被汽车、树木或其他人物等障碍物遮挡。我们还将人物区域在图像外部的情况视为一种遮挡。图像被分为四组，包括“严重遮挡”（6%）、“中度遮挡”（24%）、“轻微遮挡”（18%）和“无遮挡”（52%）。0协议。实验协议定义如下。使用2800个人的图像进行训练，剩下的2466个人的图像用于测试，如图5所示。在测试中，我们从2466个人中选择15985个图像作为查询图像，将其他12378个图像作为目标图像组成测试集的图库。我们使用查询图像和服装模板搜索目标图像。由于查询图像在图库集中有多个目标图像，而CMC（累积匹配特性）曲线只能反映最相似目标图像的检索精度。我们还采用可以反映所有目标图像的整体排序性能的mAP（平均精度均值）。0训练集（2800个ID）测试集（2466个ID）0查询集图库集0图5.COCAS数据集的划分。垂直划分是根据人物ID获取训练集和测试集。水平划分根据服装将COCAS划分为查询集和图库集。查询集包括查询图像和服装模板，而图库集包括目标图像。04. 方法论0根据我们的协议，我们需要从相似的服装模板和人物的另一张穿着不同服装的图像中的图库中搜索目标图像。直观上，查询图像中的生物特征和服装模板的外观有助于搜索目标图像。因此，我们提出了双分支生物特征-服装网络（BC-Net）：一个分支提取人物的生物特征，另一个分支提取服装特征。生物特征分支以人物图像作为输入，并使用掩模模块更好地利用与服装无关的信息。服装特征分支以服装图像（服装模板或检测到的服装补丁）作为输入，生成服装特征。最终的人物表示将生物特征和服装特征结合起来。04.1.网络结构0BC-Net有两个分支，分别用于提取生物特征和服装特征。BC-Net的整体架构如图6所示。生物特征（BF）分支。BF模块以人物图像I p 为输入，并使用ResNet50[15]作为骨干网络，产生特征图A p ∈ R H × W ×D，其中H，W是特征图的大小，D是特征维度。为了更好地利用来自人物更具体区域的与服装无关的特征，我们进一步设计了一个掩码模块，如图6所示。该模块旨在强调生物特征，同时抑制服装和背景的特征。为了获得掩码M p ∈ R H× W × 1，A p首先通过三个1×1卷积层将其减少到n通道特征图，然后通过softmax函数对每个特征图进行归一化，该函数将所有H×W的值作为输入向量。沿通道进行最大池化，将n通道特征图减少到1通道特征图，得到掩码。基于掩码𝑓"𝑓#𝑓ℒ &'ℒ()& + αℒ,-(./0,&(1)(2)(3)f Bk =1H × W[Apk ◦ Mp]i,j,(1)f = W[(f B)⊤, (f C)⊤]⊤ + b,(2)Lfid = − 1NN�n=1L�l=1yn,l log�ew⊤l fnLm=1 ew⊤mfn�,(3)34040人物图像0服装图像0查询图像目标图像0模板池0服装检测器0ResNet500ResNet500掩码模块平均池化0平均池化0生物特征分支0服装特征分支0分类器0融合0分类器0生物特征监督0组合特征监督0卷积单元Softmax0最大池化0逐元素乘积0掩码0服装检测器0人体解析器0预测框0gt框0损失0服装检测器的掩码模块训练0图6.（1）BC-Net的架构。它包含两个主要分支，包括生物特征分支和服装特征分支。在这两个流的末端，生物特征和服装特征被连接起来，然后通过一个全连接层传递，以获得256维的最终特征。请注意，基于更快的RCNN的服装检测器用于从目标图像中获取服装补丁。（2）掩码模块的详细信息。卷积层之后，特征图通过每个通道的softmax操作进行归一化，然后进行通道最大池化以获得掩码。最后，通过掩码和输入特征图之间的逐元素乘积选择生物特征。（3）服装检测器的训练过程。使用LIP，一个人体解析模型，来获取人物图像的服装边界框，而不是手动注释。0M p ，生物特征 f B ∈ R D通过平均池化滤波特征图获得：0H×0W×0其中 ◦ 表示逐元素乘积，A p k ◦ M p是滤波特征图的第k个通道图，f B k 是f B的第k个元素。服装特征（CF）分支。CF分支试图提取与服装相关的信息。由于我们的设置不提供目标图像的服装模板，并且我们希望使用相同的网络处理查询图像和目标图像，因此还额外使用了一个服装检测器用于目标图像。服装检测器基于更快的RCNN[30]，从目标图像中预测服装的边界框。无论是服装模板图像还是检测到的图像都被调整为相同的大小，并作为输入服装图像I c输入CF分支。CF分支还采用ResNet50作为骨干架构，并通过对特征图A c 进行平均池化来输出服装特征f C ∈ RD。生物特征f B 和相应的服装特征f C被连接起来，然后通过线性投影估计特征向量f ∈ R d：0其中 W ∈ R d × 2 D ， b ∈ R d。在训练和测试阶段，f 通过其 L 2 范数进行归一化。04.2. 损失函数0我们在训练样本上同时使用了身份损失和三元组损失。第 n个训练样本表示为 I n = { I p n , I c n }，其中包含一个人物图像和一个服装图像。对于查询人物图像，服装图像是描述目标图像中的服装的模板。而对于目标人物图像，服装图像是从其自身检测到的服装图像块。组合特征 f n可以被视为描述目标图像的特征，因此使用传统的身份损失来监督组合特征。设 D = {I n } N n =1表示训练样本，我们利用 ID 信息来监督组合特征：0其中 D 包含 N 个图像，属于 L 个人物。如果第 n个图像属于第 l 个人物，y n,l = 1 ，否则 y n,l = 0 。参数w l 关联着第 l个人物的特征嵌入。我们现在定义一个距离函数 d ( I i , I j )= ∥ f i − f j ∥ 2 2，并进一步使用三元组损失来优化样本间的关系。Lftriplet =1NtripletNtriplet�i=1[d(Iai , Ibi )+η−d(Iai , Ici )]+, (4)Lf = Lfid + αLftriplet.(5)34050关系。设第 i 个三元组为 T i = ( I a i , I b i , I c i ) ，其中I a i 是锚定样本。I b i 和 I a i 属于同一类别，而 I c i 和 I ai 属于不同的身份。三元组损失定义如下：0其中 N triplet是距离正样本对的距离至少比负样本对的距离大 η的数量。组合特征 f 上的总损失 L f 是 L f id 和 L f triplet的总和，定义如下：0为了更好地学习生物特征，我们还额外添加了一个身份损失，记为 L f B 。04.3. 网络训练0在 BC-Net中，服装检测器和特征提取器是分别训练的。服装检测器训练。服装检测器基于 Faster RCNN [ 30]。我们没有手动标注服装边界框，而是使用了 LIP [ 13]，一种有效的人体解析模型。对于训练集中的每个图像，我们利用 LIP生成服装掩码，然后计算左上角和右下角的两个坐标作为真实边界框。使用带有动量 0.9的随机梯度下降（SGD）进行训练，训练时长为 30个时期。使用 4 个 GPU 进行检测器训练，每个 GPU的批量大小为 12。特征提取器训练。我们使用 SGD来优化特征提取器，动量为 0.9。优化持续 100个时期，初始学习率为 0.00035，在经过 40个时期后进一步衰减为 0.00005。使用 4 个 GPU进行训练，每个 GPU 的批量大小为32，即每个人物图像和对应的服装图像为 32 个样本。这32 个样本大约包含 8 个人物，每个人物有 4个样本。对于三元组损失，我们将每个样本作为锚定样本，选择最远的正样本和最近的负样本组成一个三元组。05. 实验0在实验中，我们首先将当前最先进的方法应用于 COCAS以及其他人物重识别数据集，仅考虑身份信息。然后我们展示了我们的方法如何通过使用服装模板和其他后处理策略来提高 COCAS的性能。我们进行了广泛的消融研究，以评估我们方法中不同组件的有效性。0实施细节。输入的人物图像被调整为256×128，输入的衣物模板被调整为128×128。使用随机裁剪、翻转和擦除进行数据增强。方程4中的边界η设置为0.3，α的损失平衡权重设置为1.0。05.1. 总体结果0仅使用ID标签进行学习。首先，我们将COCAS视为仅具有ID标签的常见人员再识别数据集，即不使用衣物模板。为了突出数据集的差异，我们还加入了Market1501[47]和DukeMTMC[51]进行比较。所有数据集都遵循标准的训练和测试分区协议。在不使用额外衣物模板的情况下，我们的方法通过从原始图像中检测衣物图像块并将其输入到衣物特征分支中来平等地处理所有图像。图7显示了几种最先进方法（SOTA）和我们的结果。可以看出，我们的方法在现有数据集上可以与SOTA方法一样表现良好，而且所有方法在不使用衣物模板的情况下都获得了较差的结果。使用提供的衣物模板进行学习。特别地，查询图像采用提供的衣物分支模板，目标图像利用检测到的衣物图像块。训练后，我们得到了组合特征f，进一步通过其L2范数进行归一化。与仅使用ID标签训练的特征相比，组合特征显著改善了结果，即使相似性是通过欧几里得距离来衡量的。如图8所示，它分别实现了37.6％和39.9％的mAP和top-1增益。我们进一步研究了两种不同的相似性测量方案的有效性，即度量学习方法（XQDA）[27]和重新排序方法（RR）[52]。表2-2,3,4中的结果表明，XQDA和RR是有效且互补的。XQDA和RR将欧几里得特征距离提高了8％和10.4％的mAP，它们的组合实现了21.7％的mAP增益。05.2. 消融研究0在本节中，我们试图弄清楚衣物变化再识别中的关键信息是什么。我们还研究了可以显著影响准确性的各种因素，包括损失函数和衣物检测器。05.2.1 性能分析0生物特征与衣物特征。为了评估生物特征和衣物特征的有效性，我们构建了两个变体进行比较。一个只使用生物特征，并将衣物特征在融合之前设置为零。另一个以类似的方式使用衣物特征。如表2-9,10所示，只有Market1501DukeMTMCCOCAS020406080100Top-1 Accuracy(%)GSGLPCB+RPPMHNOurs (only ID)Market1501DukeMTMCCOCAS020406080100mAP Accuracy(%)GSGLPCB+RPPMHNOurs (only ID)Only IDEuclidEuclid+RRXQDAXQDA+RR020406080100mAP Accuracy(%)9.246.854.857.268.5Only IDEuclidEuclid+RRXQDAXQDA+RR020406080100Top-1 Accuracy(%)9.449.353.959.466.334060实验设置性能01. 使用BF+CF L f + L f B更快的RCNN去敏感化欧几里得距离 46.8 49.3 64.0 71.402. 使用BF+CF L f + L f B更快的RCNN去敏感化欧几里得距离+RR 54.8 53.9 60.7 69.0 3. 使用BF+CF L f + L fB更快的RCNN去敏感化XQDA 57.2 59.4 74.7 81.8 4. 使用BF+CF L f + L f B更快的RCNN去敏感化XQDA+RR 68.5 66.372.9 79.905. 使用BF+CF L f + L f B更快的RCNN原始欧几里得距离 52.8 55.3 69.5 76.1 6. 使用BF+CF L f + L fB更快的RCNN原始欧几里得距离+RR 63.7 62.3 68.0 76.2 7. 使用BF+CF L f + L f B更快的RCNN原始XQDA 65.1 67.080.0 85.7 8. 使用BF+CF L f + L f B更快的RCNN原始XQDA+RR 75.4 73.3 77.9 84.509. 使用BF L f + L f B更快的RCNN去敏感化欧几里得距离 12.2 12.4 20.2 25.2 10. 使用CF L f + L fB更快的RCNN去敏感化欧几里得距离 28.7 27.6 45.0 55.3011. 使用BF+CF L f更快的RCNN去敏感化欧几里得距离 32.7 33.7 50.6 60.3 12.使用BF+CF无三元组损失更快的RCNN去敏感化欧几里得距离 42.8 44.8 59.2 66.5013. 无BF+CF Lf+LfB更快的RCNN去敏感化欧氏距离 43.6 45.8 60.6 67.9014. 有BF+CF Lf+LfB无去敏感化欧氏距离 39.5 41.0 55.7 63.40表2.在COCAS数据集上评估我们的方法。我们研究了面具、不同特征、损失函数、服装检测器、去敏感化和不同相似度度量的影响。报告了top-1、5、10的准确率和mAP(%)。BF和CF分别表示生物特征和服装特征。组合特征用BF+CF表示。0图7.使用SOTA方法和我们的方法训练不同数据集。(1)和(2)分别显示了不同方法在mAP和top-1准确率方面的结果。涉及的SOTA方法有GSGL[3]，PCB+RPP[34]和MHN[2]。0图8.使用提供的服装模板进行训练。上图显示了仅使用ID和使用提供的服装模板之间的显著差距。我们还展示了XQDA[27]和重新排序[52]的有效性。0仅使用生物特征或服装特征会导致较差的结果，其mAP分别下降了34.6%和18.1%。值得注意的是，服装特征的结果优于生物特征，这表明服装外观更重要。此外，生物特征对服装特征是不可或缺的，并且互补的，当将两个特征组合在一起时，最终性能显著提升。图9展示了三个特征生成的几个检索结果。可以看出，生物特征与服装外观是独立的，而组合特征实际上可以实现更好的性能。0面具模块。为了更好地获取生物特征，生物特征分支中采用了面具模块。定量地说，面具模块将mAP从43.6%提高到46.8%，将top-1从45.8%提高到49.3%。0表2-1,13。我们还在图10中可视化了原始图像上的面具，这表明面具主要集中在面部和关节区域。尽管COCAS中的面部区域已经去敏感化，但它仍然是一个重要的生物特征线索。同时，关节区域可能与人的姿势或体形有关。0去敏感化的影响。在COCAS中，我们对所有图像的面部和背景进行了模糊处理以保护隐私。由于面部区域传达了重要的生物特征信息，我们还使用原始COCAS训练了BC-Net。结果可以在表2-5,6,7,8中看到。与表2-1,2,3,4中的去敏感化COCAS的结果相比，当使用相同的相似度度量时，它在mAP上提高了约6%�9%，表明去敏感化实际上削弱了生物特征信息。然而，面部信息仍然是有帮助的，正如在面具模块中分析的那样。34070查询图像和模板0通过组合特征检索通过生物特征检索通过服装特征检索0top1 top5 top1 top5 top1 top50图9.通过服装特征、生物特征和组合特征分别检索结果的示例。绿色框表示图像与查询图像属于同一身份，而红色框表示错误的检索结果。如上所示，通过服装特征检索的图像与模板具有相似的服装，例如，红色服装找到红色服装。而仅使用生物特征时，将找到具有相似服装或体形的图像。组合特征有效地找到具有查询图像和服装模板两个特征的图像。0图10.面具的可视化。(1)显示了同一人的不同服装的面具。(2)显示了从具有不同情况的图像生成的面具，包括正面、侧面、低头、遮挡、背面等。05.2.2 设计选择和替代方案0损失函数。如第4.3节所述，BC-Net通过对生物特征和组合特征施加的损失函数进行训练。我们构建了两个变体。第一个是去除对生物特征施加的损失，即仅使用L f训练网络。第二个是去除L f 中的三元组损失项，即使用L fid + L f B 的损失训练网络。结果报告在Tab. 2-11,12中。没有L f triplet，性能下降了4.0%的mAP和04.5% top-1. 如果没有 L f B，mAP从46.8%急剧下降到32.7%，top-1准确率从49.3%下降到33.7%。结果表明，L f B对于更好地提取细粒度生物特征和过滤无关特征至关重要。衣物检测器。在BC-Net中，我们首先训练衣物检测器，然后使用它来训练整体网络。为了评估衣物检测器是否必要，我们简单地移除了衣物检测器。如果人物图像是目标图像，则人物图像将直接输入BF分支和CF分支。如结果所示0Tab. 2-14，没有衣物检测器，我们的方法达到了39.5%的mAP和41.0%的top-1，分别下降了7.3%和8.3%。衣物检测器可以消除其他区域的影响，如背景或裤子。06. 结论0我们引入了一个新的人物重新识别基准，考虑到衣物变化问题，每个查询由一个人物图像和一个衣物模板图像组成。该基准包含来自5,266个人的60,000多个图像，每个身份有多种衣物。对于这种重新识别设置，我们提出了生物特征-衣物网络，可以分别提取生物特征和衣物特征。实验证明，传统的重新识别方法在遇到衣物变化时表现不佳。而我们的方法通过利用衣物模板效果良好。所提出的设置和解决方案在追踪嫌疑人和寻找失踪儿童/老人的实际场景中具有潜力。34080参考文献0[1] Xiaobin Chang, Timothy M. Hospedales, and Tao Xiang.多级分解网络用于人物重新识别. 在 CVPR , 2018. 30[2] Binghui Chen, Weihong Deng, and Jiani Hu.用于人物重新识别的混合高阶注意力网络. 在 ICCV , 2019. 1 , 70[3] Dapeng Chen, Dan Xu, Hongsheng Li, Nicu Sebe, and Xi- aogangWang. 基于深度条件随机场的群体一致性相似性学习方法用于人物重新识别. 在CVPR , 2018. 1 , 70[4] Dapeng Chen, Zejian Yuan, Badong Chen, and NanningZheng. 带有空间约束的相似性学习方法用于人物重新识别. 在CVPR , 2016. 10[5] Dapeng Chen, Zejian Yuan, Badong Chen, and NanningZheng. 带有空间约束的相似性学习方法用于人物重新识别. 在CVPR , 2016. 30[6] Dapeng Chen, Zejian Yuan, Gang Hua, Nanning Zheng,and Jingdong Wang.基于显式多项式核特征映射的相似性学习方法用于人物重新识别.在 CVPR , 2015. 10[7] Weihua Chen, Xiaotang Chen, Jianguo Zhang, and KaiqiHuang. 超越三元组损失：一种用于人物重新识别的深度四元组网络.在 CVPR , 2017. 30[8] De Cheng, Yihong Gong, Sanping Zhou, Jinjun Wang,and Nanning Zheng.基于多通道部分卷积神经网络和改进的三元组损失函数的人物重新识别方法. 在 CVPR , 2016. 30[9] Etienne Corvee, Francois Bremond, Monique Thonnat, etal. 利用人体部位的空间协方差区域进行人物重新识别. 在 AVSS ,2010. 30[10] Abir Das, Anirban Chakraborty, and Amit K Roy-Chowdhury. 一种相机网络中的一致性重新识别方法. 在 ECCV ,2014. 20[11] Michela Farenzena，Loris Bazzani，AlessandroPerina，Vitto- rio Murino和MarcoCristani。通过对称驱动的局部特征累积进行人员重新识别。在CVPR，2010年。30[12] Yixiao Ge，Dapeng Chen和HongshengLi。相互均值教学：用于人员重新识别的无监督领域自适应的伪标签细化。在ICLR，2020年。10[13] Ke Gong，Xiaodan Liang，Dongyu Zhang，XiaohuiShen和LiangLin。深入研究人员：自监督结构敏感学习和人体解析的新基准。在CVPR，2017年。3，4，60[14] Douglas Gray，S. Brennan和HaiTao。评估用于识别，重新获取和跟踪的外观模型，2007年。20[15] Kaiming He，Xiangyu Zhang，Shaoqing Ren和JianSun。用于图像识别的深度残差学习。在CVPR，2016年。40[16] Lingxiao He，Jian Liang，Haiqing Li和ZhenanSun。用于部分人员重新识别的深度空间特征重建：无需对齐的方法。在CVPR，2018年。1，20[17] Nikolay Jetchev和UrsBergmann。条件类比gan：在人物图像上交换时尚物品。在ICCVWorkshop，2017年。30[18] Srikrishna Karanam，Mengran Gou，Ziyan Wu，AngelsRates-Borras，Octavia Camps和Richard J.Radke。人员重新识别的系统评估和基准：特征，度量和数据集，2016年。2，30[19] Martin Koestinger，Martin Hirzer，Paul Wohlhart，Peter MRoth和HorstBischof。从等价约束中进行大规模度量学习。在CVPR，2012年。30[20] Dangwei Li，Xiaotang Chen，Zhang Zhang和KaiqiHuang。学习人体和潜在部分的深度上下文感知特征，用于人员重新识别。在CVPR，2017年。30[21] D. Li，Z. Zhang，X. Chen和K.Huang。用于实时监控场景中的人员检索的丰富注释的行人数据集。在TIP，2019年。30[22] Wei Li和XiaogangWang。在视图之间进行本地对齐特征变换。在CVPR，2013年。10[23] Wei Li，Rui Zhao和XiaogangWang。使用转移度量学习的人类重新识别。在ACCV，2012年。1，20[24] Wei Li，Rui Zhao，Tong Xiao和XiaogangWang。Deep-reid：用于人员重新识别的深度滤波器配对神经网络。在CVPR，2014年。1，20[25] Wei Li，Xiatian Zhu和ShaogangGong。用于人员重新识别的和谐注意网络。在CVPR，2018年。30[26] Zhen Li，Shiyu Chang，Feng Liang，Thomas S Huang，Lian-gliang Cao和John RSmith。学习用于人员验证的局部自适应决策函数。在CVPR，2013年。30[27] Shengcai Liao，Yang Hu，Xiangyu Zhu和Stan ZLi。通过局部最大出现表示和度量学习进行人员重新识别。在CVPR，2015年。6，70[28] Bingpeng Ma，Yu Su和Fr´ed´ericJurie。Bicov：一种新颖的用于人员重新识别和人脸验证的图像表示。在BMVC，2012年。30[29] Alexis Mignon和Fr´ed´ericJurie。Pcca：一种从稀疏成对约束中进行距离学习的新方法。在CVPR，2012年。30[30] Shaoqing Ren，Kaiming He，Ross Girshick和Jian Sun。Fasterr-cnn：使用区域建议网络进行实时目标检测。在NeurIPS，2015年。5，60[31] Florian Schroff，Dmitry Kalenichenko和JamesPhilbin。Facenet：用于人脸识别和聚类的统一嵌入。在CVP

下载后可阅读完整内容，剩余1页未读，立即下载