没有合适的资源?快使用搜索试试~ 我知道了~
Hi-CMD:解纠缠可见-红外人员再识别的方法
10257Hi-CMD退纠缠身份识别的形状和大小照明属性人体(跨模态)格局和风貌衣服姿态属性(模态内)Hi-CMD:用于可见-红外人员再识别的Seokeon Choi Sumin Lee Youngeun Kim Taekyung Kim Changick Kim韩国科学技术高级研究所,韩国{seokeon,suminlee94,juangeunkim,tkkim93,changick}@ kaist.ac.kr摘要可见-红外人脸再识别(VI-ReID)是夜间监控应用中的一项重要任务,因为可见光摄像机在光照条件较差的情况下很难捕捉到有效的外观信息与仅处理模态内差异的传统人员重新识别相比,VI-ReID遭受由不同类型的成像系统引起的额外的跨模态差异。为了减少模态内和跨模态的差异,我们提出了一种分层的跨模态解纠缠(Hi-CMD)方法,该方法自动地从可见光热图像中解纠缠ID鉴别因子和ID排除因子。我们只使用ID判别因子进行鲁棒的跨模态匹配,而不使用ID排除因子,如姿势或光照。为了实现我们的方法,我们引入了一个身份保持的人的图像生成网络和一个非对称的,(RGB)可见保ID图像生成(IR)红外姿势照明变化姿势照明变化特征学习模块。我们的生成网络通过生成具有不同姿势和照明的新的跨模态图像来学习解纠缠表示 同时,特征学习模块使我们的模型能够显式地提取可见-红外图像之间的共同ID鉴别特征大量的实验结果表明,我们的方法优于国家的最先进的方法在两个VI-ReID数据集。源代码可在https://github.com/bismex/HiCMD上获得。1. 介绍人员重新识别(ReID)旨在在多个非重叠的摄像机视图中匹配特定人员。由于其在安全和监控系统中的有用性,近年来,个人ReID一直受到极大的研究兴趣现有的ReID方法主要处理由单模态相机捕获的可见光图像,并且依赖于RGB-RGB匹配的人类外观[35,42,45,25,36,26]。然而,可见光相机不能捕捉所有的AP-(a)(b)第(1)款图1. (a)我们的分层交叉模态非纠缠(Hi-CMD)概念的图示。 我们的Hi-CMD方法旨在为了分层地解开ID辨别因素(例如,体型和服装样式)和ID排除因素(例如,姿态和照明)。(b)保持ID的人图像生成(ID-PIG)的示例。每一行中的图像最好用彩色观看。人在光线不足的情况下的病态特征对于这些条件,大多数监控摄像机在黑暗环境中自动从可见光模式切换到红外模式[33,34]。毕竟,考虑可见-红外人员重新识别(VI-ReID)变得至关重要。VI-ReID的目标是匹配从具有不同光谱的可见光和红外摄像机观察到的行人。与传统的只具有通道内差异问题的ReID任务相比,VI-ReID遇到了额外的跨通道差异问题,这是由于10258可见光谱和热光谱的发射率[23]。最终,模态内和跨模态差异的共存导致了VI-ReID中类内距离大于类间距离的严重情况[38,31]。在这种情况下,大多数研究[33,37,39,2,38,9]都试图像传统的ReID方法[28,27]一样,利用特征级约束来减少这两种差异。由于光照和姿态属性纠缠在单个图像中,因此仅使用特征级约束很难成功地消除难以处理的差异最近的研究[31]试图使用图像级约束来弥合跨模态差距然而,他们只翻译红外(或可见光)图像到其可见光(或红外)对应,而不考虑内模态差异,尽管交叉视图配对的训练数据量不足。为了同时减轻共存的模态内和跨模态离散,我们提出了一种新的分层跨模态解纠缠(Hi-CMD)方法,如图所示。第1(a)段。我们的目标是为了分层地解开ID排除的因素(即,姿态和照明)和ID鉴别因子(即,身体形状和衣服图案)。为此,我们引入了ID保持的人物图像生成(ID-PIG)网络。ID-PIG网络的重点是通过替换一对跨模态图像中的一些潜在向量来学习排除ID的特征表示。因此,ID-PIG可以变换姿态和照明属性,同时保留图1中可视化的人的身份信息。第1段(b)分段。ID-PIG网络的可视化结果表明,不必要的信息(即,姿态或照明属性)可以从纠缠表示中分离出来。此外,我们还介绍了与ID-PIG网络相结合的分层特征学习(HFL)模块。该模块使生成器中的编码器能够显式地提取共同的ID区分因子,这对姿态和照明变化是鲁棒的。它还隐含地帮助我们的模型从RGB-IR图像中分离姿态和照明,从而提高图像生成质量。最后,将识别度判别特征用于VI-ReID中的跨模态图像检索问题请注意,我们以端到端的方式训练整个网络,而没有与姿势相关的监督(例如,3D骨架姿势,关键点热图和姿势引导解析)与现有的姿势生成方法[18,22,6,45,26]相比。我们的主要贡献可概括如下:• 我们提出了一种层次化的跨模态分解方法。这是一种有效的学习结构,该结构提取用于跨模态匹配的姿态和光照不变特征。据我们所知,这是第一个工作,以解开ID-歧视性因素和ID-排除因素同时。从VI-ReID中的跨模态图像中检索。• 提出的保持身份的人的图像生成(ID-PIG)网络,使之有可能改变姿态和照明属性,同时保持特定人的身份特征。通过ID-PIG探索每个人的属性证明了我们的解纠缠方法的有效性。• 大量的实验结果表明,我们的新框架在两个VI-ReID数据集上的性能优于最先进的方法。可视化结果的ID-PIG网络证明了我们提出的方法的压倒性的性能。2. 相关工作可见-红外人再识别。可见光-红外人脸再识别(VI-ReID)是对不同光照条件下的交叉模态图像VI-ReID任务具有挑战性,因为除了模态内变化之外,还存在跨模态变化。在研究开始时,大部分工作都集中在如何设计一个特征嵌入网络,如深度零填充网络[33]和双流CNN网络[37]。最近,对抗学习[2]或度量学习方法[39,9,38]被应用于学习涉及模态内和跨模态变化的异构人物图像的特征表示。然而,它是难以克服的像素级的差异所造成的照明或姿态变化的特征级约束单独,因为数据不足。与大多数现有的特征级方法相比,我们的Hi-CMD方法通过将图像生成技术与VI-ReID任务相结合来有效地弥合跨模态和模态内差距,从而专注于图像级方法。基于图像生成的人物再识别。最近,图像生成方法由生成Adver-sarial网络(GANs)[8]在个人ReID中引起了很多关注。大部分现有工作可分为以下两类:姿势转移[18,22,6]和风格转移[32,19,5,31]。前一种方法的工作指出,现有的数据集不提供足够的姿态覆盖来学习姿态不变表示。因此,它通过使用姿势丰富的数据增强来解决这个问题。 然而,由于这项工作是为单模态环境设计的,因此很难将姿势引导方法直接应用于VI-ReID任务。ReID中的另一种图像生成方法是基于无监督域自适应减少不同相机域之间的域间隙[32,19,5]。大多数方法集中在转换风格,同时保持人的结构信息。在类似的方法中,Wanget al.[31]将红外(或可见光)图像转换为可见光(或红外)图像,以减少交叉模态10259图像向下-剩余-张量样品块AdaIn参数。E1Epp二维D12MLP张量剩余-上-图像块样品图像或张量向下-样品向量间隙GE1E2H一一模态1(RGB)流模态2(IR)流姿态属性流ID信息流AdaIn参数Concatenate乘法保持身份的人图像生成(ID-PIG)图2.我们的Hi-CMD方法的框架。整个框架包括两个重要组成部分:保持身份的人图像生成(ID-PIG)网络和分层特征学习(HFL)模块。我们的目标是解开ID的歧视性因素和ID排除因素的跨模态图像。重建损失如图所示。3.第三章。最好用彩色观看。VI-ReID任务中的差异然而,由于ReID中的大多数风格转换方法不关心交叉视图配对训练数据的缺乏,因此视图不变表示几乎没有被利用。简而言之,ReID中的上述图像生成方法仅处理结构信息或仅在图像级转换图像样式。与单模态每个子重新识别不同,在VI-ReID中同时考虑模态内和跨模态特征更重要。为此,我们试图减轻跨通道和通道内的差异,在同一时间通过应用一种新的层次解纠缠的方法,即使没有姿势监督。用于识别的解纠缠表示学习。解纠缠表征学习的目标是从不同的数据变化中提取解释因素,以生成有意义的表征。最近,相当人们的注意力集中在学习各个领域中的解缠表示上[12,7,13,24]。同样在识别任务中,一些研究试图从图像中分离出身份相关信息和身份无关信息(例如:姿势、视点、年龄和其他属性)[41,29,1,30]。其中,已经进行了单模态人员重新识别任务中的一些先前工作,目的是解开前景、背景和姿势因素[20],或提取光照不变特征[40]。 请注意,VI-由于跨模态和模态内差异的共存,ReID任务对于从RGB-ID图像中解开共同身份信息和剩余属性特别具有挑战性。为了同时处理姿态和光照属性,我们引入了一种新的分层解纠缠方法。据我们所知,这是第一次将身份识别因素和身份识别排除因素(即身份识别因素)区分开来。姿态和照明属性)。3. 该方法3.1. 问题定义和概述问题定义。我们将可见光图像和红外图像分别表示为x1∈RH×W×3和x2∈RH×W×3,其中H和W是图像的高度和图像x1和x2中的每一个对应于一个恒等标记y∈ {1,2,...,N},其中N是数字个人身份。在训练阶段,用交叉模态图像集X1和X2训练特征提取网络φ(·)。在测试阶段中,给定具有一种模态的查询图像,计算另一模态。通过欧氏距离计算两个特征向量φ(x1)和φ(x2)原型p1x1→2E1pG假装ap1固定姿态X2房X~1→2属性假as1as1X1E1一一个c1一个c2D2一个1一个2第二解缠重新纠缠属性一个2一个1X一个c一个c2E2一21D1as2as2真假原型p2E2pGX1假X~2→1固定姿态一个2x2→1AdvKL分层特征学习(HFL)pipiDHF我αFCas我1旅行ce相同ID第一解缠第一解缠10260侦察1侦察2我111我我我1我我我我我我我我我我我框架概述。在VI-ReID任务中,最具挑战性的问题是可见光和红外图像之间的交叉和模态内差异共存。为了有效地解决这个问题,我们提出了一种新的层次交叉模态解纠缠(Hi-CMD)方法。我们的Hi-CMD方法旨在从跨模态图像中分离出ID鉴别因子和ID排除因子,以同时减少跨模态和模态内的差异。为了实现这一目标,我们引入了两个关键组件,即ID保留的人物图像生成(ID-PIG)网络和分层特征学习(HFL)模块,如图所示。二、3.2. 保持身份的人物图像生成分 层 表 示 。 我 们 提 出 了 VI-ReID 的 人 的 图 像 的hierarchi- cal表示。如图所示。2,我们的ID-PIG网络由两个解纠缠阶段组成。在第一阶段,我们为每种模态设计了一个原型编码器Ep和一个属性编码器Ea图3.拟议重建损失的说明。其中pi=Ep(xi),[as;aex]=Ea(xi),并且G表示ii是解码器。l1损耗促使发电机产生-(对于可见光图像,i=1,对于红外图像,i=2)。这些编码器Ep和Ea将xi映射到对应吃清晰的图像。 从这个跨模态的重建中iiloss,生成器学习如何编码和解码ID-原型代码Pi和属性代码Ai。的原型代码P1是包含诸如衣服图案和身体形状的人外观的基本形式的张量 另一方面,属性代码ai是包括服装风格和取决于诸如姿势和照明的情况的可变属性的向量。 在第二阶段,属性编码再次被划分为三种类型的编码:ai=[as;ac;ap],其中包括一个样式排除的因素。为了清楚起见,我们仅将一种模态的损失表示为L交叉。另一种损失L交叉是通过改变模态指数来定义的。重建损失。我们提出了三个额外的重建损失,以进一步提高发电质量,如图所示。3.第三章。除了不同模态的重建图像的损失之外,我们还对相同模态的重建图像同样的属性代码as,照明属性代码ac,以及Ipi姿态属性代码ai. 照明和姿势属性代码a、c和a、p对应于跨模态变化模态重建损失在正则化中起着关键作用,在生成网络中,其被公式化为我我L相同=E[2016年12月16日] -G(p,as,aex)n],(2)和模态内变化。注意我们侦察1x1数据库(x1)111 1 1指的是不同的RGB所造成的视觉差异,IR相机作为照明属性。为了清楚起见,代码ac和ap都可以作为aex=[ac;ap]集成到ID排除属性代码中。总之,排除ID的因素涉及照明属性代码ac和照明属性代码b c。其中pi=Ep(xi)且[as;aex]=Ea(xi)。我们还应用循环一致性来正则化不适定的无监督图像到图像翻译问题[44]。循环重建损失公式如下:我p循环的前任身份判别因子对应于风格属性码as和原型Lrecon =Ex1<$p data(x1),[<$x1−G(p<$1,a<$1,a<$1)<$], (三)x2数据集(x2)科德皮岛 这一假设不同于哪里p<0.01,aa aa, 一个反托拉斯法表示重建的亲,其中颜色信息这是在[43]中讨论的关键线索。排除身份因素。 在图像生成中-totype代码、重构的样式属性代码,以及重建的ID排除属性代码。从Ep(G(p1,as,aex))得到p∈1,a∈s和a∈ex,1 1 2 1 2在这个过程中,我们的主要策略是合成一对Ea(G(p1,as,ax))和Ea(G(p2,as,ax)),2 1p 21 2 1通过交换ID排除的面,其中pi=E(xi)且[as; aex]= E a(xi).我我我两个图像具有相同的ID。既然两个人-此外,我们应用代码重构损失如下:模态图像共享相同的ID特征,我们可以L码=ExxP(x),[as-as]侦察11数据11 11应用图像重建损失之间的翻译图像和跨模态图像。 从形式上一个前1一个前1一个X1X1→1p1一S1X1pasx2→1x1→2→122RGB图像流红外图像流损失帕帕什11pa S帕帕S1122p 一S22X一个前2X2一个前2x1→2密码侦察一个X22→2x2→1→2相同侦察交叉侦察周期Recon密码侦察密码侦察交叉侦察相同侦察循环重建相同ID102611数据1111讲,这个十字架-x2数据集(x2)+Exp(x),[aex−ae x].(四)模态重建损失公式化如下:as和一个橡皮擦x2数据集(x2)由Ea(G(p1,as,ex))得到,横s ex 112 1 2Lrecon1=Ex1 pdata( x1),[x1−G(p2,a2,a1)1],(1)Ea(G(p2,as,aex)),其中pi=Ep(xi)且[as;aex]=x2数据集(x2)1 2 1我我我10262Recon侦察111我1211 112212 11aLadv=Exp(x),[log(1−D1(G(p2,as,ac,ap)]Ei(xi). 这一损失包括两个假设,即ID-11数据12 1 1x2数据集(x2)在交叉过程中应保留歧视性因素+Exp(x),[log(1−D1(G(p2,as,ac,ap)](七)1数据12 1 2模态重建过程以及ID排除面,在同一模式重建期间,应保持这些参数。x2数据集(x2)+Exp(x)[logD1(x1)],1 1结构过程 重建的总损失是其中p=Ep(x)和[as;ac;ap]=Ea(x)。的表示如下:我我我我我L重建=λ L交叉+λ L相同+λ L循环+ λL码,生成器被训练以最小化(7),而判别式或者试图最大化它。特别是,1次侦察2Recon3Recon4Recon(五)参数时,发电机固定。Ladv以类似的方式定义,其中λt,t∈ {1,2,3,4}控制相对重要性AdvAdv2Adv四个损失。L交叉表示L交叉的和和L= L1+L2。L交叉.其他损耗L相同,L周期,L代码计算3.3. 分层特征学习侦察2以同样的方式。ReconReconRecon如示于图2、我们的分层特征学习-KL发散损失。以帮助属性编码器为了学习更多的信息表示,我们利用Kullback-Leibler(KL)散度损失。这种损失使得排除ID的属性表示与先验高斯分布一样接近,如下所示:Lkl=Exp(x)[DKL(aexN(0,1))],(6)∫其 中 D( p<$q ) =−p ( z ) logp ( z ) dz 和[as;aex]=ing(HFL)模块通过共享原型和属性编码器与ID-PIG耦合。该模块使两个编码器能够提取RGB-IR图像之间的共同ID鉴别因子。同时,该特征学习过程隐含地有助于从跨模态图像中分离模态内和跨模态特征,并提高图像生成的质量。重新纠缠身份歧视因素。我们通过连接KLq(z)1 1E a(x1).通过限制跨模态和模态内特征的分布范围,这种KL发散损失使得排除ID的属性代码能够在潜在空间中连续变化Lkl在类似的kl kl kl风格属性代码和原型代码区分个人身份。与使用两个代码中的一个相比,具有不同特征的两个代码的组合鼓励网络学习一个人的身份的给定原型张量L=L1+L2。从原型编码器Ep,特征嵌入我对抗性损失。 由于生成逼真的图像是对于图像到图像的翻译至关重要,我们应用广告-网络H将其投射到ID-判别原型代码pd,其中pd=H(pi)。 然后,我们将通过使用交叉重建图像i id用不同的方式。两个鉴别器D1、D2cor-身份判别原型码 和style属性用一个可学习的参数α∈[0,1]编码一个s,它是响应的可见光和红外域被用于我的天梳D Se表示为di=α·pi;(1−α)·ai。然后,COM-对抗训练 在模态1的情况下,RGBCDID1区分用于跨模态重建的真实图像x1和伪图像G(p2,as,aex)生成器试图合成一个更真实的RGB图像来欺骗用户。因此,鼓励排除ID的属性代码aex包括RGB的模态特性。此外,我们引入了一种新的策略来区分跨通道特征(即跨通道特征)。照明)和模态内特性(即,姿势)。如上所述,排除ID的属性码可以被分成两个属性码,如aex=[ac;ap]。我们的想法是将绑定的码DCOMB馈送到完全连接的层中。在测试阶段,我们使用全连接层的输出f交替取样策略。我们通过交替选择各种类型的风格属性码和原型码,形成一组训练特征向量f ∈ F。这个改变-Nate抽样策略通过克服训练数据集缺乏多样性来提高区分我们交替地组合从原始图像x1,x2和x 3中提取的样式属性代码as和原型类型代码pd。s cp1 1 1交叉重建图像x1→2=G(p1,a1,a2,a2),仅交换照明属性,使姿势保持在-贡不变为G(p,as,ac,ap)。通过喂养这个IM-x2→1= G(p2,as,ac,ap). 注意,属性和亲-22 1 2年龄对RGB的影响,形态特征仅 集 中 在 照 明 属 性 代 码 AC 上 。 The remaining intra-modality characteristic across RGB-IR images is collectedin the pose attribute code ap. 采用不利损失来进行极大极小博弈,其公式如下:组合的totype代码必须属于同一个人。交叉熵损失给定一组具有身份标注{fi,yi}的训练特征向量,我们使用交叉熵损失进行ID判别学习,这是例外的。按下如下:Lce=Ef∈F,y<$Y[−lo g(p(y|(f))]、(8)我10263其中p(y|f)表示采样特征向量f属于恒等式y的预测概率。三重丢失。对于相似性学习,我们还采用了三重损失。三重态损失表示如下:ΣL跳闸=fa,fp,fn∈F[d(fa,fp)−d(fa,fn)+m]、(9)其中fA、fP和fN指示锚点、正和负样本。 d(·,·)是欧几里德距离,m是一个参数r,并且[z]+=max(z,0)。F或集合F的每个样本fa,我们选择批次中最难的正样本fp和最难的负样本fn就像[11]。三重损失迫使类内样本更接近,类间样本更远。因此,交叉熵和三元组损失帮助编码器从RGB-IR图像中清楚地解开ID辨别因子和ID排除因子。端到端培训。作为总结,我们的Hi-CMD方法的总体损失表示如下:表1. 与RegDB上的最新技术进行比较,L= L Recon+λklLkl +λadvL Adv+λceLce +λ行程L特里普,SYSU-MM 01数据集。R级和mAP(%)的重新识别率第一和第二最佳结果用红色和蓝色表示(十)其中λkl、λadv、λce和λtrip是控制损失项的相对重要性的超参数。我们训练整个网络,以端到端的方式优化总损耗。对于对抗性学习,我们交替训练鉴别器的参数和其余参数。3.4. 讨论我们将Hi-CMD与最相关的解缠方法DG-Net进行了比较[43]。DG-Net与我们提出的Hi-CMD类似,因为这两种方法都以端到端的方式将图像生成网络与判别学习模块相结合然而,用于人ReID的分解虽然DG-Net将每个RGB图像分解为外观和结构代码,但我们的Hi-CMD分层地从RGB- IR图像中分离出ID判别因子和ID排除此外,DG-Net仅使用外观代码,其中颜色信息对于区分人至关重要。然而,由于这个因素是不可行的VI-ReID任务,我们管理的RGB-IR图像之间的ID判别信息的分层解纠缠。该方法对提取身份鉴别特征更为有效4. 实验4.1. 数据集和设置数据集。在两个广泛使用的VI-ReID数据集RegDB[21]和SYSU-MM 01 [33]上进行了广泛的实验。我们遵循[37,39]中的RegDB评估方案和SYSU-MM 01评估方案颜色分别。在[33]中。RegDB数据集由2,060个可见光图像和2,060个远红外图像组成,具有206个用于训练的身份。测试集包含206个身份,其中2,060个可见图像用于查询,2,060个远红外图像用于图库。我们重复了10次随机分组的试验,以获得统计学上稳定的结果。SYSU数据集包含395个身份的22,258个可见光图像和11,909个近红外测试集包括96个身份,其中3,803个近红外图像用于查询,301个可见光图像作为图库集。SYSU数据集由六个摄像机(四个可见光和两个近红外)收集,包括室内和室外环境。我们采用了最具挑战性的单次全搜索模式,并重复了上述评估10次试验,随机分割图库和探针集。评估指标。采用了两个流行的评估指标:累积匹配特征(CMC)和平均精密度(mAP)。CMC曲线中的rank-k识别率表示前k位置中真实匹配的累积率。另一个评价指标是平均精度(mAP),考虑人的重新识别作为检索任务。实作详细数据。我们的方法是在NVIDIA Titan XpGPU上使用 Pytorch框架实现的可见光和红外图像的大小调整为256×128×3。每个小批次包含4对可见光和红外线图像,不同的年龄,不同的身份。将(5)中的重建参数λ1 、λ2 、λ3 、λ4分别设为50 、50 、 50 、 10 。 将(10)中的参数λkl、λadv、λce、λtrip分别设定为1、20、1、1我们使用随机梯度数据集RegDB [21]SYSU-MM01 [33]方法R=1R=10地图R=1R=10地图HOG [3]13.4933.2210.312.7618.254.24LOMO [15]0.852.472.281.7514.143.48[第16话]2.027.336.772.1216.233.86GSM [17]17.2834.4715.065.2933.718.00SVDNet [27]17.2434.1219.0414.6453.2815.17PCB [28]18.3236.4220.1316.4354.0616.26一个流[33]13.1132.9814.0212.0449.6813.67两个流[33]12.4330.3613.4211.6547.9912.85零填充[33]17.7534.2118.9014.8054.1215.95[37]16.8734.0314.9212.5250.7214.42[37]第三十七话24.4447.5320.8014.3253.1616.16BCTR [39]32.6757.6430.9916.1254.9019.15BDTR [39]33.4758.4231.8317.0155.4319.66[38]第38话34.6258.9633.4622.4264.6124.11[38]第三十八话31.8356.1233.1827.8267.3428.42cmGAN [2]---26.9767.5127.80D2RL [31]43.4066.1044.1028.9070.6029.20HSME [9]41.3465.2138.8218.0358.3119.98D-HSME [9]50.8573.3647.0020.6862.7423.12我们的(Hi-CMD)70.9386.3966.0434.9477.5835.94+10264相同横AdvReconRecon相同横AdvReconRecon相同横AdvReconRecon相同横AdvReconReconReconRecon所有W/OW/OW/O所有W/OW/OW/O所有W/OW/OW/O所有W/OW/OW/OGT相同侦察横侦察相同的ID相同的IDRegDB SYSU-MM01图4. RegDB和SYSU-MM 01上各种损失组合的图像生成网络之间的定性比较放大以获得最佳视图。初始仅CE(原始套件)CE + TRIP(原创)CE + TRIP(备用集)使用学习率0.001和动量0.9下降以优化HFL模块。我们采用了亚当优化器[14]对于ID-PIG网络,学习率为0.0001。ID-PIG框架基于 MUNIT [12] 进 行 修 改 , 特 征 嵌 入 网 络 H 基 于 在ImageNet [4]上预训练的ResNet- 50[10]详情请参阅补充材料。4.2. 与现有技术方法的与传统方法比较。我们比较了我们的方法与传统的方法,这不是专为VI-ReID。包括特征提取(HOG[3],LOMO [15],MLBP [16]),跨域匹配(GSM[17] ) 和 基 于 RGB 的 人 ReID ( SVDNET [27], PCB[28])表1显示所有方法都具有相对较差的性能。虽然PCB方法在单模态人员ReID中实现了高性能,但在VI-ReID任务中,性能显著下降是不可避免的。请注意,可见光和红外图像之间的像素级差异在特征级表示中处理具有挑战性。与最新技术水平的比较。我们将我们的方法与VI-ReID中最先进的方法进行了比较。竞争方法包括特征学习框架(单流、双流、零填充[33]和TONE[37]),排名损失(BCTR [39],BDTR [39],eBDTR[38]),度量学习(HCML [37],HSME [9],D-HSME[9]),减少分布发散(cmGAN [2])和图像生成(D2RL [31])方法。我们的模型在RegDB数据集上实现了70.93%的rank-1识别率和66.04%的mAP评分[21],在SYSU-MM 01数据集上实现了34.94%的rank- 1识别率和35.94%的mAP评分[33]。我们的方法在RegDB和SYSU-MM 01数据集上的性能明显优于最先进的VI-ReID方法。这种比较表明了我们的解纠缠方法在弥合跨模态和模态内差距方面的有效性。此外,性能的这种改进可以通过ID判别因子的可视化来分析,这在第4.4节中讨论。图5.交叉点之间的欧氏距离的分布模态(RGB-IR)特征。类内和类间距离分别用红色和绿色方法RegDBSYSU-MM01输入集损失特征R=1地图R=1地图原始CEA+P36.3633.4718.6519.49原始CE+TRIP一15.3315.376.057.74原始CE+TRIPP49.0245.7522.5123.73原始CE+TRIPA+P53.2549.5329.1930.53替代CE+TRIPA+P70.9366.0434.9435.94表2.我们的HFL模块在RegDB和SYSU-MM 01数据集上的组件分析。A和P分别表示风格属性代码和原型代码,用于训练HFL。4.3. 进一步评价和分析图像生成损失的影响。我们对我们的ID保留人物图像生成(ID-PIG)网络进行了消融研究。 为了定性地评估图像生成损失,我们比较了ID-PIG的四种变化:1)我们最好的模型与所有组件; 2)消除重构损失L相同;3)消除解缠结损失Lcross; 4)消除对抗损失Ladv. 网络结构和培训战略保持不变的所有集-东西。图4显示了这个图像转换实验的结果。从测试集中随机选择样本。我们观察到,如果从训练过程中排除一种损失,则生成的图像可能包含令人不快的伪影,例如模糊或颜色偏移。另一方面,我们的ID-PIG网络与所有组件一起生成的结果显示出更逼真和清晰的外观,无论模态是否改变。分层特征学习的有效性。 我们研究了两个数据集上的分层特征学习(HFL)模块的几个变体,以证明我们的分层解纠缠方法的图5显示了来自测试集的RGB-IR图像之间的欧几里得距离的分布。与初始状态相比,基于交替采样策略的HFL模块在最小化类内距离的同时,最大化类间距离。此外,如表2所示,交替采样策略的使用:类内:班级间特征距离RegDBSYSU-MM01频率102651一112222211Input Reference输入参考姿势属性照明属性图7.排除ID的因子操作示例。x2=G(p,as,ac,ap)→ID判别[x1] + ID排除[x2]ex插值2ex插值ex1 2x1=G(p,as,ac,ap)→ID判别[x2] + ID排除[x1]图6.跨两种不同交换方式的人物图像生成的示例:(a)交换ID排除因子;(b)交换ID鉴别因子。与使用原始图像集进行学习相比,显著提高了性能。我们的HFL方法也比单独学习样式属性代码或原型代码获得了更高的性能。这些结果表明,通过交替采样策略进行的不同码组合可以显著提高识别能力,减小跨通道间隔4.4. 人物属性探索区分身份歧视和身份排斥因素。在本节中,我们将介绍ID-PIG网络的图像生成结果。为了证明ID辨别因子和ID排除因子从RGB-IR图像中清楚地分离,我们进行了两个实验:1)将x1和x2的ID-排除因子与保留ID-区分因子交换; 2)交换x1和x2的ID判别因子,保持ID排除因子。图中的图像。图6(a)中的图像被改变为参考图像的姿态和照明属性,而输入图像的衣服和图案被保留。图中的图像。图6(b)中的服装与参考图像的服装合成,同时保持输入图像的姿态和照明属性。对ID-PIG的可视化结果表明,服装的形状、图案和风格是跨模态匹配的重要因素,这意味着本文提出的分层去纠缠方法能够有效地提取出共同的身份鉴别特征。解开照明和姿势属性。为了证明我们提出的系统可以操纵姿态和照明属性的ID排除因素独立,当然,我们进行了一个实验,改变照明属性代码,同时保持姿态属性代码,如图所示。7.第一次会议。请注意,我们的对抗性损失使网络能够区分姿态和照明属性图8.通过ID排除因子的线性插值生成人物图像的示例。在(7)中。该实验表明,与传统的姿势生成方法不同,姿势可以在没有人类姿势估计的任何监督的情况下转换为其他姿势[18,22]。ID排除属性的插值。 在这一部分中,我们验证了生成的图像的ID排除属性我们从一对图像中提取了排除ID的属性码,并通过线性插值得到了一系列属性码。如图8、姿态和照明从左到右平滑地变化。这个实验确保我们的ID-PIG可以合成很多看不见的姿势或照明。5. 结论在这项工作中,我们提出了一种新的分层交叉模态去纠缠方法VI-ReID。与以往的研究相比,该模型通过从可见光红外图像中分离出ID鉴别因子和ID排除因子,同时减少了跨模态和模态内的差异。此外,我们的新的身份保持的人的图像生成网络提供了资源来分析跨模态匹配结果,并解决了数据不足的问题。对VI-ReID数据集的定量和定性评价表明了我们提出的方法优于最先进的方法。X1X2X1X2(一)(一)X12X12(b)第(1)款(b)第(1)款X12X12一as,p2 2as,p1 1一10266引用[1] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang Hua.面向开集身份保持的人脸合成。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第67133[2] Pingyang Dai,Rongrong Ji,Haibin Wang,Qiong Wu,and Yuyu Huang.跨模态的人重新识别与生成对抗训练。在国际人工智能联合会议(IJCAI)中,第677-683页,2018年。二六七[3] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。2005. 六、七[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据 库 。 2009 年 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第248-255页Ieee,2009年。7[5] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在IEEE计算机视觉和模式识别会议论文集中,第994-1003页2[6] YixiaoGe , Zhuowan Li , Haiyu Zhao , Guojun Yin ,Shuai Yi,Xiaogang Wang,et al. Fd-gan:用于稳健的人重新识别的姿势引导特征提取gan。在神经信息处理系统(NeurIPS)进展会议录中,第1222-1233页,2018年。2[7] Abel Gonzalez-Garcia 、 Joost van de Weijer 和 YoshuaBen- gio。用于跨域分离的图像到图像转换。在神经信息处理系统(NeurIPS)进展会议录中,第12873[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展论文集(NeurIPS),第2672-2680页,2014年二、五[9] Yi Hao , Nannan Wang , Jie Li , and Xinbo Gao.HSME:用于可见热人体再识别的球面流形嵌入在AAAI人工智能会议论文集(AAAI),第33卷,第8385二六七[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition(CVPR),第770-778页,2016中。7[11] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失,进行人员重新鉴定。arXiv预印本arXiv:1703.07737,2017。6[12] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第172-189页,2018年。三、七[13] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE计算机视觉和模式识别会议(CVPR)论文集,第44013[14] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。7[15] Shengcai Liao,Yang Hu,Xiangyu Zhu,and Stan Z Li.通过局部最大发生表示和度量学习进行个体再识别。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第2197-2206页,2015年。六、七[16] Shengcai Liao and Stan Z Li.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功