基于像素和特征联合对齐的RGB-IRRE-ID模型

60 浏览量更新于2023-10-12 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43213623基于像素和特征联合对齐的王贯2中国科学院大学，中国3中国北京脑科学与智能技术卓越中心4中国科学技术大学北京5北京航空航天大学北京{wangguanan2015，zengguang.hou} @ ia.ac.cn，tzzhang@ustc.edu.cn，{jcheng，yang.yang} @ nlpr.ia.ac.cn，liusi@buaa.edu.cn摘要由于RGB和IR图像之间的大的跨模态变化，RGB-红外（IR）人重新识别是重要且具有挑战性的任务。大多数传统的方法旨在通过特征表示学习来弥合跨通道的差距。与现有的方法不同，本文提出了一种新的方法，一种新型的端到端对齐生成对抗网络（AlignGAN），用于RGB-IR RE-ID任务。所提出的模式有几个优点.首先，它可以联合利用像素对齐和特征对齐。据我们所知，这是第一个工作，以模拟两个对齐策略联合RGB-IR RE-ID问题。其次，该模型由像素生成器、特征生成器和联合特征生成器组成.通过在三个组件之间进行最小-最大博弈，我们的模型不仅能够减轻跨模态和模态内的变化，而且还能够学习身份一致的特征。在两个标准的基准测试上的大量实验结果表明，所提出的模型表现有利，对国家的最先进的方法。特别是，在SYSU-MM 01数据集上，我们的模型可以实现15的绝对增益。4%和12。在Rank-1和mAP方面为9%1. 介绍人员重新识别（Re-ID）是视频监控中的一项重要任务，其目的是在不相交的摄像机视图中匹配行人图像[7]。它的主要挑战在于由不同的姿势、光照、视角和遮挡引起的类内差异和类间为了处理这些问题，已经提出了大量的Re-ID问题模型，包括手工制作的†通讯作者图1.大多数现有方法通过特征表示学习通过特征对齐来解决RGB-IR Re-ID任务。与现有方法不同的是，我们的目标是通过像素对齐模块生成基于真实RGB图像的伪红外图像，然后通过特征对齐模块将生成的伪红外图像与真实红外图像进行匹配。更多详情请参阅正文。（请以颜色查看）描述符[22，36，19]，度量学习模型[43，16，20]和深度学习算法[42，11，28]。大多数现有的方法都集中在可见光相机上，并将Re-ID任务制定为单模态匹配问题（RGB- RGB），即。，并将其与一组图库图像/视频进行匹配。然而，可见光相机可能不能够在差的照明环境（例如，在夜间），这限制了在实际监视应用中的适用性[32]。在这种情况下，应使用不依赖于可见光的成像设备。在许多应用中，监视摄像机可以是异构的，诸如近红外（IR）、热和深度摄像机。特别是，大多数监控摄像机可以自动从RGB模式切换到IR模式，这有助于-43213624表1.在SYSU-MM 01数据集上不同设置下的cmGAN [3]结果，包括Rank-1，mAP和类内余弦相似性（ICCS）。设置（query2gallery）单模态rgb2rgb ir2ir跨模态rgb2ir秩-190.068.327.931.9地图76.649.624.525.5ICCS0.8920.8790.7010.701让这些摄像机在夜间工作。因此，有必要研究现实场景下然而，由于RGB相机和红外相机之间的巨大差异，很少有工作关注RGB相机和红外相机之间的Re-ID。如图1所示，RGB和IR图像本质上是不同的和异构的，并且具有不同的波长范围。这里，RGB图像具有包含可见光的颜色信息的三个通道，而IR图像具有包含不可见光的信息的一个通道。因此，即使是人也很难利用颜色信息来识别为了解决上述问题，现有的跨模态re-id方法[32，37，38，3，9]主要集中在通过特征对齐来弥合RGB和IR图像之间的差距，如图1所示。其基本思想是通过特征表示学习来匹配真实的RGB和IR图像。由于两种模态之间的大的跨模态变化，难以在共享特征空间中直接匹配RGB和IR图像。如表1所示，我们报告了SYSU-MM 01数据集上单模态和跨模态设置下cmGAN[3]（一种最先进的RGB-IR Re-ID模型）注意，ICCS值越大实验结果表明，在跨通道设置下，CM-GAN的性能要差得多，不能很好地克服跨通道变化与现有的直接匹配RGB和IR图像的方法不同，启发式方法是通过像素对齐模块基于真实RGB图像生成假IR图像，然后通过特征对齐模块将生成的假IR图像与真实IR图像进行匹配，如图1所示。所生成的伪IR图像被采用以弥合RGB图像与IR图像之间的差距这个基本思想可以通过使用图2（b）中的模型来实现。在这里，该模型由像素生成器Gp和特征生成器Gf组成，以分别在像素和特征空间中对齐两种模态。相应地，这两个生成器分别用两个鉴别器Dp和Df训练。由于Gp和Dp，可以生成假IR图像以减轻像素空间中的交叉模态变化虽然生成的假IR图像看起来与真实IR图像相似，但是由于视点变化、姿态变化和图2.不同对齐策略的比较（a）特征对齐。(b)用两个鉴别器进行像素和特征对齐。(c)像素和特征对齐与联合对齐。闭塞。为了克服这个问题，采用Gf和Df因此，该模型通过使用像素对准和特征对准而被设计用于RGB-IR交叉模态Re-ID，这与图2（a）中仅使用特征对准的模型不同。然而，两种比对策略单独采用，它们可能无法很好地互补和增强以获得身份一致的特征。这是因为在Re-ID中，训练集和测试集的任务标签是不共享的.对齐的特征不能通过在训练集中拟合标签来保持身份一致性。例如，人A可以与人B对齐。受上述讨论的启发，在本文中，我们提出了一种新的对齐生成对抗网络（AlignGAN），以同时减轻像素空间中的跨模态变化，特征空间中的模态内变化，并保持RGB-IR跨模态Re-ID任务的身份一致性如图2（c）所示，为了减少交叉模态变化，我们采用像素生成器Gp来基于RGB图像生成身份保持的伪IR图像然后，为了减轻模态内的变化，我们使用特征生成器Gf通过利用基于身份的分类和三重损失将假和真实IR图像编码到共享特征空间最后，为了学习身份一致性特征，我们提出了一个联合的CIDDj，使Gp和Gf相互学习。这里，Dj将图像-特征对作为输入，并且将具有相同身份的真实IR图像-特征对分类为真实的，并且将其他图像-特征对分类为假的相应地，Gp和Gf被优化以欺骗Dj。因此，可以惩罚来自不同身份的负对，并且明确地强制对齐的特征与对应的图像保持身份。通过在Dj和Gp+Gf之间进行最小-最大博弈，可以减少，同时身份一致特征是可以学习的这项工作的主要贡献可以概括为43213625如下(1)我们提出了一种新的对齐生成对抗网络的RGB-IR RE-ID任务，利用像素对齐和特征对齐联合。据我们所知，这是第一个工作，建模的两个对齐策略联合RGB-IR RE- ID问题。(2)该模型由像素生成器、特征生成器和联合鉴别器组成。通过在三个组件之间进行最小-最大博弈，我们的模型不仅能够减少跨模态和模态内的变化，而且还能够学习身份一致的特征。（3）在两个标准基准上的大量实验结果表明，所提出的模型优于现有的方法。特别是，在SYSU-MM 01数据集上，我们的模型实现了15的显著改进。4%的一级和十二级。9%mAP。2. 相关作品RGB-RGB人员重新识别。 RGB-RGB每个子重新识别解决了跨不相交的可见摄像机匹配行人RGB图像的问题[7]，其广泛用于视频监控、公共安全和智慧城市，也可以用于改善跟踪[41，39，40]。关键的挑战在于由不同的视图、姿势、光照和遮挡引起的大的类内变化。现有的方法可以分为手工制作的描述符[22，36，19，34]，度量学习-ing方法[43，16，20]和深度学习算法[42、11、28、21、44、30、15、35、33、18、17、1、31]。的目标手工制作的描述符是设计健壮的功能。例如，Yang等人。 [36]通过使用显着的颜色名称来探索颜色信息。度量学习方法的目的是以判别的方式使真匹配对的距离小于错误匹配对的距离。Zheng等人 [43]将人物RE-ID表示为相对距离比较学习问题，以学习一对人物图像之间的最佳相似性度量深度学习算法采用深度神经网络，以端到端的方式直接学习鲁棒性和区分性特征。例如，[42，11]通过微调预训练的CNN来学习身份判别特征，以最大限度地减少分类损失或三元组损失。现有的方法大多集中在RGB-RGB Re-ID任务上，而对于RGB-IR Re-ID任务表现不佳，限制了其在实际监控场景中的适用性。RGB-IR人员重新识别。RGB-IR人员重新识别尝试在不相交的相机下匹配人员的RGB和IR图像。RGB-IRRe-ID除了解决RGB-RGB Re-ID的困难外，还面临着新的挑战这是由于RGB和IR图像之间的交叉模态变化。在[32]中，Wu等人收集了一个名为SYSU RGB-IR Re-ID的跨模态RGB-IR数据集。该方法探索了三种不同的网络结构，并使用深度零填充来训练单流网络，- 自动演进网络中的域特定节点以用于跨模态匹配。Ye等人。[37，38]提出了模态特定和模态共享度量损失以及一种新的双向双约束顶级损失，以学习RGB-IRRe-ID的判别特征表示。在[3]中，Dai等人引入了一种跨模态生成对抗网络（cmGAN），以减少RGB和IR特征的分布发散。最近，Hao等人 [9]通过超球流形嵌入模型实现了可见热人重新识别。上述方法主要集中在通过特征对齐弥合RGB和IR图像之间的差距，这忽略了像素空间中的大的跨模态变化与这些方法不同的是，我们提出的模型联合执行像素对齐和特征对齐，这不仅能够减少跨模态和模态内的变化，而且还能够学习身份一致的特征。生成对抗网络。生成对抗网络（GAN）[8]通过对抗训练以自监督的方式学习数据分布，已广泛用于图像翻译[14，45，2]和领域适应[6，12，5，27]。Pix2Pix [14]，CycleGAN [45]和StarGAN [2]学习两个或多个域之间的图像翻译。然而，这些工作仅关注图像翻译，其不能用于跨模态匹配任务的RGB-IR Re-ID最近，一些基于GAN的域自适应方法被提出。DANN [6]和Seg-CT-UDA [5]最大限度地减少了对抗性的统计准确性，以减少源和目标特征之间的分布差异。然而，它们只关注两个域之间的特征对齐，而不能处理图像的变化。 CyCADA [12]使用两个 GAN 模型来生成用于分割的图像和特征，HADDA[27]使用重建图像来约束特征。然而，两者都假设训练数据和测试数据应该具有相同的类标签，这对于person re-id来说是不成立的。此外，我们的像素和特征对齐模块在一个统一的GAN框架中联合学习，通过使两个模块相互学习，可以获得身份一致的特征。3. 对齐生成对抗网络在本节中，我们将介绍针对RGB-IR Re-ID提出的对齐生成对抗网络（AlignGAN）的细节。如图3所示，我们的Align-GAN包含一个像素对齐模块（P），对准模块（F）和接头对准模块（D）. P通过将RGB图像转换为保持身份的假IR图像来减少交叉模态变化F通过将假和真实IR图像编码到共享特征空间来消除模态内变化，最小化基于身份的分类和三联体损失。D通过使43213626′CLS三L= LX Xgan′图3. 所提出的AlignGAN模型框架它由像素对齐模块（P）、特征对齐模块（F）′和关节活动模块（D）。P可以生成伪IR图像Xir以减轻跨模态变化，F可以减轻模态内变异，D通过使P和F相互学习，惩罚不真实或属于不同身份的否定对，获得身份一致的特征。P和F相互学习，并惩罚不真实或属于不同恒等式的负对通过在D和D+F，跨模态和模态内变化Lcyc可以用公式表示如下：L cyc=||Gp′（Gp（Xrgb））−Xrgb||1+的||G（G′（X））−X||（一）同时身份一致的特征可以巴比伊尔IR1学习。′此外，我们制作假红外图像Xir保持3.1. 像素对齐模块如图1所示，RGB和IR图像之间存在较大的交叉模态变化，这显著增加了RGB-IR Re-ID任务的难度。重新-对应RGB图像Xrgb的身份从两个作为-′方面。一方面，XIR应该被归类为同一个-对应的Xrgb的tities。另一方面，Xir应满足由对应Xrgb的恒等式监督的三元组约束。我们把这两个损失记为Lpix为了减少跨模态变异，我们建议翻译′真实RGB图像Xrgb到伪IR图像Xir，其具有和Lpix，并将它们公式化为等式。(2)分别表示保持原有的身份。该Gen-′pixclsCLS′（Xir）=E∈′[−log p（x）]IR经过验证的假红外图像XIR可以用来弥补这一差距RGB和IR图像之间。为此，我们引入一个像素生成器Gp，它学习从RGB图像Xrgb到IR图像Xir的映射，并训练它产生假IR′图像Xir =Gp（Xrgb），这愚弄了一个人。反因此，本文试图区分真实的IR′图像XIR从假的XIR。通过玩最小最大如[8]中的游戏，所提出的模型可以使假IR′图像XIR尽可能真实我们把损失记为Lpix并在等式中定义它。（九）、Lpix=1[L（X′，X，X）+L（X，X′，X′）]tri2triirir ir tri irir ir（二）这里，p（·）是输入属于地面真实身份的预测概率的地面真实身份′伪IR图像Xir与对应的原始RGB图像Xrgb的伪IR图像相同。Ltri定义在Eq.(3)、其中xa和xp是属于相同恒等式，xa和xn是属于不同恒等式的负对，Dx1，x2是x1和x n之间的余弦距离，pixx在嵌入器的嵌入空间中，m是裕度虽然L甘确保假红外图像X红外将resem-从真实的红外图像中提取数据，2参数和经验设置1. 0，并且[x]+=max（0，x）。以保证Xir保留其原始RGB图像Xrgb的结构或内容。为了解决这个问题，Ltri（X1，X2，X3）=E{[m-Dxa，x p+Dxa，xn]+} （三）[45]，我们引入循环一致性损失。具体地说，从IR图像到RGB图像的映射Gp'是用GAN模型训练的，为了简单起见，我们然后，我们要求将RGB（IR）图像映射到IR′43213627IDID（RGB）图像，然后再映射回RGB（IR）图像。S.T. xa∈X1，xp∈X2，xn∈X3.总之，我们的像素对准模块的总体损失在等式中示出(4)，其中λcyc和λpix是相应项的权重，λcyc如[45]中那样设置为10，λpix一个复制原来的一个。循环一致性损失通过交叉验证设置为1.0。43213628′′CLS′ganganminLpix=Lpix+λcycLcyc+λpix（Lpix+Lpix）（4）傻瓜的联合模块（D），有两个广告-PGaNidcls三优势首先，通过玩最小-最大游戏，′ ′3.2. 特征对齐模块尽管像素对准模块减少了跨模态变化，但是仍然存在由不同姿态、视图、照明等引起为了克服这个问题，我们提出了一个特征对齐模块F，其中特征生成器Gf编码伪IR图像′XIR和真实IR图像XIR到共享空间通过minimiz-基于身份的分类[42]和三重损失[11]。具体来说，我们采用CNN作为特征生成器Gf图像XIR将是真实的，而伪IR特征MIR将具有与真实IR特征Mir相似的分布。其次，Mir可以保持与对应图像Xir的身份一致性。这是因为我们的 AlignGAN 就像一个条件 GAN（cGAN）[23]。在cGAN中，生成数据的类别将取决于输入条件。这里，F的输入图像充当条件，并且学习的特征的类将与这些图像相关。为此，D的目标函数可以用公式表示为等式（1）。(7)：最小LD= LD+LD（七）学习特征图M，然后平均地将它们集中到′特征向量V.Gf取Xir和Xir作为输入，D现实假用分类器的分类损失Lfeat以及嵌入器的三重态损失Lfeat如下：D房D=E（x，m）∈（Xir、Mir）[log Dj（x，m）]壮举三′Lfake=E（x，m）∈（X∈ir，M∈i r））+（Xir，Mr）[log1−Dj（x，m）]（八）Lcls=Lcls（Xir<$Xir）=Ex∈Xir′′<$X′[−logp（x）]IR（五）其中，（Xir，Mir）的x和m都是实数，并且属于Lfeat=Lfeat三tri（Xir，Xir，Xir）+Ltri（Xir，XirXir）相同的身份，x和m的（Xir，Mir）属于相同的身份，其中至少有一个是假的，x和m的其中p表示集合并集，p（·）是该输入属于地面实况身份。地面-′Xir的真值恒等式与相应的Xrgb的真值恒等式相同，Ltri定义在Eq.（三）、虽然分类和三重损失方程。（五）（Xir，Xir）都是实数，但属于不同的恒等式。相应地，为了骗过关节复位模块，像素和特征对准模块的GAN损失可以用公式表示为：(9)和等式(10)分别表示可以学习身份感知功能，但他们无法处理Lpix=E′′ ′[l〇gDj（x，m）]（9）特征空间中的模态变化很好，这限制了RGB-IR RE-ID的准确性。为了解决这个问题，我们进一步gan壮举（x，m）∈（Xir，Mir）<$（Xir，Mir）Lgan=E′ ′ ′[10gDj（x，m）]（10）在特征空间中采用GAN损失，通过减小分布发散来缓解跨模态变化。具体地说，我们使用一个特征映射来区分真实红外图像Mir和伪红外图像的（x，m）∈（Xir，Mir）<$（Xir，Mir）′其中（Xir，Mir）的x和m属于同一单位元，x是假的，m是真的。（Xir，Mir）的x和m属于同一个恒等式，x是真的，m是假的。同样，x和m′′ ′先生。因此，特征生成器Gf被优化为骗过鉴别器。通过玩最小-最大博弈（Xir，Mir）属于同一身份，都是假的。′[8]Mir之间的分布差异而Mir可以3.4. 训练和测试同时减少商誉 GAN损失Lfeat的详细公式在Eq.（十）、因此，我们的特征对齐模块的整体损失可以用公式表示为等式2(6)其中λfeat是GAN损失的权重，并通过0.1交叉验证设置在训练阶段，我们的AlignGAN可以通过交替地优化等式中每个模块的相应损失(4)，方程式(6)和等式(7)分别表示。期间在测试阶段，仅使用像素对准模块P和特征对准模块F对于IR图像Xir，我们minLfeat= Lfeat+ Lfeat+λfeat Lfeat（六）直接使用F来学习特征向量Vir。对于RGBFCLS三gangan图像XRGB′，我们先用P翻译给他们来伪造IR′3.3. 联合鉴别器模块我们的联合判别模块由联合判别器（Dj）组成，其将图像特征对（X，M）作为输入并输出一个logit，其中1表示真实，0表示虚假。只有具有相同身份的真实红外图像Xir和真实红外特征Mir的对被分类为真实的，而其他的是假的。因此，当优化像素对准模块（P）和特征对准模块（F）以LIR′43213629图像Xir，然后使用F.最后，通过计算探针图像和图像之间的特征向量的余弦相似度来进行匹配，画廊的。4. 实验4.1. 数据集和评价方案数据集。我们评估我们的模型在两个标准的基准标记，包括SYSU-MM 01和RegDB。(1)SYSU-43213630表2.与SYSU-MM 01数据集上的最新技术水平进行比较R1、R10、R20分别表示Rank-1、Rank-10和Rank-20mAP表示平均精确度得分（%）。方法全部搜索室内搜索R1单发R10 R20地图R1多激发R10 R20地图R1单发R10 R20地图R1多激发R10 R20地图生猪2.7618.332.04.243.8222.837.72.163.2224.744.67.254.7529.149.43.51LOMO3.6423.237.34.534.7028.343.12.285.7534.454.910.27.3640.460.45.64双流11.748.065.512.916.458.474.58.0315.661.281.121.522.572.388.714.0单流12.149.766.813.716.358.275.18.5917.063.682.123.022.771.887.915.1零填充14.852.271.416.019.261.478.510.920.668.485.827.024.575.991.418.7BCTR16.254.971.519.2------------BDTR17.155.572.019.7------------D-HSME20.762.878.023.2------------cmGAN27.067.580.627.831.572.785.022.331.777.289.242.237.080.992.332.8我们42.485.093.740.751.589.495.733.945.987.694.454.357.192.797.445.3MM 01 [32]是一个流行的RGB-IR Re-ID数据集，其中包括来自4个RGB相机和2个IR相机的491个身份。训练集包含395人的19，659张RGB图像和12，792在[32]之后，有两种测试模式，即全搜索模式和室内搜索模式。对于全搜索模式，使用所有图像。对于室内搜索模式，仅使用来自第1、第2、第3、第6相机的对于这两种模式，都采用了单次拍摄和多次拍摄设置，其中随机选择一个人的1或10个图像来形成图库集。两种模式均使用IR图像作为探头集，使用RGB图像作为图库集。(2)RegDB [24]包含412人，其中每个人有10张来自可见光相机的图像和10张来自热成像相机的图像。评价方案。使用累积匹配特征（CMC）和平均精度（mAP）作为评价指标。根据[32]，基于图库和探针集的10次重复随机分割的平均值，使用官方代码评估SYSU-MM 01的结果。在[37，38]之后，RegDB的结果基于训练集和测试集的10次重复随机分割的平均值详细设置可以在相应作者的github中找到4.2. 实现细节在[3]之后，我们采用在ImageNet [26]上预训练的ResNet-50 [10]作为我们的CNN骨干，使用其Pool 5层作为我们的特征映射M，并平均池M以获得特征向量V。对于分类损失，分类器将特征向量V作为输入，包括一个256-dim全连接（FC）层，然后是批归一化[13]，dropout [26]和ReLU [26]作为中间层，以及一个具有身份号logits的FC层作为输出层。脱落率根据经验设定为0.5。对于三元组损失，嵌入器是将特征向量V映射到256-dim嵌入向量的FC层。我们使用Pytorch实现我们的模型培训IM-年龄随着水平翻转而增大。批量大小设置为144（18人，每个人4个RGB图像和4个IR图像）。对于学习率，我们将分类器和嵌入器设置为0.2，将imagenet预训练的CNN部分设置为0.02并通过SGD进行优化。我们将像素对齐和联合优化模块的学习率设置为0.0002，并通过Adam [25]进行优化。在5，000次迭代之后，学习率衰减0.1，并且模型总共训练了10，000次迭代。4.3. SYSU MM01数据集我们将我们的模型与9种方法进行了比较，包括手工制作的特征（HOG [4]，LOMO [19]），具有分类损失的特征学习（单流，双流，零填充）[32]，具有分类和排名损失的特征学习（BCTR，BDTR）[37]，度量学习（D-HSME [9]），以及减少特征的分布差异（cmGAN [3]）。实验结果如表2所示。从评估协议的角度来看，即全搜索/室内搜索和单激发/多激发，可以观察到两种现象。首先，对于相同的方法，室内搜索比全搜索性能更好。这是因为室内图像具有较小的背景变化，这使得匹配更容易。其次，我们发现多镜头的Rank得分高于单镜头，而mAP得分低于单镜头。这是因为在多镜头模式下画廊中有10个人的图像，但在单镜头模式下只有一个。因此，在多镜头模式下，很容易击中一个图像，但很难击中所有图像。这种情况在单发模式下是相反的。如果没有指定，我们将在下面的单次全搜索模式从方法论的角度来看，可以观察到几种现象。首先，LOMO在Rank-1和mAP得分方面分别仅达到3.64%和4.53%，43213631gan表3. 在不同的查询设置下与RegDB数据集上的最新技术进行比较。更多详情请参阅正文。图4.对λpix和λfeat.伊德甘表4.在单次全搜索模式下，在SYSU-MM 01数据集上比较AlignGAN的不同变体。方法秩-1十阶二十阶地图巴塞尔。29.674.986.133.0PixAlign40.681.690.638.7对齐34.179.689.136.2AlignGAN−36.280.190.234.2AlignGAN42.485.093.740.7这表明手工制作的功能不能推广到RGB-IR Re-ID任务。第二，一-热2可见/可见2热模式RegDB，并获得21的绝对增益。72%/17。SYSU-MM 01数据集上58%的Rank-1评分。总的来说，结果验证了我们的模型的有效性。4.5.模型分析消融研究。为了评估AlignGAN模型的每个组件，我们使用不同的设置进行了四个变体。首先，我们直接使用真实的RGB和IR图像来训练具有分类和三重损失的特征生成器（即CNN模型）。第二，评价流，双流和零填充显着出-像素对齐模块，我们设置λfeat在等式中=0（六）、执行手工制作的功能至少8%和8.3%，Rank-1和mAP评分。这验证了分类损失有助于学习身份鉴别特征。第三，BCTR和BDTR进一步提高Zero-Padding，在Rank-1方面提高1.4%，在mAP得分方面提高3.2%。这表明排序和分类损失是互补的。此外，D-HSME优于BDTR 3.6%的Rank-1和3.5%的mAP分数，这证明了矩阵学习的有效性。此外，cmGAN以6.3%的Rank 1和4.6%的mAP分数优于D-HSME，这意味着对抗训练的有效性。最后，我们提出的Align-GAN在Rank-1和mAP得分方面显著优于最先进的方法15.4%和12.9%，这证明了我们的模型对于RGB-IR Re-ID任务的有效性。4.4. RegDB数据集我们在RegDB数据集上评估我们的模型，并将其与Zero-Padding [32]，TONE [38]，BCTR [37]，BDTR进行比较[38]巴塞尔. 巴塞尔。在第4.5节中定义，其学习具有分类和三重损失的热图像和可见光图像。我们采用可见光2热和热2可见光模式。这里，visible2thermal表示可见图像是查询集，热图像是图库集，等等。如表3所示，我们的模型在热2可见光和可见光2热模式下的Rank-1得分分别比最先进的模型高出23.5%和24.4%。与HSME模型相比，该模型的性能优于HSME 模型6。1%/7。0%Rank-1评分，第三，为了评估特征对齐模块，我们放弃了像素对齐模块，因此特征对齐模块以RGB和IR图像作为输入。第四，为了评估我们的联合对齐模块，我们分别采用了像素对齐模块和特征对齐模块。如图2（b）所示。我们称之为巴塞尔。、PixAlign、PixAlign和AlignGAN−。实验结果如表4所示。首先，我们可以看到PixAlign优于Basel。排名第一的11.0%。此外，FeatAlign的表现优于Basel。提升4.5%。这些结果证明了我们的像素和特征对齐模块的有效性。我们还发现，PixAlign在Rank-1得分上优于PixAlign6.5%，这表明像素对齐-元素模块比特征对齐模块起着更重要的作用。此外，AlignGAN−与PixAlign相当，但比PixAlign更差，这意味着两个模块的简单堆叠不会贡献更好的业绩。这可能是因为跨模态变化已经被像素对准模块显著减小。另外，训练集和测试集的标签是非共享的.在这种情况下，仅通过训练集的标签拟合来实施对齐特征并不能太大地提高性能，甚至会引入更多的噪声并导致身份一致性。最后，所提出的模型AlignGAN的性能远远优于PixAlign和FeatAlign。这意味着我们的联合鉴别器模块可以补充和增强像素和特征对齐模块联合。将讨论方法热2visible1级mAP可见光2热1级mAP零填充16.717.917.831.9语气21.722.324.420.1BCTR--32.731.0BDTR32.831.233.531.9D-HSME50.246.250.947.0巴塞尔。32.734.933.135.5我们56.353.457.953.643213632第4.6节。参数分析在这里，我们评估权重的影响，即λpix和λfeat。如图4所示，伊德甘我们报告了AlignGAN的实验结果，SYSU-MM 01数据集上的不同λpix和λfeat，伊德甘单发全搜索模式巴塞尔。定义在SEC-第4.5条。很明显，当使用不同的λpix和λfeat时，伊德甘我们的AlignGAN模型稳定地优于Basel。. 前...实验结果表明，AlignGAN模型对不同的权重具有较好的鲁棒性。4.6.学习图像和特征为了更好地理解像素和特征对齐模块，在SYSU-MM 01数据集上，我们分别在图5和图6中显示了假IR图像和学习特征向量的T-SNE [29]分布。如图5所示，我们可以看到，伪IR图像具有相似的内容（例如视图、姿势），并且保持了对应的真实RGB图像的标识，同时具有IR风格。因此，所生成的伪IR图像可以桥接RGB图像与IR图像之间的间隙，并且可以减少像素空间中的交叉模态变化。在图6中，每种颜色表示一种模态，每种形状表示一种身份。Basel的训练数据。表示使用Basel学习的训练数据的特征向量。等等。注意巴塞尔。AlignGAN−定义见第4.5节。我们有以下几点意见。第一、当比较图6（a）和图6（b）时，我们可以发现巴塞尔协议。完美地对齐了训练数据的两种模态，而对于测试数据则无法做到这一点。正如我们在图6（b）中看到的，两种模态的测试数据可以很容易地用红色虚线分开。这表明，很难用单个特征对齐模块来减少跨模态变化。在图6（c）中，我们可以发现AlignGAN−比Basel执行更好的模态对齐。. 即便如此，我们还是可以找到特征未能保持身份一致性，即某些点与错误的身份对齐。例如，图6（c）中的红色圆圈标记了这种情况。最后，我们可以发现如图6（d）所示的我们提出的模型AlignGAN不仅能够减少跨模态变化，而且还能够保持特征的身份一致性。总之，实验结果和上述分析证明了AlignGAN的有效性.5. 结论在本文中，我们提出了一种新的对齐生成对抗网络，利用像素对齐和特征对齐联合RGB-IR RE-ID任务。该模型不仅能够减轻跨模态和模态内的变化，但也学习身份一致的功能。大量的实验结果图5.由我们的AlignGAN生成的假红外图像（请以彩色查看）。伪红外图像可以保持与原始真实RGB图像的身份和内容（如视图，姿态），并具有红外风格。图6.学习功能的可视化（请以彩色查看）。这里，每种颜色表示一种模态，并且每种形状表示一种身份。通过AlignGAN学习的特征可以更好地保持身份一致性。详情请参阅正文。两个标准的基准测试表明，我们的模型表现良好，对国家的最先进的方法。致谢这项工作得到了国家重点研究发展计划2018YFB0804204 ，国家自然科学基金 61720106012 ，61533016，61806203，61572498，61751211的部分支持中国科学院重大战略重点研究项目XDBS01000000和XDB32050200 ，北京自然科学基金 L172050 和4172062，青年创新促进会CAS 2018166。43213633引用[1] 陈燕北，朱夏天，龚少刚。通过深度学习多尺度表示进行人员重新识别。在2017年IEEE国际计算机视觉研讨会上，第2590-2600页[2] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。 2018 年IEEE/CVF计算机视觉和模式识别会议，第8789-8797页[3] Pingyang Dai，Rongrong Ji，Haibin Wang，Qiong Wu，and Yuyu Huang.跨模态的人重新识别与生成对抗训练。在IJCAI 2018：第27届国际人工智能联合会议，第677[4] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在计算机视觉模式识别国际会议（CVPRIEEE计算机学会，2005。[5] 齐斗，欧阳成，陈成，陈浩，和冯安恒.Convnets的无监督跨模态域自适应用于具有对抗性损失的生物医学图像分割在IJCAI 2018：第27届国际人工智能联合会议，第691-697页[6] 雅罗斯拉夫·甘宁、叶夫根尼娅·乌斯季诺娃、哈娜·阿亚坎、帕斯卡·热尔曼、雨果·拉罗谢尔、弗朗索瓦·拉维奥内特、马里奥·马克-汉德和维克多·S·Lempitsky神经网络的领域对抗Journal of Machine Learning Research，17（1）：1[7] Shaogang Gong，Marco Cristani，Shuicheng Yan，andChen Change Loy. 人员重新识别。2014年[8] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成性对抗网。在神经信息处理系统的进展27，第2672-2680页[9] Yi Hao，Nannan Wang，Jie Li，and Xinbo Gao.超球流形嵌入的可见热人体再识别。在AAAI-19 AAAI人工智能会议上，2019年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页[11] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为三胞胎的丢失辩护，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。[12] Judy Hoffman ， Eric Tzeng ， Taesung Park ， Jun-YanZhu，Phillip Isola，Kate Saenko，Alexei A.埃弗罗斯和特雷弗·达雷尔。Cycada：周期一致的对抗性结构域适应。机器学习国际会议，1989-1998页[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。机器学习国际会议，第448-456页[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei A.埃夫罗斯使用条件对抗网络进行图像到图像翻译2017年IEEE计算机视觉和模式识别会议（CVPR），第5967-5976页[15] Zhen Lei Xiaobo Wang Yang Yang Jinlin Wu，ShengcaiLiao and Stan Z.李聚类和动态采样用于人员重新识别中的无监督域适应。在ICME 2019。IEEE，2019。[16] Martin Koestinger、Martin Hirzer、Paul Wohlhart、PeterM Roth和Horst Bischof。基于等价约束的大规模度量学习。在2012年IEEE计算机视觉和模式识别会议上，第2288-2295页。IEEE，2012。[17] Wei Li，Xiatian Zhu，and Shaogang Gong.通过多重损失分类的深度联合学习

下载后可阅读完整内容，剩余1页未读，立即下载