融合模态协作学习的可见红外人员再识别

129 浏览量更新于2023-10-13 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

225融合模态协作学习的可见红外人员再识别魏紫玉1，杨曦1*，王楠楠1，高新波21西安电子科技大学综合业务网国家重点实验室2重庆邮电大学图像认知重点实验室zyweixd@stu.xidian.edu.cn，{yangx，nnwang}@xidian.edu.cn，gaoxb@cqupt.edu.cn摘要可见红外人再识别（VI-REID）旨在匹配白天可见和夜间红外摄像机视图之间的行人图像。大的跨模态差异已经成为限制VI-REID性能的瓶颈。现有方法主要集中在通过学习身份分类器来捕获跨模态可共享表示。然而，由不同光谱相机拍摄的异构行人图像在图像风格上存在显著差异，导致特征表示的可区分性较差。为了解决上述问题，本文探讨了两种通道之间的相关性，并提出了一种新的融合通道协作学习（SMCL）模型，以弥合跨通道的差距。一个新的模态，采用异构图像的功能自动构建，以引导模态不变的表示的生成。将挑战增强同质性学习（CEHL）和辅助分布相似性学习（ADSL）相结合，将异质性特征投影到统一的空间上，扩大类间差异，从而增强了分类能力。在两个跨模态基准上的实验结果表明了该方法的有效性和优越性.特别是在SYSU-MM 01数据集上，我们的SMCL模型达到了67.39%的秩和比。1精度和61.78%mAP，大幅超越尖端作品。1. 介绍人员再识别（Re-ID）在视频监控中起着至关重要的作用，它可以在多个非重叠的摄像机中自动搜索人员图像[39，36]。最近，快速增长的作品有助于可见模态人Re-ID，并取得了显着的性能[1，28]。然而，可见光相机无法捕捉到足够的*通讯作者身份信息在黑暗中。为保障夜间行人安全，本集团部署红外线摄像头采集红外人像，配合可见光摄像头进行24小时视频监控。因此，出现了可见光红外人员再识别（VI-REID）[27]，以根据给定的红外（可见）图像重新获取可见光（红外）图像。VI-REID是具有挑战性的，由于异构行人图像之间的相当大的视觉差异。现有的研究主要从两个方面来应对这一挑战。、图像级和特征级。为了实现模态统一，提出了基于图像生成的方法[11，22，25，3，23]，以将异构图像转换为相同的模态，以实现风格一致性。然而，在图像翻译过程中引入额外的噪声影响了鉴别特征的提取。为了确保特征对齐，利用双路径网络来获得模态特定和模态不变的表示[38，33，7，5，32]，但最后几层很难将每个模态的特定表示映射到共享空间。随后，在大量工作中引入了单流权重共享网络[4，24，30，9]，以直接提取模态共享特征。然而，这些方法的性能远不如可视模态人员Re-ID的性能，因为两种模态之间存在显著的颜色差异。近年来，一些研究者建立了一种新的模态，并结合两种真实模态进行三模态共享特征学习，取得了令人鼓舞的效果。Li等人。 [13]引入辅助X模态作为模态不变特征生成的助手。Ye等人。 [37]提出了一种均匀增强灰度模态，并增强了对颜色变化的鲁棒性。然而，这些方法忽略了中间模态中特征的分布。如图1所示，由于X模态和灰度模态的图像是由可见光图像直接生成的，而不考虑红外图像，因此在测试集的特征分布中遇到两个主要缺点：226X模态灰度模态融合模态图1.十个随机选择的身份在可见光、红外和三种辅助模态中的特征表示分布。 “+” means visible modality, “*” meansinfrared modality,不同的颜色代表不同的身份。中间模态的特征分布与可见模态的特征分布高度相关，而与红外模态的特征分布不相关。2)红外图像和可见光图像的表示在已有的嵌入空间中仍有很大的差距。因此，仅根据可见光图像生成的过渡图像很难建立三种模态之间的分布相关性。为了突破上述限制，本文引入了一种新的融合模态协同学习（SMCL）模型，以提高异构行人图像之间的特征分布的相似性。融合模态的图像是从可见光和红外图像中自生成的，从而保留了它们的共同表征。三种模态的相互作用促进了模态共享行人特征的生成。具体而言，由于红外图像缺乏颜色信息并且难以区分，因此我们通过对红外图像的身份分类器施加压力来执行挑战增强的同质性学习（CEHL），从而增强嵌入式表示的区分能力。此外，辅助分布式相似性学习（ADSL）的目的是通过三个方向的约束，最大限度地减少数据分布中心之间的距离。最终，我们引入增量训练（IT）策略，首先进行表示学习以大致限制跨模态特征分布，然后执行度量学习以进一步缩小模态差异。通过所提出的方法，可见光、红外和融合模态的特征分布在图1中可视化。与X模态和灰度模态相比，融合模态的特征分布与可见模态的特征分布相分离，生成的图像不再与可见图像一一对应。因此，融合模态真正适用于特征学习和度量学习。此外，在融合情态的指导下，将同一身份的异质图像集合起来，扩大了不同身份的特征距离，从而提高了VI-REID的性能。在SYSU-MM 01和RegDB数据集上的实验结果验证了该方法的有效性。本文的主要贡献可以概括如下：• 我们提出了一种新的融合模态协作学习模型VI-REID任务，通过构建一个自我生成的模态，结合可见光和红外图像信息。三种模态的联合学习诱导网络捕获具有高辨别力的模态不变表示。• 我们引入了挑战增强的同质性学习来增加红外图像分类器的难度，从而促使网络获得更多的区分特征以进行正确的分类。此外，辅助分布式相似性学习，通过三向距离抑制缩小跨模态差距。• 我们开发了增量训练方案来处理从粗到细的异构图像的分布，从而为VI-REID学习更有效的模态共享区分表示。我们的SMCL模型的性能优于国家的最先进的方法的显着保证金。2. 相关工作可视模态人员Re-ID。不同可视摄像机下的视点变化、人体姿态变化和分辨率变化是可视模态人体Re-ID的主要挑战。现有的基于深度学习的方法对该任务的改进主要来自两个方面，即：表示学习[18，10，15]和度量学习[14，20，29]。在基于表示学习的方法中，通常引入ID判别嵌入（IDE）模型[40]，将每个身份视为图像分类的唯一类。Sun等人。 [21]将人物特征划分为p个水平条纹，并将特征的每个部分输入到分类器中以提取细粒度表示。 Liu等人[15]提出一种视图混淆机制来学习视图不变表示。在基于度量学习的方法中，通过缩小人物图像之间的特征距离来学习区分特征。三重损失[8]及其改进版本[2]被用于度量学习。Ye等人。 [36]利用加权正则化三重损失来优化正负样本之间的距离，而无需固定的边缘。Song等人。 [20]改进了三重态损失，并通过将正对与所有负对进行比较，提出了提升的结构化嵌入。然而，在这方面，227××∈×Ⓢ{1}| }∈∈VNWTVfnIDL上述方法仅用于单个模态的每个Re-ID。没有针对跨模态行人检索的特定设计。可见红外人Re-ID。可见光和红外图像的巨大差异使得VI-REID具有挑战性3.1. 融合情态生成模块在本节中，我们构建了自我生成的融合模态，这在随后的表征学习和度量学习中很重要。首先，我们表示输入可见光图像和红外图像作为{vn|vn∈V}N和任务吴等[27]首先定义了VI-REID问题和Nn=1贡献一个新的多模态Re-ID数据集SYSU-MM 01用于研究。同时，他们设计了一个单流深度零填充框架，以自动探索网络中的特定领域结构。之后，Ye等人。 [38]利用双向顶级损失来处理模态差距。Dai等人。 [4]引入了一种具有对抗学习的单流网络，以与表示学习竞争以提高性能。此外，Ye等人。 [35]提出了动态双注意力聚集（DDAG）学习，以挖掘VI-REID的模态内部分级别和跨模态图形级别的上下文线索。然而，上述方法中的跨模态表示难以映射到一致空间中，从而限制了性能。为了缓解模态差距，开发了大量基于图像翻译的方法，首先实现模态统一，然后学习模态共享表示。D2RL[25]利用变分自动编码器在可见光和红外模式之间转换图像.然后，他们结合任意模态的人的图像和生成的异构图像作为多光谱图像，以减少外观差异。 Wang等人 [22]仅执行从可见光到红外模态的单向转换，并使用从RGB图像生成的真实红外图像和假红外图像进行表示学习。Hi-CMD [3]试图捕获用于跨模态人物检索的ID判别和颜色无关表示。此外，辅助X模态[13]和灰度增强模态[37]提出了更好地弥合与三模态学习的模态差距。然而，这两个自我生成的模态的学习表示接近可见模态数据，但远离红外模态数据，从而影响度量学习的能力。3. 该方法其中，N是小批量中的可见图像和红外图像的数量。异质意象被发送到由两个11卷积层组成的轻量级网络中。特别地，我们进行像素到像素的特征融合操作以在第一卷积层之后构建融合模态，其可以表示为：Sn=VnIn，n∈[1，N]，（1）其中特征映射SRC×H ×W，VRC×H×W，IRC×H ×W，C为通道总数，H W是特征图大小。 ““表示Hadamard乘积运算。然后，提供ReLU激活层[12]以提高融合模态表示的非线性能力。与第二在卷积运算中，融合模态的特征大小与红外和可见光图像的特征大小一致，使得它们可以被发送到参数共享CNN用于三模态可共享特征学习。所构建的融合模态图像保持了空间信息和行人结构信息。重要的是，它们保留了可见和红外图像的表示，而不仅仅是X模态[13]和基于灰度模态的方法[37]中的可见图像。3.2. 挑战增强同质性学习为了获得模态可共享的身份鉴别表示，我们引入CEHL以在一致空间上投影跨模态表示。通过CNN、全局平均池化（GAP）和批量归一化（BN）操作，特征向量被馈送到完全连接的层中以进行身份分类。Softmax损失通常用于大多数人的Re-ID方法中用于区分性表示学习。由于可见图像和融合图像具有丰富的颜色信息，可见表示的softmax损失可以定义为：在本节中，我们将详细介绍拟议的1L=−Σlogn=1eYN N、u=1e nu（二）idNΣUWTfV融合模态生成模块（SMGM）其中y_n和f_V是n的单位向量和特征向量。轻量级网络，然后利用挑战增强同质性学习（CEHL）获得模态共享表示。此外，辅助分布式相似性学习（ADSL），以缩小跨模态的差距。最后，增量训练（IT）策略被引入到约束的异构图像的特征分布从粗到细。其中，N是小批量中可见图像的数量，U是身份的数量，Wu是第u个身份的分类器。融合特征S的softmax损失可以用相同的形式表示。在softmax损失的监督下，网络可以从可见和融合图像中学习显着的模态不变表示VI-REID融合模态协作学习模型如图2所示，我们首先提出228SLLKK我ΣUP×vID·IDIDSK k=1Kun+Σmax[（ρ+d（cp，cp）−mind（cp，cj）），0]，IDN我YNN可见光图像重量分担间隙BNV×idfVS三中心+全球红外图像Ⓢ融合情态生成模块重量分担间隙fS间隙fIBN ×BN×+WSid辅助分布相似性学习I增量id培训M挑战增强同质性学习图2.该模型包含融合模态生成模块、挑战增强同质性学习、辅助分布式相似性学习和增量训练策略。通过融合模态生成模块生成的融合特征利用可见光和红外图像进行模态共享特征学习。对于CEHL，利用改进的身份损失（LV，LS，LI）来增强嵌入特征的区分能力。对于ADSL，三向基于中心的约束损失（三中心）和全局中心约束损失（全局）被集成以处理跨模态间隙。最后，采用信息技术策略对特征分布进行由粗到细的约束，提高训练效率。然而，VI-REID的关键挑战主要在于红外和可见光图像之间缺乏均匀的表示。具有标准softmax损失的分类器对红外图像的辨别能力较弱。到增强身份分类器的能力，我们增加了分类器的难度，并设计了一个证明softmax损失，其可以用公式表示为：融合模态中身份的特征分布中心可以表示为：其中sp是第k个图像输出L=−1Σ日志eWTfI−m、（3）eWTfIu=1从GAP我们引入了一种基于三向中心的约束损耗来处理锚点和其他模态的中心，可以解释为：其中m是困难度。手动压力刺激网络进一步学习特定于身份的fea。=Σmax[（ρ+d（cp，cp）−mind（cp，cj）），0]为正确分类。同时，在训练阶段加入合成情态带来了更多的情态共享信息，从而促进了类内的跨类学习.三中心p=1个Ps v s sp/=j模态相似性挑战增强的同质性学习中的整体同一性损失可以写为：p=1SIp/=jS s（六）V SILid=Lid+Lid+ Lid。（四）3.3. 辅助分布相似性学习为了提高跨模态的类内相似度和扩大模态内的类间差异，考虑到三种模态的相关性，设计了基于三向中心的约束损失和全局中心约束损失。我们利用融合模态中的特征分布中心作为锚点。如图3所示，假设在小批量中存在P个身份的P个K个图像，其中每个身份包含K个图像。其中CP和CP是第p个标识的可见和红外特征的中心，p和j表示小批量内的不同标识。d（）表示两个中心之间的欧几里得距离。我们的目标是拉近同一身份的不同模态中心之间的距离，并推开不同身份的融合模态中心，从而抑制跨模态变化，同时确保高辨别力。此外，为了避免陷入局部最优与融合模态的中心作为锚，我们采用了一个MMMSSSNn=1229联系我们L--LvL我2PID 1ID pID P推开拉近图3.辅助分布式相似性学习的图示，其包含基于三向中心的约束损失（实线）和全局中心约束损失（虚线）。不同的颜色和几何形状分别表示不同的模态和圆表示身份的模态的特征分布的中心全局中心约束损失，以直接约束可见光和红外特征之间的中心距离，其可以被公式化为：Lglobal= Σcp− cp。（七）p=1算法1SMCL模型输入：可见图像集V=v1，...，v n，红外图像集I=i1，…in，标签集Y=y1，...，yn，总训练时期T，协作学习的开始时期Q，参数m、ρ和λ;1：对于t= 1至T，do第二章：生成融合特征图S，通过等式(1)3：从主链输出fV、fS和fI4：计算身份损失通过Eq.(4)5：如果t Q，则6：更新CEHL的参数θid7：其他8：根据等式（1）计算adsl(8)9：根据等式计算总数。 (9)10 ：更新CEHL的参数θ id11：更新ADSL的参数θadsl12：如果结束十三：端输出量：所提方法ADSL缩小了特征距离，增强了跨模态类内表示的相似性。所提出的IT策略可以处理由粗到细的异构图像的分布，从而增强了异构图像的分辨率。嵌入特征的犯罪性。对于同一身份的特征，我们不仅以融合情态特征为中介促进跨情态分布相似性，而且增加了对异质图像的直接限制;对于不同身份的特征，利用融合模态的中心来扩大特征距离。ADSL中的总损耗可以写为：Ladsl=Ltricenter + Lglobal。（8）我们的SMCL模型的总损失可以表示为：L总=Lid + λLadsl。（九）3.4. 增量式培训策略大多数人识别方法联合使用表示学习和度量学习来获得有效的特征进行人匹配。然而，在初始状态下，异质图像具有随机分布。联合训练可能会导致两种学习方式的梯度下降方向不一致，从而影响训练效率。为了提高训练效率并最大限度地优化目标函数，我们提出了一种增量训练（IT）方案，如算法1所示。在训练的初始阶段执行的CEHL粗聚类相同的脚trian的特征，和随后的CEHL的协作学习4. 实验4.1. 数据集和设置数据集。为了评估所提出的方法的性能，我们在两个公共的跨模态人Re-ID数据集上进行实验，即。[27]和RegDB [19]。SYSU-MM 01 [27]由4个可见光摄像机和2个红外摄像机捕获的491个身份的44，745个异构行人图像组成。训练集中有395个身份的22，258个可见光图像和11，909个红外图像。在测试阶段，采用红外和可见光图像作为查询集和图库分别设置。搜索模式包括全搜索模式和室内搜索模式。对于这两种模式，我们采用单次拍摄和多次拍摄设置来评估性能。RegDB [19]包含由双相机系统获取的412个身份的4120张图像。每个人包括10个可见光图像和10个热图像。我们遵循[38]中的评估方案。为了获得统计学上稳定的结果，重复该程序10次试验以计算平均性能。采用标准累积匹配特征（CMC）曲线和平均平均精度（mAP）作为评价指标。实作详细数据。该方法在两个TITAN RTX GPU上使用PyTorch框架实现。采用ImageNet可见合一红外C1vC1SC1我CPvCPSCipCPvCPSCP我……23063.7964.5262.3459.8263.4460.5860.8660.23六十三61.7859.6283.0581.4582.2381.9978.5778.1478.4476.8477.7279.9576.2574.21×××××82表1.所提出的方法在两个数据集上的不同组件。排名1的CMC（%）和mAP（%）。BCEHLADSL它SYSU-MM01RegDBr=1地图r=1地图CCcCC×CC×C×C××C×57.0059.9763.1667.3955.4956.0159.9261.7875.7777.5280.6383.0570.5273.4073.8578.57r=1地图6867.39666462605856540 1 2 3 4 5表2.两种不同辅助模式的性能数据集。排名1的CMC（%）和mAP（%）。8480787674727068mr=1 mAP作为骨干网络，并将最后一个卷积块的步长修改为1。对于一个训练批次，我们随机选择4个人的异构图像。每个标识包含4个红外图像和4个可见图像。所有图像的大小调整为3 384128. Adam优化器利用基本学习率初始化为3。5 10−4，然后衰变为3。5 10−5，3。分别在40、70个历元之后的510−6在SYSU-MM 01数据集上，经过220个epoch，共300个epoch，我们利用CEHL和引入ADSL进行协同学习。对于RegDB数据集，我们用总共 200 个 epoch 训练模型，并在 120 个 epoch 后引入ADSL。参数λ和ρ分别设定为0.5和0.3。在测试阶段，我们利用余弦相似性来衡量异质特征的距离4.2. 消融研究各组成部分的有效性。我们在表1中的SYSU-MM 01和RegDB数据集上评估了每个组件的性能。与利用SMGM和标准softmax损失进行表示学习的基线模型（B）相比，CEHL的mAP在SYSU-MM 01和RegDB数据集上分别增强了0.52%和2.88%。因此，困难度m可以有效地促进区分性特征学习。当我们从头开始同时执行CEHL和ADSL时，在SYSU-MM 01数据集上，rank-1精度和mAP分别提高了3.19%和3.91%。因此，ADSL可以进一步缩小跨模态差异，增强网络的识别能力。最终，在引入IT策略后，我们在两个数据集上实现了61.78%和78.57%的最高mAP，这表明了我们的IT策略的有效性。融合方式的有效性。为了验证所提出的融合模态的优越性，我们用从可见图像生成的X模态[13]和灰度模态[37]在0 1 2 3 4 5M图4. SYSU-MM 01（顶行）和RegDB数据集（底行）上CEHL中不同m的比较。排名1的CMC（%）和mAP（%）。此外，“无”意味着CNN的输入是可见光和红外图像，而没有来自其他辅助模态的图像。比较结果报告于表2中。在SYSU-MM 01数据集上，无辅助模态的方法的mAP比有辅助模态的方法至少低4.64%。因此，辅助模态可以诱导模态共享表示的生成。在SYSU-MM 01数据集上，灰度模态的性能高于X模态，证明灰度模态图像比X模态图像更有助于网络在一致空间上映射更多的异质特征。相反，对于RegDB数据集，X模态比灰度模态更有效。与SUSU-MM 01数据集上的灰度模态相比，所提出的融合模态方法将rank-1准确率提高了3.16%，并且与 RegDB 数据集上的 X 模态相比，将 mAP 提高了5.57%。因此，我们的融合模型可以有效地结合可见光和红外图像的模态共享表示学习。不同裕度m的评价。建议的CEHL中的余量影响表示学习中分类的难度。我们将m从0变化到5，并在图4中报告了两个数据集的性能比较。对于SYSU-MM 01数据集，当m设置为4时，我们实现了最高的mAP和rank-1准确度。由于SYSU-MM 01数据集上的行人图像具有由光照和身体姿势引起的较大的模态内和跨模态差异，因此有必要增加身份分类器的分类难度以促进区分性特征学习。对于RegDB数据集，由双目相机拍摄的异质行人图像具有较小的类内差异。因此，良好的性能-辅助情态SYSU-MM01RegDBr=1地图r=1地图没有什么57.5854.6978.4976.89X模态62.3459.3379.4673.00灰度模态64.2360.8874.3669.41融合模态67.3961.7883.0578.57231×表3.度量学习中计算成本的比较积极负Lbh triLbdtrLbicenterLhc triLadsl2PK×（2K − 1）2PK×K + 2PK×（K−1）2PK2个P2P +P2PK× 2（P−1）K2PK× 2（P−1）K2PK×（P −1）2P× 2（P −1）P×（P −1）表4.度量学习中rank-1（%）、mAP（%）和训练时间的比较初始CEHL秩-1地图训练时间Lbh tri61.5359.130.35Lbdtr59.0856.630.35L双中心60.5057.090.34Lhc tri61.2957.860.33宽带adsl67.3961.780.33CEHL + ADSL分类难度稍有增加就可以获得管理，而难度大了，性能就会下降。最后，我们在RegDB数据集上将m设置为14.3. 度量学习我们比较我们的ADSL的计算成本与其他指标的学习方法VI-REID。 L bh三代表大多数VI-REID方法中使用的批次硬采样[4，31，36]。Lbdtr是指在BDTR[38]和HSME [7]中利用的双重约束顶级损失我们还比较了样本中的L双中心与基于中心的方法[34]和中心中的L hctri与基于中心的方法[16]。假设一个小批量由P个身份的P个K个图像组成，计算成本如表3所示。对于基于样本到样本的方法，L bdtr同时约束跨模态和模态内差异，其具有令人鼓舞的性能但计算消耗高。L双中心和L hctri不需要计算样本与样本之间的距离，从而大大降低了计算成本。在我们的ADSL方法中，融合模态的特征中心被视为锚点。因此，改进的三元组损失L adsl被设计为计算不同身份的融合模态的特征中心之间的成对距离，与上述方法相比，其实现了最低的计算成本。而且，如表4所示，由于GPU的快速矩阵运算，ADSL和其他方法的训练时间差不多。然而，我们的性能在很大程度上优于他们，这验证了我们的方法的有效性。4.4. 与最先进方法的在本节中，我们将我们的方法与两个公共数据集上的尖端VI-REID方法进行比较。SYSU-MM 01数据集的比较。我们的模型在SYSU-MM 01 数据集上实现了 67.39% 的 rank-1 和 61.78% 的mAP。如表5所示，对于具有单流网络的基于特征学习的方法（[27]，[4]，[30]，[26]，[6]，[7]，[8]，[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16]，[17]，[18]，[19]，[1图5.跨模态阳性样本和模态内阴性样本之间的余弦距离的分布。[36]，[13]，[32]，[37]），所提出的方法表现出令人鼓舞的性能，在全搜索单次模式下，其在秩-1准确度上至少优于它们12.1%，在mAP中至少优于它们7.89%。因此，我们的SMCL模型可以捕获更多的模态共享和歧视性的功能比其他单流网络为基础的方法。此外，与基于双流网络的方法（[33]，[38]，[34]，[7]，[31]，[35]），我们的方法在秩-1中超过DDAG12.64%，在mAP中超过DDAG 8.76%。特别地，对于前者最好的方法cm-SSFT，我们比较了它的性能与单查询（SQ），这是广泛使用的大多数方法。我们的方法的rank-1准确度和mAP分别比cm-SSFT高19.69%和7.68%。此外，SMCL还将所有查询（AQ）搜索模式下的rank-1提高了5.79%，这验证了所提出的方法的优越性。对于那些基于图像生成的方法（[25]，[3]，[23]，[22]），我们从轻量级网络中生成的融合模态可以有效地将异构图像映射到公共空间上，因此我们的性能大大超过他们。RegDB数据集上的比较。为了证明我们的方法的有效性和鲁棒性，我们在不同的查询设置上进行实验，以与表6中的最先进的方法进行比较。在可见热查询设置下，我们的方法在秩-1准确度和mAP方面比最好的前一种方法SIM [9]高9.46%和4.54%。此外，在热查询设置为可见查询设置时，rank-1和map的改进分别为7.81%和0.27%。因此，我们的SMCL模型对不同的查询设置是鲁棒的，并且可以更好地缩小异质图像的特征分布。4.5. 可视化分析我们可视化跨模态阳性样本和模态内阴性样本的余弦距离分布，特征距离交叉阳性内阴频率232表5.与SYSU-MM 01数据集上的最新方法进行比较排名r的CMC（%）和mAP（%）。方法全搜索室内搜索单发多激发单发多激发r=1 r=10R=20地图r=1 r=10R=20地图r=1 r=10R=20地图r=1R=10R=20地图[27]第二十七话14.80 五十四点一二71.3315.9561.40美元78.4110.8920.58 六十八点三八85.7926.9224.4375.8691.3218.64[33]12.52 五十块七十二68.6014.42- ---- -------BDTR [38]17.01 五十五点四三71.9619.66- ---- -------[34]第三十四话27.82 六十七点三四81.3428.42- ---32.46 七十七点四二89.6242.46----D-HSME [7]20.68 六十二点七四77.9523.12- ---- -------cmGAN [4]26.97 六十七点五一80.5627.8031.49 72.7485.0122.2731.63 七十七点二三89.1842.1937.0080.9492.1132.76[25]第二十五话28.90 70.6082.4029.20- ---- -------MAC [31]33.26 七十九点零四分90.0936.22- ---33.37 八十二点四九93.6944.95----Hi-CMD [3]34.94 七十七点五八-35.94- ---- -------JSIA-ReID [23]38.1 80.789.936.945.1 85.793.829.543.8 86.294.252.952.791.196.442.7[30]第三十话38.57 七十六点六四86.3938.6144.71 69.8277.8732.20- -------AlignGAN [22]42.4 85.093.740.751.5 89.495.733.945.9 87.694.454.357.192.797.445.3FMSP [26]43.56 七十四点六一86.2544.98- ---48.62 七十九点零一89.5057.50----DFE [6]48.71 88.8695.2748.5954.63 91.6296.8342.1452.25 八十九点八六95.8559.6859.6294.4598.0750.60AGW [36]47.50--47.65- ---54.17--62.97----XIV-ReID [13]49.92 89.7995.9650.73- ---- -------MACE [32]51.64 八十七点二五94.4450.11- ---57.35 九十三点零二分97.4764.79----DDAG [35]54.75 九十点三九95.8153.02- ---61.02 九十四点零六分98.4167.98----HAT [37]55.29 九十二点一四97.3653.89- ---62.10 九十五点七五99.2069.37----cm-SSFT [17]平方47.7--54.157.4--59.1- -------AQ61.6 89.293.963.263.4 91.295.762.070.5 94.997.772.673.096.399.172.4我们的（SMCL）67.39九十二点八十七96.7661.7872.1590.6694.3254.9368.84九十六点五五98.7775.5679.5795.3398.0066.57表6.与RegDB数据集上最先进的方法进行比较。排名1的CMC（%）和mAP（%）。方法可见到热热至可见光r=1地图r=1地图[27]第二十七话17.7518.9016.6317.82[33]16.8714.9213.8616.98BDTR [38]33.4731.8332.7231.10[34]第三十四话34.6233.4634.2132.49D-HSME [7]50.8547.0050.1546.46[25]第二十五话43.444.1--MAC [31]36.4337.0336.2036.63Hi-CMD [3]70.9366.04--JSIA-ReID [23]48.549.348.148.9[30]第三十话66.4867.3167.4566.51AlignGAN [22]57.953.656.353.4FMSP [26]65.0764.50--DFE [6]70.1369.1467.9966.70AGW [36]70.0566.37--XIV-ReID [13]62.2160.18--MACE [32]72.3769.0972.1268.57DDAG [35]69.3463.4668.0661.80SIM卡[9]74.4775.2975.2478.30HAT [37]71.8367.5670.0266.30cm-SSFT [17]平方65.465.663.864.2AQ72.372.971.071.7我们的（SMCL）83.9379.8383.0578.57我们的SMCL模型的不同组件的PLE。如图5所示，在初始状态下，负样本之间的差异小于正样本之间的差异。随着CEHL和ADSL的加入，通道内负样本的差异性逐渐大于跨通道正样本的差异性。引入IT策略后，两个分布之间的距离略有增加。因此，我们的方法233能有效地扩大负样本之间的距离，减少正样本之间的差异，从而提高检索精度。5. 结论在本文中，我们提出了一种新的融合模态协作学习（SMCL）模型来学习模态不变的身份鉴别表示VI-REID。融合模态的自生成特征保留了可见光和红外图像的重要信息，这可以引导网络将异构图像投影到公共空间上，挑战增强的同质性学习和辅助的分布式相似性学习。在SYSU-MM 01和RegDB数据集上的大量实验证明了我们的SMCL模型的优越性能。致谢这项工作得到了中国国家自然科学基金的部分资助。 61976166 、 62036007 、 61772402 、 62050175 、61922066和61876142，部分由陕西省重点研发计划（2021 GY-030）资助，部分由陕西省创新能力支撑计划（2020 KJXX-027）资助，部分由中国陕西省大学科学技术协会青年人才基金（20180104）资助，部分由JB 210115中央高校基础研究基金资助，部分由西安电子科技大学创新基金资助。234引用[1] 陈天龙、丁少金、谢静怡、叶远、陈武扬、杨阳、周仁、王张扬。ABD-Net：细心但多样化的人重新识别。在ICCV，2019年。[2] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四人网络，用于人员重新识别。在CVPR，第403[3] Seokeon Choi、Sumin Lee、Youngeun Kim、TaekyungKim和Changick Kim。Hi-cmd：用于可见红外人员再识别的分层交叉模态分解在CVPR中，第10257-10266页[4] Pingyang Dai ， Rongrong Ji ， Haibin Wang ， QiongWu，and Yuyu Huang.跨模态的人重新识别与生成对抗训练。在IJCAI，第1卷，第2页，2018年。[5] Zhanxiang Feng，Jianhuang Lai，and Xiaohua Xie.学习用于可见红外人员重新识别的特定模态表示IEEETransactions on Image Processing，29：579[6] Yi Hao ， Nannan Wang ， Xinbo Gao ， Jie Li ， andXiaoyu Wang.双对齐特征嵌入，用于跨模态个人重新识别。在ACM MM，第57-65页[7] Yi Hao ， Nannan Wang ， Jie Li ， and Xinbo Gao.Hsme：用于可见热人体再识别的Hy-persphere流形嵌入在AAAI，第33卷，第8385[8] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为重新鉴定人员而定义三重丢失。arXiv预印本arXiv：1703.07737，2017。[9] Mengxi Jia，Yunpeng Zhai ，Shijian Lu ，Siwei Ma ，and Jian Zhang.用于rgb-红外交叉模态人再识别的相似性推断度量在IJCAI，第1026- 1032页[10] Jiening Jiao ， Wei-Shi Zheng ， Ancong Wu ， XiatianZhu，and Shaogang Gong.深度低分辨率人员再识别。在AAAI，第32卷，2018年。[11] Vladimir V Kniaz、Vladimir A Knyaz、Jiri Hladuvka、WalterGKropatsch和VladimirMizginov。Thermalgan：用于多光谱数据集中人员重新识别的多模态颜色到热图像转换。在ECCV，2018。[12] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络进行Imagenet分类。神经信息处理系统进展，25：1097[13] Diangang Li，Xing Wei，Xiaopeng Hong，and YihongGong.红外-可见光交叉模态人员再识别与x模态。在AAAI，第34卷，第4610[14] Shengcai Liao and Stan Z Li.有效的psd约束非对称度量学习，用于人员重新识别。在ICCV，第3685-3693页[15] Fangyi Liu和Lei Zhang。查看混淆特征学习，以便重新识别人员。在ICCV，第6639[16] Haijun Liu，Xiaoheng Tan，and Xichuan Zhou.用于可见-热人体再识别的参数共享探索和异中心三重丢失IEEE Transactions on Multimedia，第1-1页[17] Yan Lu，Yue Wu ，Bin Liu，Tianzhu Zhang ，BaopuLi，Qi Chu，and Nenghai Yu.跨模态人员重新识别与共享特定功能转移。在CVPR，2020年。[18] Tetsu Matsukawa，Takahiro Okabe，Einoshin Suzuki，and Yoichi Sato.用于人员再识别的分层高斯描述符在CVPR，第1363-1372页[19] Dat Tien Nguyen，Hyung Gil Hong，Ki Wan Kim，andKang Ryoung Park.基于可见光和热成像相机的人体图像组合的人识别系统。传感器，17 （3 ）： 605 ，2017。[20]

下载后可阅读完整内容，剩余1页未读，立即下载