没有合适的资源?快使用搜索试试~ 我知道了~
16403一ed基于模态混淆和中心聚合的辛浩1,孙元赵1,芒叶e2,沈建兵31北京理工大学计算机学院,北京,中国2武汉大学计算机科学学院,武汉,中国3计算机与信息科学系智慧城市物联网国家重点实验室澳门大学,中国网址:haoxin@bit.edu.cn,yemang@whu.edu.cn摘要跨模态人员重新识别是一项具有挑战性的任务,由于大的跨模态差异和模态内的变化。目前,大多数现有的方法集中在学习模态特定的或模态共享的功能,通过使用身份监督或模态标签。与现有方法不同,本文提出了一种新的模态混淆学习网络(MCLNet)。其基本思想是混淆两种模态,确保优化明确地集中在模态无关的角度。具体地,MCLNet被设计为通过同时最小化模态间差异同时最大化单个框架中的实例之间的跨模态相似性来学习模态不变特征。Confus d模态?(a) 情态混淆此外,身份感知的边缘中心aggrega-(b) 身份感知(c) 摄像头感知在保持多样性的同时,引入边缘约束策略提取集中最后,我们设计了一个摄像机感知的学习方案,以丰富的可辨别性。在SYSU-MM 01和RegDB数据集上的大量实验表明,MCLNet的性能大大优于最先进的技术。在大规模的SYSU-MM 01数据集上,我们的模型可以达到65.40%和Rank-1准确率和mAP值为61.98%。1. 介绍人员重新识别(ReID)是一种使用计算机视觉技术来确定是否存在来自由监视相机捕获的图库集合的特定人员的技术[17]。它在计算机视觉领域的研究和应用都得到了越来越多的关注。然而,有相对较少的工作关注可见光图像和红外图像之间的ReID* 通讯作者:莽野图1. 创意说明。(a)是情态混淆的学习过程。在此之后,这两种模态很难被正确分类,缩小了模态差异。(b)以及(c)是用于个人ID和相机ID预测的设计的身份感知和相机感知的边缘约束中心聚合。这种跨模态可见-红外人员重新识别(cm-ReID)[40]问题也是夜间监控应用中的重要问题与广泛研究的单模态ReID [5,52]相比,cm-ReID更具挑战性,因为两种模态和不同相机环境之间存在较大的视觉差异。为了缩小两种模式之间的差距,现有方法主要集中在通过一个[37,40]或两个流网络[45,9]学习可共享的共同特征表示。[15]设计频谱消除支路,消除频谱的影响。此外,一些方法生成公共中间模态[16]以消除模态差异引起的影响类似的方法采用GAN技术[10]来生成用于人员匹配的跨模态图像然而,Gen-方式B模态!模态16404产生共同模态或产生交叉模态图像不可避免地伴随有噪声。更糟糕的是,生成的图像大大增加了计算负担,并为跨模态学习增加了更多的不确定性,限制了实际模型部署的适用性。为了解决上述限制,我们提出了一种新的端到端模态混淆学习网络(MCLNet),其目的是学习模态不变的功能。我们的网络既不需要输入的先验信息,也不产生额外的子空间特征,这确保了输入信息的最大化,而没有额外的噪声。其基本思想是混淆特征学习过程中的情态识别,使优化明确地集中在情态无关的视角上(图10)。1(a))。MCLNet通过最小-最大博弈最大限度地减少模态间差异,同时最大限度地增加实例间的跨模态相似性[27]。结合部分共享的双流网络,我们的MCLNet可以同时学习模态特定的功能和提取模态不变的功能。该方法以混淆学习的方式实现了模态混淆和一般跨模态特征学习之间的平衡此外,我们引入了一个身份感知的边缘中心聚合策略,以加强对模态差异的表示不变性(图2)。(b)款。其基本思想是约束两种模态中属于相同身份的样本是不变的在鼓励提取集中特征的同时,引入了边缘这保持了特征的多样性,但它大大增强了泛化能力。此外,基于在完全不同的相机环境中捕获人图像的观察,我们进一步整合了相机感知的边缘中心聚合方案(图1B)。1(c))。该组件充分利用摄像机标签,捕获学习表示的摄像机特定信息。该约束增强了针对相机变化的鲁棒性。所提出的组件可以很容易地集成到其他先进的学习模型。我们的主要贡献可概括如下:我们提出了一种新的模态混淆学习网络(MCLNet)的cm-ReID。它是一种有效的学习结构,以提取模态无关的表示,加强了学习的表示对模态变化的鲁棒性。我们引入了一个身份感知的边缘约束中心聚合策略。该算法在提取集中化特征的同时,保持了特征的多样性,并在边缘约束条件下提高了特征的泛化能力.我们设计了一个摄像机感知学习方案,该方案应用摄像机标签监督,通过摄像机感知表示来丰富可辨别性。大量的实验结果表明,我们的新框架优于国家的最先进的方法在两个cm-ReID数据集。2. 相关工作2.1. 单模态人员重新识别单模态人物再识别的目的是匹配白天不同相机拍摄的人物图像,而所有图像都来自相同的可见模态。现有的工作已经在深度学习技术的广泛使用的数据集上显示出理想的性能[50,18,58,14,32,2,59,20]。一些方法提出将人员重新识别作为排名问题来解决[25,3]。一些方法知道局部信息和全局信息[35,31,30,53],当它们结合时可以提高性能。此外,[59,5,36,42,53]着重于设计的损失函数for deep深learning学习. [51,4,54,41]利用注意力信息来增强表征学习。一些方法尝试使用域自适应方法[57,8]来解决人的重新识别问题然而,在实际应用中,大多数摄像机在白天和晚上在可见光和红外线之间切换模式。由于大的跨通道差异,单一通道解决方案不再胜任cm-ReID任务,导致泛化性能差。2.2. 跨模态人员重新识别为了减少跨模态差异,[40]建议 深度零填充网络,以提取有用的嵌入特征。双流网络[45,47,44,46]可以学习模态共享特征和模态特定信息。[26]应用基于双高斯的变分自动编码器,以解开身份可辨别和身份模糊的跨模态特征子空间。[19]提出了一种跨模态共享特定特征传递算法,以探索模态共享信息和模态特定特征两者的潜力。[13]利用模态内样本相似性来规避跨模态图像匹配。模态感知学习方法[43]在分类器级别处理模态差异[16]设计了一个辅助的X-模态,以减轻模态差异的影响。生成式对抗网络已在cm-ReID中采用,通过生成数据来减轻模态差异。[37]从两个不同模态图像生成交叉模态图像,并将生成的图像和真实图像组合以产生混合的多光谱图像。端到端对齐生成对抗网络[33]联合利用像素对齐和特征对齐。[7]应用GAN来处理缺乏足够的判别信息和大规模跨模态度量学习的问题。[34]生成跨模态配对图像并执行全局集合级和细粒度实例级对准。16405情态混淆学习e实模态标签ti00更新图%0111×共享Mm权重e特征图0.50.50.5更新0.5e0.50.5混淆的模态标签身份感知的边缘中心聚合y1y2y4y3标识标签摄像头感知边缘中心聚合R1R2R4r3fcca相机标签ri图2. 模态混淆学习网络(MCLNet)的图示。跨模态图像被馈送到特征提取器中,该特征提取器通过混淆学习机制混淆模态反馈我们还采用了身份感知和相机感知的边缘中心聚合策略,通过使用身份和相机标签(具有相同颜色的标签意味着它们具有相同的人ID,而具有相同形状的标签意味着它们具有相同的相机ID)来进一步增强可辨别性。不同的是,我们提出了一个模态混淆学习网络,它可以通过最小化模态间差异,同时最大化实例之间的跨模态相似性来学习模态不变特征。与上述方法相比,该方法不需要生成跨模态图像,同时考虑了模态鲁棒性特征。此外,我们的方法只使用全局特征来实现最佳性能。3. 该方法模态混淆学习网络(MCLNet)由三个主要组件组成,如图所示。二、 它是在部分共享的双流网络之上设计的,用于模态不变特征学习(§3.1)。首先,模态混淆学习模块混淆了模态辨别反馈,以获得更好的模态无关属性(§3.2)。然后,我们提出了一种身份感知的边缘中心聚合策略(§3.3)来改进身份集中式表示学习。最后,通过利用相机标签信息来学习相机感 知 表 示 , 提 出 了 相 机 感 知 边 缘 中 心 聚 合 约 束(§3.4)3.1. 特征提取器我们采用了一个通用的人ReID框架,名为AGW[47],作为我们的基线。我们的特征提取器是一个双流网络,连续提取模态特定和模态共享的功能。具体地,为了处理两种异构模态的差异,在第一卷积块中,可见光和红外图像被独立处理,旨在学习低级特征。之后,两个流的以下四个块共享参数并共同提取高维特征这种架构受益于一个统一的结构,同时捕获的跨模态的信息,并产生共同使用的功能,可以在我们的单一框架处理。3.2. 情态混淆学习从基线,提取的特征可以取决于模态,诸如颜色或光谱。因此,可见光和红外样本具有不同的特征分布,并且将不能很好地对准以进行比较。为了减少可见光和红外图像之间的差异,我们的然而,“普通”并不等于“有用”。如果我们在训练过程中仅仅对样本模态进行神秘化,网络可能会专注于琐碎的特征而忽略不同人的特定特征,这导致有用信息收集的失败。考虑到这两点,我们设计了一个混淆学习机制,通过最小最大博弈来最小化通道间差异和最大化通道间相似性。因此,在学习与模态无关的特征时,网络被约束为拾取辨别性分量以预测人的身份。与现有的利用GAN [7,37,33,34]通过生成跨模态图像在模态之间转移样本域的方法不同,我们将混淆学习应用于164062LLMMNi=1 我MXiMeCNi=1Xiyi2eeNi=1我MXieM我Σ用于欺骗网络使其混淆可见模态与红外模态的机制。该机制避免了生成的交叉模态图像的质量差和噪声的风险,并且直接对两种模态的嵌入进行操作。具体来说,我们的目标是实现一个混乱的模态分类器不能区分输入图像的模态。形式上讲,对于每个样本图像xi,存在身份标签yi、真实模态标签ti和混淆模态标签〇i。具体地,我们使用二维向量来定义独热模态标签。对于每个输入样本xi,真实模态标签ti对于可见图像被设置为[1,0],并且对于红外图像被设置为[0,1]对于混淆的模态标签01,对于来自两个不同模态的所有样本,其被设置为[0.5,0.5]。我们的模态混淆学习需要两个组成部分:特征提取器和模态混淆模块M。我们用参数θm表示M作为模态融合模块(MCM)。它本质上是一个两层分类器,其目的是准确地将输入图像区分为特定的模态。是的对于具有提取的特征fxi的样本xi,M输出模态预测概率pm(fxi),并且我们将其与真实模态标签ti进行比较。M的损失函数可以用公式表示为:标准差(a) (b)身份感知边缘中心聚合图3. (a)中心损失与(b)身份感知边缘中心聚合之间的比较。不同的颜色代表不同身份的嵌入特征。σ是用于裕度的预定义超参数。在优化过程中,每个步骤都会更新一个模块,而另一个组件将被固定[18]。该策略将确保网络以正确的梯度更新。我们的目标是,特征提取器提取的嵌入不能正确地分类到相应的模态,实现模态混淆。3.3. 身份感知的边缘中心聚合1ΣNL(θ)=−t·logp(f,θ;θ),(1)与单模态人员重新识别类似,cm-ReID中的人的外观也容易受到以下因素的影响其中N表示批次中的样本编号,xi是第i个输入样本。 给定学习的特征提取器θ e和模态分类器θ m,样本xi被正确分类的概率由Pm(fxi,θm;θe)表示,由softmax函数归一化。特征提取器的目的是提取模态不变的和有区别的特征。类似地,我们构造具有参数θe的E以充当特征提取器。为了实现模态混淆,我们比较了前特征提取器的指定概率服装,规模,屏蔽,态度和观点[49,29],这使得ReID任务更加困难。为了处理这个问题,大多数现有方法采用中心损失[21]来同时学习每个类别的中心以进行特征嵌入,并惩罚样本与其对应类别之间的距离。中心损失[38]可以表示为:L=1ΣNf−c,(4)模态标签损失函数可以表示为:1NL(θ)=−o·logp(f,θ;θ),(2)其中xi表示第i个输入样本,cy是第yi个类中心,f xi是由特征提取器提取的嵌入。首次将中心损失法应用于人脸识别中。[38]并取得了良好的效果。的在训练阶段,我们交替地更新θm和θe,直到它们达到平衡。θe表示特征提取器,其旨在通过使特征分布尽可能相似来最大化模态混淆模块的损失。θm表示模态混淆模块,旨在最小化模态分类器的损失,以帮助网络区分模态。θm和θe可以优化如下:L(θm,θe)=Lm(θm)+Le(θe)主要原因是人脸具有很强的中心性。然而,人的特征受到许多因素的影响,特别是当cm-ReID遭受大的跨模态差距时。严格地集中来自两个模态的相同身份的图像将牺牲不同个体图像的多样性,导致测试集上的有限的泛化能力。考虑到这一点,我们提出了一个身份意识的边缘C进入A的ggregation策略(ICA)提取集中的特征温和,并考虑到歧视性的信息。θm=argmin(θm,θe)θmθe=argmin(θm,θe).θe(三)如图所示3、每一种颜色都对应着一定的身份。中心损失将所有样本都拉近相应类别的中心(图1)。3(a))。不同的是16407R1CC2O22yi2O22RiLLXiyi2yi2CCANXii=1Ri2Ri2特奥我我ICA将相同身份的特征约束在一定范围内(图11)。第3(b)段)。 应用约束裕度σ以确保属于同一类的样本不太靠近中心,防止特征过拟合到特征中心,以适度地保持身份描述的多样性,即使在不同的模态中。这种多样性可以为网络提供更多的样本特定信息,以区分不同的人身份。ICA鼓励相同身份的特征均匀地分布在高维球体上,而不是盲目地追求表示相似性。用于同一性预测的ICA的损失可以表示为:yiRiR2(a) 身份中心(b)摄像机中心图4. 身份感知边缘中心聚合和相机感知边缘中心聚合的比较图片。(a)是来自同一身份内的不同相机的图像(b)第(1)款L=1ΣN[||f−c||- -||F−c|| −σ]+1ΣN[ρ−min ||C--||]的一种th th是yi身份中心,Cr是ri相机中心。Ni=1yiyj/=yiyJ2个以上(五)在不同的模式或不同的环境中工作在ICA和CCA的共同约束下,网络其中xi表示第i个样本,yi是xi的身份标签,cyi是yi的类中心同一性,f是最接近中心cyi的特征嵌入,N是一批样本数,σ是表示某类球面半径的超参数。由方程式第5等式的右边,第一项挖掘同一个人在不同摄像机下的隐式身份关联信息相机感知边缘中心聚合损失可以表示为:L=1ΣN[||f−c||- -||F−c|| −σ]+1ΣN[ρ−min ||C--||]、第二个元素是样本和中心之间的最小距离。它被减去以便推动样本Ni=1Rirj/=riRJ2个以上(六)其特征在于从中心y逐渐通过小的区域。超参数σ迫使样本与其恒等中心保持合理的σ可以被视为图1中的内圆(红色)的半径。3(b)款。这种设计避免了过于严格的中心集中。第二项计算不同身份中心的最小距离通过在不同身份中心之间应用多个约束,网络比较身份相似性而不是样本相似性。3.4. 摄像头感知边缘中心聚合考虑到大的摄像机差异,本节提出了一种策略,利用摄像机标签信息进行进一步改进,加强模态不变特征学习。在现实生活中,cm-ReID任务通常由多个相机捕获这促使我们对相机差异进行建模,原因如下:1)不同的相机内部参数不同。2)不同的相机具有不同的背景和视角。3)相机之间通常没有重叠区域。因此,我们提出了一个Camera-aware的边缘C进入ggregation策略(CCA)。我们的目标是让网络学习关于不同相机的区别信息。具体而言,我们期望网络也关注来自不同摄像机的图像的差异,因为这些摄像机通常其中,ri表示第i个样本的相机标签,并且Cr是第ri个相机中心。f0表示最接近相机中心的样本。其他元素类似于Eq.五、身份感知和摄像机感知边缘中心聚集策略以不同的方式提取区分信息。如图4,一方面,ICA对来自不同摄像机的同一身份图像进行约束。另一方面,CCA约束来自不同身份的相同相机图像。这两个组件一起工作以明确地应用特定于身份的信息和特定于相机的信息。总的来说。当然,由身份损失(ID损失[55])id和加权正则化三元组(WRT)损失[47] wrt组成的常规损失函数被设计用于学习双罚表示:Lb=Lid+ Lwrt。(七)同一性丢失利用余弦距离将嵌入空间分离成不同的子空间。三重态丢失增强了欧氏空间中的类内紧性和类间可分性。通过不同维度的ID损失和三元组损失来监督嵌入空间的分布经过特征提取,得到了性能良好的特征嵌入。我们采用了ICAICANi=1yi+是同一个摄像机内不同身份的图像是中心损失的一般形式,其指示图1中的外圆(灰色)约束第3条(a)和(b)款。的Ri+16408LLLLLLLCCA分别用于个人身份预测和相机综上所述,最终损失为:L总=Lb+Le+λ(Lica+Lcca),(8)其中λ是预定义的折衷参数。值得注意的是,m不包括在总损失中,因为e和m的最新日期是分开的。它们通过对抗训练交替更新,监督网络以实现模态混淆。当模态混淆达到时,我们可以忽略Lm。4. 试验与分析在本节中,我们在两个公共cm-ReID数据集SYSU-MM 01 [40]和RegDB [24]上评估了我们的模型。4.1. 数据集和评价方案SYSU-MM 01[40]是第一个由6台相机收集的cm-ReID大规模基准数据集,包括4台可见光相机和2台红外相机。特别地,四个摄像机被放置在室外环境中,两个被放置在室内环境中。SYSU-MM 01包含491人,共有287,628张可见光图像和15,792张红外图像。395人,包括22,258幅可见光图像和11,909幅红外图像用于训练,另外96人,包括3803幅红外图像用于查询,随机选择301幅可见光图像作为图库集。同时,它包含两种不同的测试模式,全搜索和室内搜索模式。实验设置的详细描述可参见[40]。RegDB[24]由双相机系统收集,包括一个可见光相机和一个红外相机。该数据集包括412个人,每个人有10个可见光图像和10个红外图像。根据[44]提出的评估协议,我们随机选择206个身份进行训练,另外206个身份进行测试。测试阶段包含两种模式,可见光到红外和红外到可见光,这意味着来自一种模态的图像被用作图库集,而其余的作为查询集。对10次试验的结果取平均值,以获得稳定的性能[37]。评价方案。累积匹配特征(CMC)[23]、平均平均精度(mAP)和平均反向负惩罚[47](mINP)用作评估指标。4.2. 实现细节这 项 工 作 得 到 了 Huawei MindSpore 的 支 持 [1] 。MCLNet采用AGW [47]作为特征提取器。在训练阶段之前,批量大小被设置为64,包含来自8个身份的32个可见光图像和32个红外图像。对于每个标识,随机选择4个可见光图像和4个红外图像两种模态图像均来自原始三个通道。的表1.在SYSU-MM 01数据集上分析全搜索模式下模态混淆学习的有效性 报告了秩-1准确度(%)、mAP(%)和mINP(%)。AGW* 表示AGW使用随机擦除[56]。方法秩-1地图mINP基地49.4049.0235.82底座+MCM51.4649.8436.73AGW47.5047.6535.30AGW+MCM49.2949.2637.08AGW*59.8256.0740.50AGW*+MCM62.7458.8343.15MCLNet65.4061.9847.39首先将输入图像的大小调整为288 × 144,然后我们采用随机裁剪零填充,随机水平翻转和随机擦除进行数据增强[56]。两种模态的最终裁剪图像尺寸均为256 ×128。在训练阶段,MCM更新一次,而特征提取器更新一次。此外,我们使用SGD优化器进行优化,动量参数设置为0.9。采用初始设置为0.1的预热学习率。我们在20和50个历元时将其衰减0.1和0.01。整个训练过程由200个epoch组成。我们设置预定义参数λ=0。0005为ica和由于其大的值,CCA,λ4.3. 消融研究在本小节中,我们评估了我们提出的方法的每个组件的有效性。模态混淆模块的有效性。首先,我们评估了在全搜索模式下,模态混淆机制在SYSU-MM 01数据集上的改善程度值得注意的是,我们的特征提取器可以被大多数现有的cm-ReID嵌入特征提取网络所取代。我们通过将模态混淆机制应用于Base和AGW [47]来研究这种Base使用在ImageNet [28]上预训练的ResNet-50 [12]为了进行公平的比较,我们将ResNet-50更改为与AGW具有相同的双流结构。同时,在训练阶段,它们只使用id和wrt。如表1所示,当结合特征提取器和MCM两者时,性能结果得到改善。同时,我们的模态混淆机制在使用数据增强后仍然有效AGW*+ MCM实现了62.74%的rank-1准确度,mAPmINP为43.15%,分别比AGW* 高2.92%、2.76%和2.65%。ICA和CCA的有效性。其次,在SYSU-MM 01数据集(全搜索模式)上对ICA和CCA进行了对比实验,验证了ICA和CCA的有效性。如表2所示,具有ICA和CCA的MCLNet在Rank- 1、mAP和mINP中分别实现4.31%、4.60%和5.56%的改善。当ICA和CCA分别用于人ID预测和相机时16409表2. ICA和CCA在SYSU- 70上的有效性分析全搜索模式下的MM01数据集。 报告了秩-1准确度(%)、mAP(%)和mINP(%)65605550表3.在全检索模式下,在SYSU-MM 01数据集上不同基线上ICA和CCA的有效性。报告了秩-1准确度(%)、mAP(%)和mINP(%)4540λ=0.005λ=0.0025秩-1λ=0.0005地图mINPλ=0.00025λ=0.00005方法图6. 全搜索模式下参数λ对SYSU-MM 01数据集的影响。λ由于其大的值而用于平衡不同损耗的贡献。70656055504540σ=0 σ=8 σ=16 σ=24 σ=321级mAP mINP(a) AGW*(b)MCLNet图5. SYSU-MM 01数据集上特征的t-SNE [22我们随机选取10个身份测试集,分别使用AGW* 和MCLNet提取人的描述符。不同的颜色代表不同的身份。ID预测,结果得到改善,并且当它们组合时,结果更好。可以观察到ICA和CCA对mAP和mINP有更多的改进,这表明框架更容易找到相同身份的图像,验证ICA和CCA适合于cm-ReID任务。可视化分析。为了进一步分析MCLNet的有效性,我们使用t-SNE [22]将高维特征向量转换为二维向量。如图5,与AGW* 的可视化结果相比,从MCLNet中提取的特征更好地聚类在一起。不同恒等式之间的中心和边界之间的距离更加明显,验证了我们的工作更具区分性。4.4. 参数分析提出的MCLNet包含两个关键参数:ICA/CCA平衡权值λ和ICA/CCA裕度σ。通过将这两个参数设置为不同的值来研究这两个参数,如图所示。图6和图7分别。一方面,由于Lica和Lcca的大值,λ的值被设置为与Lid和Ltri很好地匹配,以图7.全搜索模式下参数σ对SYSU-MM 01数据集的影响报告秩-1、mAP和mINP(%)平衡贡献并确保它们汇聚在一起。另一方面,σ的值指示嵌入需要离中心多远。它确保属于同一类的样本不会太靠近中心。我们可以观察到σ的引入改善了mAP和mINP,验证了我们的猜想,即σ可以保持特征多样性,并使网络具有更强的检索最难正确匹配的能力。但是,σ应是一个合理的裕度,以防止牺牲一级精度。实验表明,当λ= 0.0005,σ= 8时,MCLNet的性能最优。4.5. 与最新方法的比较在这一节中,提出的MCLNet在两个不同的数据集上与最先进的方法进行了比较,其中包括近两年发表的十多个竞争方法。结果分别列于表4和5中。在SYSU-MM 01数据集上的实验(表4)表明,与最先进的技术相比,MCLNet实现了具有竞争力的性能根据实验结果,可以进行以下观察:1)我们的方法比生成的方法(cm-GAN [7],AliGAN [33],XIV [16],Hi-CMD [6])执行得更好。通过GAN评估交叉模态图像对或利用辅助模态。同时,MCLNet不需要时间-65.4063.6863.5461.9861.4160.3260.7860.4757.1146.9147.3945.9244.0141.2357.97方法秩-1地图mINPAGW*59.8256.0740.50AGW* + ICA63.5659.7744.45AGW* + CCA63.4259.1944.13AGW* + ICA、CCA64.1360.6746.06MCLNet65.4061.9847.39秩-1地图mINP基地49.4049.0235.82基础+ ICA、CCA52.1350.8937.96DDAG [46]54.7553.0239.62DDAG + ICA、CCA57.2754.3240.03AGW*[47]59.8256.0740.50AGW* + ICA、CCA64.1360.6746.0665.2865.4064.5664.5964.2960.9361.9860.9861.3760.9245.6847.3946.7947.3346.4516410表4.与SYSU-MM 01数据集上的最新技术水平进行比较报告了秩-k准确度(%)、mAP(%)和mINP(%)设置所有搜索室内搜索方法会场r=1 r=10R=20地图mINPr=1R=10R=20地图mINP零垫[40]ICCV1714.80 54.1271.3315.95-20.5868.3885.7926.92-HCML [44]AAAI1814.32 53.1669.1716.16-24.5273.2586.7330.08-cmGAN [7]公司简介26.97 67.5180.5627.80-31.6377.2389.1842.19-HSME [11]AAAI1920.68 32.7477.9523.12------AliGAN [33]ICCV1942.40 85.0093.7040.70-45.9087.6094.4054.30-CMSP [39]公司简介43.56 86.25-44.98-48.6289.50-57.50-JSIA [34]AAAI2038.10 80.7089.9036.90-43.8086.2094.2052.90-十四[16]AAAI2049.9295.9650.73------MACE [43]TIP2051.64 87.2594.4450.11-57.3593.0297.4764.79-MSR [9]TIP2037.35 83.4093.3438.11-39.6489.2997.6650.88-DDAG [46]ECCV2054.75 90.3995.8153.02-61.0294.0698.4167.98-Hi-CMD [6]CVPR2034.94 77.58-35.94------cm-SSFT [19]1CVPR2047.70--54.10------AGW [47]TPAMI2147.50 84.3992.1447.65 35.3054.1791.1495.9862.9759.23MCLNet我们65.40 93.3397.1461.9847.3972.5696.9899.2076.5872.101利用图库图像间的关系,提高了检索的准确率我们使用单个查询的结果进行公平比较。表5.与RegDB数据集上的最新技术进行比较报告了秩-k准确度(%)、mAP(%)和mINP(%)设置可见光至红外线红外到可见方法会场r=1 r=10R=20地图mINPr=1 r=10R=20地图mINP零垫[40]ICCV1717.75 34.2144.3518.90-16.63 34.6844.2517.82-HCML [44]AAAI1824.44 47.5356.7820.08-21.70 45.0255.5822.24-HSME [11]AAAI1950.85 73.3681.6647.00-50.15 72.4081.0746.16-AliGAN [33]ICCV1957.90--53.60-56.30--53.40-CMSP [39]公司简介65.07 83.71-六十四块五- ----JSIA [34]AAAI20四十八块五-48.90-- ----十四[16]AAAI2062.21 83.1391.7260.18-- ----DG-VAE [26]ACMMM2072.97 86.89-71.78-- ----HAT [48]TIFS2071.83 87.1692.1667.56-70.02 86.4591.6166.30-MSR [9]TIP2048.43 70.3279.95四十八点六七-- ----MACE [43]TIP2072.37 88.4093.5969.09-72.12 88.0793.0768.57-DDAG [46]ECCV2069.34 86.1991.4963.46-68.06 85.1590.3161.80-Hi-CMD [6]CVPR2070.93 86.39-66.04-- ----AGW [47]TPAMI2170.05 86.2191.5566.37 50.1970.49 87.1291.8465.9051.24MCLNet我们80.31 92.7096.0373.0757.3975.93 90.9394.5969.4952.63- 昂贵且空间昂贵的图像生成,这减少了中间步骤并避免引入额外的噪声。2)与使用全局特征和局部特征的方法[46]相比,我们的方法明显优于它。值得注意的是,我们的基线模型只计算全局特征。这将有利于实际的行人检索部署,同时具有较低的计算效率。在RegDB数据集上的实验(表5)表明,我们提出的方法对不同的查询设置是鲁棒的。通过模态混淆学习,它在可见光到红外和红外到可见光由于RegDB数据集是由双相机系统收集的,因此我们没有对其应用CCA。这学习更好的模态不变和模态特定信息。5. 结论在本文中,我们提出了一个新的cm-ReID基线与模态混淆学习网络(MCLNet),它可以学习模态不变的功能,通过最小化。消除模态间差异,同时最大化实例之间的跨模态相似性。与其他方法不同的是,MCLNet旨在通过混淆学习机制来混淆这两种模态。同时,我们提出了一种身份感知和摄像机感知的边缘中心聚集策略,用于个人ID和摄像机ID的预测,可以帮助框架温和地提取中心化特征。大量的实验验证了所提出的方法的优越性能,以及每个组件的框架的有效性。谢 谢 。 本 研 究 得 到 了 国 家 自 然 科 学 基 金( 62176188 , 61902027 ) 和 中 国 农 业 科 学 院 - 华 为MindSpore开放基金的部分资助。本文的数值计算得到了武汉大学超级计算中心超级计算系统的支持。引用[1] Mindspore,https://www.mindspore.cn/, 2020. 六个[2] Sk Miraj Ahmed,Aske R.莱博勒、拉米斯瓦尔·熊猫,还有16411阿米特K.罗伊·乔杜里使用假设迁移学习的用于个人重新识别的相机加载。在CVPR中,第12144-12153页,2020年。二个[3] 宋白,彭唐,菲利普HS托,和Longin Jan Late-cki.通过度量融合重新排序,用于对象检索和人员重新识别。在CVPR,第740-749页,2019年。二个[4] Guangyi Chen , Chunze Lin , Liangliang Ren , JiwenLu,and Jie Zhou.自我批判注意学习对人的再认同。在ICCV,第9637-9646页,2019年。二个[5] 陈天龙、丁少金、谢静怡、叶远、陈武扬、杨阳、周仁、王张扬。细心但多样化的人重新识别。在CVPR中,第8351-8361页一、二[6] Seokeon Choi、Sumin Lee、Youngeun Kim、TaekyungKim和Changick Kim。Hi-cmd:用于可见-红外人员重新识别的分层交叉模态解缠。在CVPR中,第10257-10266页,2020年。七、八[7] Pingyang Dai,Rongrong Ji,Haibin Wang,Qiong Wu,and Yuyu Huang.跨模态的人重新识别与生成对抗训练。在IJCAI,第677-683页二三七八[8] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在CVPR中,第994-1003页,2018年。二个[9] Zhanxiang Feng,Jianhuang Lai,and Xiaohua Xie. 学习模态特定表示用于可见-红外人再识别。IEEE TIP,29:579-590,2019。1、8[10] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,第2672一个[11] Yi Hao , Nannan Wang , Jie Li , and Xinbo Gao.HSME:用于可见热人体再识别的球面流形嵌入在AAAI,第8385-8392页,2019年。八个[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。六个[13] Mengxi Jia,Yunpeng Zhai,Shijian Lu,Siwei Ma,andJian Zhang. rgb-红外跨模态人物再识别的相似性推理度量。arXiv预印本arXiv:2007.01504,2020。二个[14] Xin Jin,Cuiling Lan,Wenjun Zeng,Zhibo Chen,andLi Zhang.用于可推广的人重新识别的风格规范化和恢复。在CVPR,第3143-3152页,2020年。2[15] Kajal Kansal , AV Subramanyam , Zheng Wang , andShinSdl:用于可见-红外人再识别的光谱解纠缠表示学习 。 IEEE Trans- actions on Circuits and Systems forVideo Technology,30(10):3422-3432,2020。一个[16] Diangang Li,Xing Wei,Xiaopeng Hong,and YihongGong.红外-可见交叉模态人与x模态的再识别在AAAI,第4610-4617页,2020中。一、二、七、八[17] 何力、莽野、波都。Weperson:从全天候虚拟数据中学习通用化的再识别模型在ACMMM,2021年。一个[18] Fangyi Liu和Lei Zhang。查看人员重新识别的混淆特征学习。在ICCV,第6639-6648页二、四[19] Yan Lu , Yue Wu , Bin Liu , Tianzhu Zhang , BaopuLi,Qi Chu,and Nenghai Yu.跨模态人员重新识别与共享特定特征转移。在CVPR中,第13379二、八[20] 罗传晨,陈云涛,王乃艳,张兆祥.光谱特征变换用于人的再识别。在CVPR中,第4976-4985页,2019年。二个[21] Hao Luo,Youzhi Gu,Xingyu Liao,Shenqi Lai,andWei Jiang.一袋技巧和一个强大的基线深度重新识别人。在CVPR研讨会,第0-0页,2019年。四个[22] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化 数 据 。 Journal of Machine Learning Research , 9(Nov):257
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功