没有合适的资源?快使用搜索试试~ 我知道了~
13379RGB特异性共享特异性基于共享特征转移的陆燕1、2,吴跃3,刘斌1、2,,张天柱1,李宝璞4,齐楚1、2,余能海1、21中国科学技术大学信息科学与技术学院,合肥,中国2中国科学院电磁空间信息重点实验室,合肥3达摩院,阿里巴巴集团,北京,中国4Baidu Research(USA),1195 Baudeaux Dr,Sunnyvale,CA,USAluyan17@mail.ustc.edu.cn,matthew. alibaba-inc.com,baopuli@baidu.com{flowice,tzzhang,qchu,ynh}@ ustc.edu.cn摘要跨 模 态 人 物 再 识 别 ( Cross-modality person re-identification,cm-ReID)是智能视频分析中具有挑战性的关键技术。现有的工作主要集中在学习模态共享表示,通过将不同的模态嵌入到同一个特征空间,降低了特征独特性的上限。在本文中,我们解决了上述限制,提出了一种新的跨模态共享特定特征传递算法(称为cm-SSFT),以探索模态共享信息和模态特定特征的潜力,以提高重新识别性能。我们根据共享特征对不同模态样本的相似度进行我们还提出了一种互补的特征学习策略,包括模态适应、项目对抗学习和重建增强,分别学习每种模态的区分性和互补性共享和特定特征。整个cm-SSFT算法可以以端到端的方式进 行 训 练 We conducted comprehensive experiments tovalidate the supe- riority of the overall algorithm and theeffectiveness of each component.该算法在两个主流基准数据集SYSU-MM 01和RegDB上分别比最先进的算法高出22.5%和19.3% mAP1. 介绍人物再识别(Person Re-identification,ReID)的目的是从大型图库中找出与查询图像相同的人物图像。许多作品专注于RGB模态的特征学习[17,37]和metric学习[3,24]这些方法刘斌为通讯作者。图1.说明我们的算法和模态共享特征学习方法之间的差异。模态共享特征学习方法由于不能从其他模态中提取模态信息而放弃了大量有用的特定线索。我们的算法尝试引入基于跨模态近邻亲和力建模的模态特定特征,有效地利用每个样本的共享和特定信息。已经取得了巨大的成功,特别是使用最新的深度学习技术[39]。然而,对明亮照明环境的依赖性限制了它们在实际复杂场景中的应用。这些方法的性能在大多数相机无法正常工作的黑暗环境中显着下降因此,其他类型的视觉传感器,如红外摄像机,现在被广泛用作RGB摄像机的补充,以克服这些困难,产生了对RGB-红外交叉模态人ReID(cm-ReID)的流行研究兴趣。与传统的ReID任务相比,cm-ReID的主要困难在于导致的模态差异RGB特异性共享特异性13380从不同相机的本质上不同的成像过程。在红外图像中,一些区别性线索(如RGB图像中的颜色)缺失。以往的方法可以归纳为两大类:模态共享特征学习和模态特定特征补偿。共享特征学习旨在将任何模态的图像嵌入到同一特征空间中[47,50,51]。不同模态的特定信息(例如RGB图像的颜色和红外图像的热)作为冗余信息被消除[4]。然而,像颜色这样的特定信息只有共享的线索,特征表示的辨别能力的上限是有限的。因此,特定于模态的特征补偿方法试图从一个模态到另一个模态来弥补缺失的特定信息。双层离散约 简 学 习 ( D2RL ) [45]是 通 过 利 用 生 成 对 抗 网 络(GAN)[8]生成多光谱图像以补偿缺乏特定信息的典型工作。然而,红外模态中的个人可以在RGB空间中具有不同颜色的衣服。图像生成可能有多个合理的结果。如果不记住有限的图库集,很在本文中,我们通过提出一种新的跨模态共享特定特征转移算法(称为cm-SSFT)来解决上述限制,以探索模态共享信息和模态特定特征两者的潜力,以提高重识别性能。它对模态内和模态间样本之间的亲和力进行建模,并利用它们来传播信息。每一个样本接受来自其模态间和模态内近邻的信息,同时与它们共享自己的信息。该方案可以弥补特定信息的不足,增强共享特征的鲁棒性,从而提高整体表示能力。与共享特征学习方法的比较如图1所示我们的方法可以利用特定的信息,是无法利用的,在传统的共享特征学习。由于我们的方法依赖于邻居的亲和建模,补偿过程也可以克服生成方法的选择困难实验结果表明,在SYSU-MM 01和RegDB两个最流行的基准数据集上,该算法的性能分别比最先进的算法提高了22.5%和19.3%mAP,以及19.2%和14.4%的我们工作的主要贡献如下:• 我们提出了一种端到端的跨模态共享特定特征传输(cm-SSFT)算法,以使用模态共享和特定信息。实现最先进的跨模态,儿子ReID的表现。• 提出了一种基于模态间和模态内亲和度的特征传递方法,根据近邻在模态之间和跨模态门控信息,这可以有效地利用每个样本的共享和特定信息。• 我们提供了一种新的互补学习方法,分别提取每种模态的区分性和互补性共享特征和特定特征,可以进一步增强cm-SSFT的有效性2. 相关工作人员ReID。Person ReID [53]旨在使用查询图像在大型图库中搜索目标人物图像。最近的工作主要是基于深度学习来获得更具区分性的特征[6,18,49,56]。他们中的一些人将其视为部分特征学习任务,并将更多注意力放在更强大的网络结构上,以更好地发现,对齐和描述身体部位[10,38,39,26]。其他方法基于度量学习,专注于适当的损失函数,如对比损失[40],三重损失[17],四重损失[2]等。这两种方法都试图丢弃不相关的线索,如姿态,视点和光照变化的特征和度量空间。最近的基于解缠的方法沿着这个方向进一步扩展,将每个样本拆分为身份相关和身份无关的特征,获得更纯粹的表示,而没有冗余的线索[12,54]。上述方法独立地处理每个样本,忽略了人物图像之间的联系。最近的自我关注[41,29]和基于图形的方法[1,34,35,48]试图对样本对之间的关系进行建模。Luo等人提出了谱特征变换方法来融合不同身份之间的特征[29]。Shen等人提出了一种相似性引导的图神经网络[35]和深度分组重排随机游走[34]来融合不同样本的残差特征,以获得更鲁棒的表示。Liu等人利用近邻来解决无监督的ReID [28]。跨模态匹配。跨模态匹配旨在匹配来自不同模态的样本,例如跨模态检索[9,16,21,27]和跨模态跟踪[57]。跨模态检索已被广泛研究了异构人脸识别[15]和文本到图像检索[9,16,21,22,27]。[15]摘要提出了一种基于双流的深度不变特征表示学习方法,用于异构人脸识别。跨模态人员ReID。跨模态人员ReID旨在将一种模态的查询与另一种模态的图库集进行匹配[44],例如文本图像ReID [23,32,33],RGB深度ReID [11,46]和RGB-红外(RGB-IR)ReID [4,7,13,19,20,25,42,43,45,13381我我2121我我ijikPR补充学习Sh Sp featN C RGB项目对抗性LCLSMTAR RLreLpaHRXRGBN C模态适应LCLL马CMTHI 2N 3CXI RAI RZIR项目对抗性LCLLsmTpaLN C2N 3CrePI特征学习算法NCL 重量FeattLt双流特征提取器Sh featAI I~SSTNZ不损失壮举IConvI2ConvI1FeatSConvS2费特河孔夫河2孔夫河1图2.跨模态共享特定特征传递算法框架47、50、51、52]。Wu等人构建了最大的SYSU-MM01数据集,用于RGB-IR人员ReID评估[47]。Ye等人提出了一种基于双流的模型和双向顶级损失函数,用于共享特征嵌入[50,51]。为了使共享特征更纯粹,Dai等人提出了一种用于共享特征学习的生成对抗训练方法[4]。这些方法只关注共享特征的学习,而忽略了特定特征的潜在价值。相应地,其他一些工作尝试利用特定于模态的特征,并专注于跨模态GAN。Martiaz等人提出了ThermalGAN将RGB图像转换为IR图像并在IR域中提取Wang等人提出了基于双向循环GAN的双层离散化约简学习,以减少不同模态之间的差距[45]。与上标的R、I和S共享空间我们使用H和P分别表示sHared和sPecific特征。3.1. 双流特征提取器如图2所示,我们的双流特征提取器包括模态共享流(蓝色块)和模态特定流(RGB的绿色块和IR的黄色块)。每个输入图像Xm(m∈ {R,I})将通过卷积层和特征块,生成共享特征和特定特征。为了获得更好的性能,我们在浅层卷积层而不是更深的全连接层分离共享和特定流[50]:Hm=FeatS( ConvS( Convm(Xm),P m= Feat m(Conv m(Conv m(X m)。(一)最近,Wang et al. [42]第42话一个新的世界模型的像素级和特征级联合约束,达到了最先进的性能。然而,在这方面,为了确保这两种特征都具有区分性,我们分别在每种特征上添加分类损失Lc很难决定哪一个是正确的目标,从ReID的多种合理选择中解脱出来。Lc(Hm)= Ei,m[−log(p(ym|Hm))],(二)L c(Pm)= Ei,m[−log(p(ym|Pm))],我我3. 跨模态共享特定功能传输所 提 出 的 跨 模 态 共 享 特 定 特 征 转 移 算 法 ( cm-SSFT)的框架在图2中示出。输入图像首先被馈送到双流特征提取器中以获得共享特征和特定特征。共享特定传输网络(Sunday)mod-其中p(y m|是属于输入图像X m的地面实况类y m的预测概率。分类损失确保特征可以区分输入的身份。此外,我们在特定特征上添加了单模态三重损失(LsmT)[17],在共享特征上添加了跨模态三重损失(LcmT)[4,51],以获得更好的区分度:ΣR r r r消除模态内和模态间的亲和力。然后,它跨模态传播共享的和特定的特征,以补偿缺少的特定信息,LsmT(P)=+i,j,kΣmax[ρ2+||Pi−Pj||−||Pi−Pk||,0]max[ρ 2 + ||P I − PI ||− ||P I − PI||,0],增强共享功能。为了获得区别性和互补性的共享和特定特征,两个项目i,j,kΣiji k(三)对抗和重建块和一种模态-在特征提取器上增加了自适应模块。的LcmT(H)=i,j,kΣ最大值[ρ1 + ||HR − HI ||− ||HR − HI||,0]整个算法以端到端的方式训练+max[ρ1 + ||HI − HR||− ||HI − HR||,0],为了更好地说明所提出的算法是如何工作的,我们区分RGB模态、红外模态和i,j,ki j iK(四)13382IJR¨Rijik其中ρ1和ρ2分别是LcmT和LsmTi、j、k表示三重态损失的锚的指数、锚的正指数和锚的负指数(yi=yj,yi=yk)。3.2. 共享专用传输网络双流网络提取每个模态的共享特征和对于统一的特征表示,我们使用三段格式填充并表示每个模态的特征:[RGB特异性;共享;红外特定]如下:R R R I共享和特定的信息传播。 亲和力矩阵表示样品之间的相似性。SSTN利用该矩阵来传播特征。在此之前,RGB和红外模态的特征在行维度中连接,其中每行存储样本的特征Σ ΣZ=Z。(九)ZI根据GCN方法,我们得到了Z i=[P i;H i; 0],Z i=[0; H j; P j]。(五)亲和矩阵A的矩阵D,其中d ii=jA ij。 的这里,0表示填充零向量,这意味着填充要素首先与近邻要素一起−RGB模态的样本没有特定的特征,结构(D12AD12Z),然后由一个可学习的非-红外模态,反之亦然。[·; ·]表示列维度中对于跨模态检索,我们需要将特定特征从一个模态转移到另一个模态以补偿这些补零向量。受图卷积网络(GCN)的启发,我们使用-线性变换 经过特征融合后,特色将包括两种模式的共同特色和特定特色。传播的特征Z的计算公式为:Σ Σ~RZ轴=Z−1−1=σ(D AD ZW),(10)使近邻传播信息并意味着-同时保持整个样本空间的上下文结构。该共享特定传输网络可以弥补特定特征的不足,并共同增强整体表示的鲁棒性。 如图2所示,Scrum首先根据这两种特征对样本的亲和力进行建模。然后,它与亲和度模型传播模态内和模态间信息最后,特征学习阶段通过分类和三重损失来指导亲和建模。我们使用共享的和特定的特征来建模成对的亲和力。我们采用特定的特征来计算模态内亲和度,跨模态的共享功能如下:2 2ZI其中σ是激活函数,在我们的实现中是ReLU。W是SSTN的可学习参数。这些传播的特征最终被馈送到特征学习阶段以优化整个学习过程。转移的特征T表示为:Σ ΣT=T=Featt(Z)。(十一)我不是遵循常见的特征学习原则,我们使用分类损失进行特征学习:m,mm mm,m′mm′Lc(Tm)= Ei,m[−log(p(ym|Tm))]。(十二)Aij=d(Pi,Pj),Aij =d(Hi,Hj),(6)ii其中Am,m是第i个样本和第j个样本之间的模态内亲和度,这两个样本都属于第m个样本。m, m′此外,我们使用三重态损失的转移功能,以增加的歧视能力。由于转移的特征包括共享特征和特定特征,模态ij是相互亲和力。d(a,b)是正常的-化欧几里德距离度量函数:两种模式。 我们将cm-三重态损失LCMT(T)¨¨ab和sm-三重态损失LsmT(T),以获得更好的区分:d(a,b)= 1 − 0。5·¨−a¨。(七)bLt(T)= LCMT(T)+LSMT(T)内部相似性和内部相似性代表了相对相似性。Σ=max[ρ 1 + ||T R,T I ||− ||T R,T I||,0]每个样本与相同和不同模态的其他样本之间的差异。我们将最终的亲和矩阵定义为:i,j,kΣiji kI R I RA=,(8)+i,j,kΣ+i,j,kΣmax[ρ1+||Ti,Tj||−||Ti,Tk||,0]max[ρ2 + ||T R,T R||− ||T R,TR||,0](十三)+max[ρ 2 + ||T I,TI ||− ||T I,T I||,0]。其中T(·,k)是近邻选择函数。 它保留矩阵每行的前k个值,并设置其他人归零。i,j,kiji kT(AR,R,k) T(AR,I,k)T(AI,R,k) T13383我我我pp3.3. 共享和特定的互补学习该方法探索了一种新的方法,利用两者共享的特定特征来生成更具区分性的表示。然而,总体性能可能仍然受到共享特征和特定特征之间的信息重叠的影响。首先,如果共享特征包含许多模态特定信息,则等式(6)中的相互相似性矩阵的可靠性将受到影响,导致不准确的特征传递。第二,如果具体特征是特定特征不包含彼此之间的相关信息。为了增强这两个特征的复杂性,我们在每个模态的特征之后使用解码器网络来重建输入。我们将共享的和特定的特征连接起来,并将它们馈送给解码器De:Xm=Dem([P m;Hm]),(16)其中[·; ·]表示特征级联。L2损失用于评估重建图像的质量:Lre=Ei,m[L2(Xm,X<$ m)].(十七)与共享特征高度相关的特定特征ii只能对共享功能提供很少的补充。由于共享信息,特定特征中的冗余信息还将为了缓解这两个问题,我们利用模态自适应[4]从共享特征中过滤出模态特定信息。我们还提出了一个项目对抗策略和重建增强互补模态特定的特征学习。共享特征的模态适应。为了净化与模态无关的共享特征,我们利用具有三个全连接层的模态树[4]重建任务对整体信息丢失结合项目模态适应和对抗学习,引导共享特征和特定特征自区分和互补。3.4. 优化我们提出的算法是在一个端到端的方式与对抗的最小最大游戏训练我们基于分类和三元组具有相同重要性的原则混合损失函数。因此,每个部分的特征学习损失如下:L(H)= L c(Hm)+ 0. 5·LcmT,对每个共享功能:Lma = Ei,m[−log(p(m|Hm,ΘD))],(14)L(P)= 0。5·(Lc(PR)+Lc(PI))+0。5·LsmT,L(T)= L c(T)+0. 25·L t(T)。(十八)其中ΘD表示模态判别器的参数。p(m|H m)是属于模态m的特征H m的预测概率。 在鉴别阶段,模态分类器将尝试对每个共享特征的模态进行分类。在生成阶段,骨干网络将生成特征来欺骗鉴别器。 这个最小-最大的游戏将使共享的功能,此外,我们认为主干特征提取器和SSTOM具有相同的重要性。因此,总体特征学习损失如下:Lfeat= L(H)+L(P)+L(T)。(十九)因此,每个部分的最小和最大步长的总损失函数如下:包含任何模态相关信息。针对特定功能的项目对抗学习 到Lmin=Lfeat+λ1Lre−λ2Lma−λ3Lpa,Lmax=−λ 2 Lma− λ 3 Lpa。(二十)使特定特征与共享fea不相关在此基础上,我们提出了项目对抗策略。在训练阶段,我们将特定特征投影到同一样本的共享特征将投影误差作为损失函数Lpa=Ei,m[θm·Pm−Hm],(15)优化过程包括两个子过程:(1)固定每个节点并最小化Lmin。(2)固定所有的模块,不包括三个鉴别器和最大化的L最大。支持度ΘN表示除所有其他鉴别器之外的整个网络的参数。交替-积极的学习过程是:我我其中Θm表示模态m的投影矩阵。θ N=rgminLmin(ΘN,θ D,θ m),ΘN在该等式中,“·“表示矩阵乘法。类似地,在区分阶段,Θm的优化将尝试将特定特征投影到对应的共享特征。θ D,θ m=argmaxLΘD, Θmmax(Θ<$N,ΘD(二十一),Θ m)。而在生成阶段,骨干网络将生成与共享特征不相关的特定特征,以欺骗投影。这种对抗性训练可以使两种特征的特征空间线性无关。或者最小化和最大化投影损失将导致骨干网络学习不同于共享特征的特定模式。重建增强。模态适应和项目对抗学习确保了共享和为确保培训效果,每批包含相同数量的RGB和红外采样。采样策略的细节在实现细节中介绍。在测试阶段,我们利用双流网络从RGB集合和红外集合中提取解纠缠特征。我们使用Sort来转移模态共享和模态特定的功能。所有的特征都是L2归一化的,我们使用欧几里得距离来计算最终的ReID性能。13384表1.SYSU-MM 01上的比较r1、r10、r20表示秩-1、10、20的准确度(%)。All-search室内搜索方法单炮多炮单炮多炮R1R10R20地图 R1R10R20地图 R1R10 R20地图 R1R10R20地图HOG[5]2.76 18.3 31.9 4.24 3.82 22.8 37.6 2.16 3.22 24.7 44.5 7.25 4.75 29.2 49.4 3.51LOMO[24]3.64 23.2 37.3 4.53 4.70 28.2 43.1 2.28 5.75 34.4 54.9 10.2 7.36 40.4 60.3 5.64[47]第四十七话14.8 54.1 71.3 15.9 19.1 61.4 78.4 10.9 20.6 68.4 85.8 26.9 24.4 75.9 91.3 18.6[50]第五十话14.3 53.2 69.2 16.2------------BDTR[51]17.0 55.4 72.0 19.7------------D-HSME[13]20.7 62.8 78.0 23.2------------IPVT+MSR[19]23.2 51.2 61.7 22.5------------cmGAN[4]27.0 67.5 80.6 27.8 31.5 72.7 85.0 22.3 31.6 77.2 89.2 42.2 37.0 80.9 92.1 32.8D2 RL[45]28.9 70.6 82.4 29.2------------决定指导文件+MSR[7]37.4 83.4 93.3 38.1 43.9 86.9 95.7 30.5 39.6 89.3 97.7 50.9 46.6 93.6 98.8 40.1[43]第四十三话38.1 80.7 89.9 36.9 45.1 85.7 93.8 29.5 43.8 86.2 94.2 52.9 52.7 91.1 96.4 42.7AlignGAN[42]42.4 85.0 93.7 40.7 51.5 89.4 95.7 33.9 45.9 87.6 94.4 54.3 57.1 92.7 97.4 45.3cm-SSFT(我们的)61.689.293.963.263.491.295.7 62.070.594.997.7 72.673.096.399.172.44. 实验在本节中,我们进行了全面的实验,以验证所提出的跨模态共享特定特征传输算法及其每个组件的有效性4.1. 实验设置数据集。SYSU-MM 01是一个大规模且经常使用的RGB-IR跨模态ReID数据集[47]。图像是从四个RGB摄像头和两个红外摄像头,在室内和室外环境中收集的。训练集包含395人,22,258张RGB图像和11,909张IR图像。测试集包含96个人,其中3,803个IR图像用于查询,301/3010(一次拍摄/多次拍摄)随机选择的RGB图像作为图库。RGB-IR ReID有两种相应的评估模式:室内搜索和全搜索[47]。RegDB由双摄像头系统收集[31]。共有412个身份,8,240幅图像,其中206个身份用于训练,206个身份用于测试。每个身份有10个不同的热(IR)图像和10个不同的可见光(RGB)图像。还有两种评价模式。一个是可见光到热的搜索红外图像从可见光图像。另一种模式是热可见光模式,用于从红外图像中搜索RGB图像。该数据集有10个试验,具有不同的数据集分割。我们在10个试验中评估我们的模型,以获得统计稳定的结果。评估方案。所有实验均遵循现有RGB-IR交叉测试中的标准评估方案。模态ReID方法。照片和画廊图像来自不同的模式。然后采用标准的累积匹配特性(CMC)曲线和平均精度(mAP).实作详细数据。我们使用Resnet50 [14]作为骨干网络,第一个卷积层,第一个和第二个瓶颈作为Conv1。Conv2是第三和第四个瓶颈。在Eq. (22)设置为4。λ1、λ2和λ3分别设置为1.0、0.2和0.2。我们将骨干中最后一个卷积层的步幅更改为1,Efit重建解码器的学习,其由4个子像素卷积层组成,通道全部设置为64 [36]。我们采用BoT for ReID [30]中的数据和网络增强方法来增强性能。为了公平起见,我们也给出了没有任何增广的结果。这些强化措施包括:(1)特征块都被设置为BNNeck [30];(2)输入图像用随机擦除进行增强[55]。整个算法使用Adam优化 了 120 个 epochs , 批 量 大 小 为 64 , 学 习 率 为 0 。00035,在40、70历元衰变10次。每个小批次由8个标识组成,每个标识具有4个RGB图像和4个红外图像。4.2. 与最先进方法的比较。在本小节中,我们将我们提出的算法与基线以及最先进的方法进行比较,包括Zero-Padding [47],TONE[50] , BDTR [51] , cm- GAN [4] , D2 RL[45] ,MSR[7],D-HSME[13],IPVT[19],JSIA-ReID[43]和AlignGAN[42]。SYSU-MM 01的结果见表1。所提出的算法优于其他方法的一个很大的利润。具体来说,在全搜索模式下,我们的方法在单次设置中在Rank-1准确度上超过AlignGAN 19.2%,在mAP上超过多镜头设置表现出类似的现象。与单次激发评价相比,大多数其他方法的mAP显著下降约5%甚至更多。但我们的方法只下降了1.2%。这验证了我们的算法所提取的特征具有更强的区分性,当图库大小增加时,可以提供比其他方法更高的召回率。对于室内搜索模式,我们的方法也得到了最好的性能,所有的评价指标,证明所提出的算法的鲁棒性。RegDB上的结果如2所示。我们的方法总是大幅度压制别人.对于可见光到热模式,我们的方法在Rank-1上超过了最先进的方法14.4%,在mAP上超过了19.3%对于Thermal到Visible,Rank-1的优势为14.7%,mAP的优势为18.3%。13385表2.在RegDB上比较。方法可见光到热热到可见光r1 mAP r1 mAP表4.无需数据或网络增强的性能设置MM01 RegDB r1 mAP r1mAPHOG[5]LOMO[24]13.50.8010.32.28----SOTA(AlignGAN)SOTA(AlignGAN)42.4 40.7 57.9 53.6[47]第四十七话17.818.916.717.9基线(8月2日)[50]第五十话24.420.821.722.2cm-SSFT(wo aug)52.4 52.1 62.2 63.0BDTR[51]33.531.832.731.1基线(8月)38.2 39.8 42.4 45.0D2 RL[45]43.444.1--cm-SSFT(w aug)61.6 63.2 72.3 72.9决定指导文件+MSR[7]48.448.7--[43]第四十三话48.549.348.148.9D-HSME[13]50.947.050.246.2IPVT+MSR[19]58.847.6--表5.与单个查询的性能比较AlignGAN[42]57.953.656.353.4MM01RegDBcm-SSFT(我们的)72.372.971.071.7方法S-shot M-shotV-TT-Vr1 mAP r1 mAPR1mAP r1地图表3. RegDB上的消融研究SHLSPLSASMOAPAREShTSPTR1地图1J-------42.445.02JJ------48.149.33JJJ-----52.353.14JJJJ----56.157.25JJJJJ---58.757.96JJJJJJ--60.359.47JJJ---JJ60.860.18JJJJ--JJ67.567.69JJJJJ-JJ71.171.210JJJJJJJ-65.866.111JJJJJJ-J64.965.312JJJJJJJ J72.372.94.3. 消融研究在本小节中,我们研究了所提出的算法的每个组件的有效性。特征提取器结构的有效性。 我们首先评估有多少改进可以由特征提取器的结构。我们消融了特定的特征提取流,并评估了共享特征的性能,以查看影响。结果在表3的第1和第2行中示出,表示为 ShL(共享特征学习)和SpL(特定特征学习)。特定流可以带来约5.7%的Rank-1准确度的增加,因为它们可以将特定于模态的梯度反向传播到低级别特征图。本文还测试了浅层分流的影响。第三阶段(SaS:Separating at Shal-low)的实验结果表明,对于更多的区分性特征,该算法可以获得4.2%的增益.互补学习的影响。我们评估了每个模块在互补学习中的有效性。由于互补学习会影响特征提取器和分类器的特征,因此我们设计了两组实验来分别观察这种影响。的对特征提取器的影响在表3的第4 - 6行中示出。第7 - 9行显示了STEM的结果。我们可以看到,所有模块(模态适应(MoA),投影对抗(PA)和重建增强(RE))可以使骨干共享特征,单次查询47.7 54.1 57.4 59.1 65.4 65.6 63.8 64.2所有查询61.6 63.2 63.4 62.0 72.3 72.9 71.0 71.7分别用于特征提取器和STEM的增量特征转移的有效性。我们的目标是量化所提出的特征转移策略的贡献。首先,我们想知道所提出的转移方法本身是否只适用于共享特征。通过比较表3中的第6行和第10行(仅转移共享特征,定义为ShT),我们可以看到特征转移带来了5.5%的Rank-1和6.7%的mAP改进。其次,我们要验证模态特定的功能是否可以积极地贡献有价值的信息,最终表示。根据第10行和第12行(传递两种特征。SpT是指转移特定功能。)从表3中,我们可以看到,Rank-1和mAP的整体性能分别增加了6.5%和6.8%为了进一步验证特定特征迁移的有效性,我们也尝试只迁移特定特征。结果如第11行所示,表明仅转移特定特征也可以获得令人满意的性能。特征转移阶段不仅贡献了总体12.0%的Rank-1和13.5%的mAP改进,而且还验证了可以很好地探索模态特定特征以更好地重新识别。数据和网络增强的影响。为了公平的比较,我们也给出了没有随机擦除的数据增强的结果对于每个特征块,我们还使用常用的全连接层来代替BN- Neck。结果示于表4中。可以看出,在没有增强的情况下,我们的基线比最先进的(AlignGAN [42])方法的基线但是我们的模型仍然可以在SYSU-MM 01数据集上抑制SOTA 10.0%和mAP 12.1%。在RegDB数据集上,我们的 方 法 可 以 在 Rank-1 上 抑 制 4.3% , 在 mAP 上 抑 制9.4%。数据和网络的增加可以在主干上带来13%的增量,在我们的方法上带来9%的增量。与-Sunday的功能更有区分力。整个复合式学习方案可带来约8%和12%的收益-在此基础上,我们的模型仍然达到了最先进的性能,证明了我们的方法的有效性。13386mAP等级-1SOTA mAPSOTA等级1Q60555045图3.重建的例子。第1至第4行分别对应于原始图像、共享特征重建、特定重建和所有特征重建结果。4.4. 共享和特定功能的可视化。我们利用重建解码器来可视化模态共享和特定特征的信息。我们在方程中去掉了Pm和Hm。(16)分别观察重建图像的变化。输出如图3所示。 我们可以看到,共享特征重构结果是不同的,并且在视觉上与特定特征互补。对于RGB图像,共享特征包含较少的颜色信息,这些信息在由RGB特定特征重建的图像中找到Thespecific features carried more color infor- mation but areless smooth.对于红外图像,我们还可以观察到特定特征与共享特征不同这两种特征的结合产生了高质量的图像。这证明了我们的特征提取器产生的共享特征和特定特征是互补的。4.5. 实际场景应用我们的cm-SSFT中的Scrum在不同模态样本之间传递信息。每个样本融合来自其模态间和模态内k近邻的信息。这种设置假设其他查询样本被视为辅助集。然而,在一些实际应用场景中,可能没有或只有少数辅助日期。为了证明我们的方法不局限于实验环境中的一些强假设,我们展示了如何将cm-SSFT应用于这样的单一查询场景,这也达到了最先进的性能。我们训练cm-SSFT算法与本文所示完全相同。而在测试阶段,Synchronous仅在一个查询图像与图库图像之间传播信息我们稍微稳定亲和模型A如下:400 500 1000 1500 2000 2500 3000 3500 4000辅助集的大小图4.查询数量的影响虚线对应于SOTA方法。实线对应于我们的。可以看出,我们将亲和矩阵的左列块放大k倍,这是为了平衡两种模态的信息。实验示于表5中。由于模态内特定信息补偿不足,与所有查询相比,性能下降。但是我们的方法仍然比最先进的方法和我们的基线方法实现了更好的性能。此外,我们还测试了辅助集的影响。实验在MM01数据集上进行,因为它的查询集很大。我们从查询集中随机抽取n个图像,并观察性能的变化。对于特定的n,我们运行10次以获得平均性能。n的范围从1(单个查询)到所有查询大小。结果如图4所示.我们可以看到,随着辅助集的大小增加,性能很快饱和。5. 结论本文提出了一种跨模态共享特征传递算法,该算法可以利用传统共享特征学习所忽略的特定特征它在模态之间传播信息,不仅弥补了特定信息的缺失,而且增强了整体的区分度。我们还提出了一种互补学习策略来学习自鉴别和互补特征。大量的实验验证了该算法的优越性能,以及算法的各个组成部分的有效性。6. 确认这项工作得到了基本的支持,Σ ΣZ=z,A=mZG。(二十二)中 央 高 校 科 研 经 费 ( WK2100330002 、WK3480000005 ) 和 浙 江 省 实 验 室 重 大 科 研 项 目(No.2019DB0ZX01)。k·Aq,qk·AG,qT(Aq,G,k)T(AG,G,k)13387引用[1] 宋白、项白、齐天。监督平滑流形上可扩展的人物再识别 在 Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition,第2530-2539页[2] Weihua Chen , Xiaotang Chen , Jianguo Zhang , andKaiqi Huang.除了三重态损失:一个深度的四元组网络用于人的重新识别。在IEEE计算机视觉和模式识别会议(CVPR),第2卷,2017年。[3] Ying-Cong Chen,Wei-Shi Zheng,and Jianhuang Lai.镜像表示用于建模人重新识别中的视图特定变换。2015年第二十四届人工智能国际[4] Pingyang Dai,Rongrong Ji,Haibin Wang,Qiong Wu,and Yuyu Huang.跨模态的人重新识别与生成对抗训练。在IJCAI,第677-683页,2018年。[5] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的 直 方 图 。在 计 算 机 视 觉 模 式 识 别 国 际 会 议(CVPRIEEE计算机学会,2005。[6] Pengfei Fang , Jieming Zhou , Soumava Kumar Roy ,Lars Pe- tersson,and Mehrtash Harandi.用于人物检索的双线性注意网络。在IEEE国际计算机视觉会议论文集,第8030-8039页,2019年。[7] Zhanxiang Feng,Jianhuang Lai,and Xiaohua Xie. 学习模 态 特 定 表 示 用 于 可 见 - 红 外 人 再 识 别 。 IEEETransactions on Image Processing,29:579[8] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672[9] Jiuxiang Gu,Jianfei Cai,Shafiq R Joty,Li Niu,andGang Wang.看,想象和匹配:用生成模型改进文本视觉跨模态检索。在IEEE计算机视觉和模式识别会议论文集,第7181-7189页,2018年[10] 郭建元,袁玉辉,黄朗,张超,姚金戈,韩凯.超越人类的部分:双重部分对齐表示的人重新识别。在IEEE计算机视觉国际会议的Proceedings中,第3642-3651页[11] Frank Hafner, Amran Bhuiyan ,Julian FP Kooij, andEric Granger.跨模态蒸馏网络用于rgb深度的人物再识别。arXiv预印本arXiv:1810.11641,2018。[12] Chanho Eom Ham et al.学习解纠缠表示鲁棒的人重新识别。arXiv预印本arXiv:1910.12003,2019.[13] Yi Hao , Nannan Wang , Jie Li , and Xinbo Gao.HSME:用于可见热人体再识别的球面流形嵌入在AAAI人工智能会议论文集,第33卷,第8385-8392页[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功