没有合适的资源?快使用搜索试试~ 我知道了~
1430822基于双噪声标签学习的可见-红外人脸识别杨谋兴1,黄振宇1,胡鹏1,李泰豪2,吕建成1,奚鹏1*1四川大学计算机学院。2浙江实验室,中国。{yangmouxing,zyhuang.gm,penghu.ml,pengx.gm} @ gmail.com;lith@zhejianglab.com;lvjiancheng@scu.edu.cn摘要本文研究了可见-红外人脸识别中一个尚未解决的问题,即双噪声标签问题。简而言之,一方面,由于数据收集和注释的复杂性,不可避免地用错误的身份注释一些人红外模态中的可识别性差另一方面,单一模态中的错误注释数据甚至会-可见模态红外模态拉推最终污染了跨模态对应关系,因此导致噪声对应。为了解决TNL问题,(a)嘈杂的注释(b)嘈杂的通信图1.VI-ReID中的双噪声标签在图中,Vj/Rj我我lem, we propose a novel method for robust VI-ReID, termedDuAlly Robust Training (DART).简言之,DART首先通过诉诸深度神经网络的记忆效应来计算注释的干净置信度。然后,所提出的方法纠正噪声对应估计的信心,并进一步划分为四组数据进一步利用。最后,DART采用了一种新的双重鲁棒性损失,包括软识别损失和自适应四重损失,以实现对噪声注释和噪声对应的鲁棒性。在SYSU-MM 01和RegDB数据集上进行的实验验证了该方法与五种最先进的方法相比对双噪声标签的有效性。该代码可以从https://github.com/XLearning-SCU/2022-CVPR-DART访问。1. 介绍人员重新识别(ReID)旨在匹配图库集中的指定人员。然而,大多数现有的个人Re-ID方法[3,4,28,32 - 34 ]仅关注于搜索由可见光相机捕获的RGB图像,这可能无法在较差的照明环境下实现令人鼓舞的结果(例如,晚上)。为了解决这个问题,一些可见-红外人再识别(VI-ReID)方法,*通讯作者表示具有来自视觉/红外模态的注释标识j的样品i,并且颜色表示潜在的正确标识。(a)噪声注释:由于红外模态中的可识别性差,标识1和2的样本2将被混淆,从而分别被错误地标注为标识2和1,即,、R1和R2是噪声注释。(b)噪声对应:由于跨模态对是借助于注释来构造的,因此由于噪声注释,正对和负对都可能是假的在这种嘈杂的对应关系下,假阳性和假阴性将分别在训练期间被错误地拉和推ODS [17,18,23,26,29]已经被提出来寻找跨两种模态的对应身份。更具体地说,这些方法通常利用身份注释来建立跨模态对应,从而扩大身份感知区分并消除跨模态差异尽管VI-ReID已经取得了令人鼓舞的性能,但它的成功在很大程度上依赖于高质量的注释数据。 然而,在实践中,由于识别能力差,特别是在红外模态中丢失了颜色信息,因此精确地注释所有样本是令人生畏的,甚至是不可能的。第1(a)段。结果它不可避免地会导致噪声标注(NA)问题,从而降低ReID模型的性能。虽然一些研究[30,31]致力于减轻性能,V1V112V21V22R11R12R21R22V11V11R1:1R2:1R1:1R2:2V11V11R1:2R2:1R1:2R2:214309噪声标注引起的语音质量下降,但都只关注可见模态ReID中的噪声标注问题,而忽略了多模态情况,如VI-ReID。此外,一旦考虑多模态Re-ID,将遇到另一个特殊的噪声标签,即。噪声对应(NC)。更正式地说,我们将噪声对应定义为不匹配的跨模态对,其对应通过使用来自其各自模态的噪声注释来建立。如示于图 1(b),这种跨模态对构造方法将不可避免地导致VI-ReID的噪声对应,即,、假阳性(FP)对和假阴性(FN)对。基于上述观察,本文提出了一个新的问题,称为双噪声拉贝尔(Twin Noisy La-bels,TNL)。与传统的噪声标签研究[6,6,10,12,16]不同,TNL同时考虑类别中的NA和跨模态对中的NC。应当指出的是,由于以下原因,采用现有的面向NA的方法来校正VI-ReID中的噪声注释使得TNL问题得以解决是不可行的。首先,大多数现有的噪声标记方法的成功主要限于小类别数的情况,而ReID中的类别(每个)数至少为数百第二,尽管存在类别编号的问题,但不可能完全纠正所有噪声注释并相应地避免噪声对应问题。换句话说,TNL在实践中不可避免。第三,由于采样和联合优化的困难,通过采用现有的噪声注释方法(如[10])来纠正VI-ReID的错误注释是不平凡的,并且难以实现有希望的结果为了进行全面的研究,我们在补充材料中提出了验证上述主张的实验为了解决VI-ReID中的TNL问题,我们提出了一种新的方法来学习噪声注释和对应关系。提出的双重鲁棒训练(DART)由一个新的目标函数的共同建模和对划分详细地,联合建模模块首先借助于深度神经网络的记忆效应来计算每个样本的干净置信度。然后,对划分模块校正噪声对应与置信度,并进一步将噪声对划分为四个子集,即,真阳性对(TP)、真阴性对(TN)、假阳性对(FP)和假阴性对(FN)。最后,为了实现鲁棒的VI-ReID,我们提出了一种新的双重鲁棒目标函数,该目标函数由软识别损失和自适应四重损失组成。简而言之,在学习身份感知表示的同时,采用软识别损失来惩罚噪声注释的样本。自适应四元组丢失利用上述四种对来减轻模态差异。这项工作的贡献和新颖之处可归纳如下:• 我们揭示了一个新的问题VI-ReID,称为双噪声标签,这可能是一个新的范例噪声标签。与现有的噪声标签研究只考虑NA问题不同,TNL既考虑了类别中的NA,也考虑了跨模态对之间的NC值得注意的是,据我们所知,还没有关于带有噪声注释的VI-ReID的研究,更不用说更实用和更具挑战性的TNL问题了。• 为了实现鲁棒的VI-ReID,我们提出了一种新的TNL学习方法,称为双重鲁棒训练。据我们所知,所提出的方法可能是第一个成功的解决方案TNL。• 在SYSU-MM 01和RegDB数据集上的大量实验验证了该方法与五种最先进的方法相比对双噪声标签的有效性。2. 相关作品在本节中,我们将简要介绍与本研究相关的两个top-ics,即VI-ReID和带噪声标签的学习。2.1. 可见光-红外线身份再识别为了缓解跨模态差异,过去几年提出了许多VI-ReID方法[2,11,14,17,22,23根据对这种差异的选择,现有的方法可以分为以下三种:i)基于网络设计的方法[2,11,22,23,27],其目的是学习跨模态共享的判别表示; ii)基于度量设计的方法[28,29],其旨在设计不同的度量或损失以减轻模态差异; iii)基于模态变换的方法[7,18,20,21,26],其旨在找到变换或增强策略以弥合模态的差距。几乎所有现有的VI-ReID方法都假设标注是无故障的。然而,在数据收集中不可避免地引入噪声注释,这将同时导致噪声对应,如上文所详述。再次注意,据我们所知,到目前为止,还没有致力于具有噪声注释的VI-ReID,更不用说本文中揭示的双噪声标签2.2. 用嘈杂的标签带噪声标签的学习是机器学习社区中一个长期存在的问题。大多数现有的方法[5,6,10,12,16,19]旨在对抗噪声。14310IJ我联系我们IJ联系 我们Σ联系我们|J我i=1我i=1我J不我 i=1我 我 i=1我 我我我我 我i=1我 我i=1IJ我NvrNrN联系我们我IjIJv v rr通过设计鲁棒的损失、噪声滤波器或鲁棒的架构来在分类任务中进行注释。最近,[30,31]通过提出实例重新加权策略和特征不确定性损失,分别关注于处理可见个人重新识别(ReID)任务中的噪声注释。在此基础上,采用基于三元组的损失和识别损失来缓解模态差异,同时保证身份感知的歧视。然而,噪声注释可能会导致一些噪声对应。更具体地说,对应关系是-活泼地 在跨模态检索方面,[8]建议正对(yp=1)或负对(yp=0)用否定的方式与嘈杂的注释作斗争IJ可能被错误地认定为p=0或ypIJ=1因为学习策略除了嘈杂的注释,最近,[24,25]发现对比学习中否定对的对应可能是错误的,即。假阴性,并设计一个噪声鲁棒对比度损失来处理。[9]正式发布了跨模态对的对应可能是假的,并提出处理误报以实现鲁棒的跨模态匹配。在上述研究中,[8,9,24,25,30,31]可能是最相关的,但它们在以下方面存在显著差异。首先,[30,31]仅考虑了单模态ReID中的噪声注释问题,而我们的研究揭示了VI-ReID中伴随噪声注释第二,[8]直接使用现成的跨模态对很难知道具有清晰注释的样本i。为了解决这类双噪声标签问题,我们提出了一种DART算法,该算法由联合建模模块和对划分模块以及一个联合鲁棒目标函数组成二、3.2. 联合建模首先,DART将把可见光和红外模态投影到共享的潜在空间中,以计算特征并通过Fv,Cv和Fr,Cr的两个模态特定网络预测xv和x的身份,其中Fv和Fr是具有一些共享层的两个特征提取器[26,28],Cv和Cr是两个分类器。利用特征Ft(xt)和注释yt,我我在VI-ReID任务中不可用的实例级。此外,[24,25]和[9]分别表明了FN和FP的存在,并且所提出的方法只能对FN或FP具有鲁棒性相反,DART考虑了所有可能的噪声对应情况,并且所提出的损失对TP、TN、FP和FN是鲁棒的。3. 方法在本节中,我们详细介绍了所提出的DART,它可能是解决VI-ReID中双噪声标签问题的首批尝试之一。简而言之,第3.1节将给出VI-ReID中TNL问题的正式定义。然后,第3.2节介绍了联合建模模块,该模块旨在通过借助深度神经网络(DNN)的记忆效应来计算每个样本的正确注释置信度。基于置信度,第3.3节详细说明了如何将配对分为不同的组并纠正它们的对应关系。最后基于关于置信度和对划分,第3.4节详细说明分别得到了特征矩阵Yp和距离矩阵D,其中yp是噪声对应关系,dij表示(xv,xr)在潜在空间中的距离.即dij=<$F(x)−F(x)<$2。(一)如3.1中所讨论的,注释yt和对应yp都可能是噪声。为了处理嘈杂的注释问题,我们采用经验发现[?]中的DNN的理论效应。更具体地说,DNN易于拟合简单模式,从而导致干净(即,简单的)样本。基于该观察,可以通过对损失分布建模来计算样本被正确注释的具体地说,给定具有参数θt(t)的模态特定网络Ft,Ct,v,r),我们通过下式计算每样本识别(交叉熵)损失:l id(θ)=. l idNt =. Lid(xt,yt)<$Nt,(2)提出了由软辨识和自适应四重损失组成的鲁棒目标函数3.1.问题公式化式中,Lid是普通识别损失,定义如下:Lid(xt,yt)= − log P。yt|C t. F t. 我知道了。(三)为了清楚起见,我们使用V={xv,yv}v和R=在[10]之后,我们拟合每个样本的损失分布所有训练数据通过建模一个双分量高斯{xr,yr}Nr 表示可见光图像xv和红外线图像混合模型如下:具有相应注释yt的图像xr,其中Nti iK是图像的数量,并且t v,r。给定可见光/红外查询,VI-ReID旨在匹配来自红外/可见光图库集合的相同身份的图像。为此,大多数现有方法首先构造跨模态正负对,即, (xv,xr),其中,p(l id|θ t)= γ k φ(l id|(k)、(4)k=1其中γk和φ(lid k)分别是第k个分量的混合系数和概率密度Ac-响应pI ji.f.f.vp.根据DNN的记忆效应,yij= 1yi=yr,否则yij= 0y14311联系我们(yIJCPIJIJJ ∈ S(xi,xj),yij我JIJIJIJ热身建模司培训(a) (b)双重强有力的培训框架图2.所提出方法的概述。(a):灾难援助反应队的培训管道。简言之,DART由两个单独的网络(A,B)组成,它们以共同教学的方式工作更具体地,DART首先通过使用等式A和B两者预热2、初始化。之后,在每个时期,执行以下过程首先,网络A/B对每个样本的识别损失分布进行建模,以估计每个样本的正确注释的置信度w,然后将w输入B/A进行进一步训练。下一步将把数据对分成四个子集,即:、TP、FP、TN和FN,并纠正其对应关系。最后,使用估计的置信度和校正对(b):A和B的双重强大培训框架。在图中,“S”、“+"和“分别表示锚样本、阳性样本和阴性样本。置信度高于特定阈值的样本将显示为绿色,否则显示为红色。如图所示,主干将首先分别提取可见光和红外模态的特征。然后,特征被馈送到分类器以获得预测并用于构造对应矩阵。然后,用估计的置信度建立对应矩阵,由于置信度过低,红色的锚将被丢弃在配对划分模块的帮助下,配对将被分类为四个组,然后将其组合为三元组(参见(b)的一些组合示例)以进行优化。最后,预测、三元组和置信度通过最小化损失来实现双重鲁棒训练。每个样本i的正确注释的置信度wi通过小平均值分量κ上的海报概率,从内部和跨模态构建配对对于具有噪声对应yp的给定对(xt1,xt2)i j ij即、其中tk v,r,k1,2,我们在w i=p(κ |I id)。(5) 估计注释置信度以将它们划分为干净的p我部分Sct1t2而且很吵如果神经网络简单地用部分Sn={(xt1,xt2),yp| wi>η,wj≤η},wherei和ji jijyp=1)或负值自我示范的信心。为了避免这种偏差,我们采用了联合建模的方法.具体来说,我们分别训练了两组具有相同结构的网络而不同的初始化,即,,A={Fv,Cv,Fr,Cr}索引锚和正(ijp=0)样本。值得注意的是,我们丢弃锚点置信度小于η的对,正确划分。在纠正了且B={Fv,Cv,Fr,Cr}A a a A{Sc,Sn},新获得的对应关系表示为B BBB.在每个时期,网络{Sc,Sn}. 整流操作如下:A或B将分别对GMM进行建模以拟合用于计算置信度的损失分布。然后,置信度被馈送到另一个网络中进行进一步训练。值得注意的是,在[1,6,10,25]之后,通过使用香草交叉熵损失(等式10),每个网络都采用了预热策略3)初始化。其中I(ypp=I(yp∈ S)<$y,(6)∈ Sc)表示该对是否属于3.3. 配对分组干净部分或不干净部分,而xNOR是xNOR操作。等式6意味着如果正对(yp=1)来自Sc,由于联合建模模块,可以估计注释的干净之后,我们将进一步将这些部分分为四个子集,即。真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)对。在[28]之后,我们采用了模态组合策略,则它是TP;否则是FP。类似地,将来自Sc和Sn的负值分别处理为TN和FN对于FN对,我们将进一步完善它以提高准确性。具体地说,对于一个负样本xt2n,如果它的置信度wj不大于η(i. e. ,wj≤η),同时其识别性不同于锚样本(即, yt1/= yt2)。到一B一B特征预测FvCv10信心S1 ++---+S2 +--- -一种++S3---配对S1 正++S3 +-—-- S4 + +司S4-+的--- +S5 +S6-- -一种—-- ++S6三元组示例对应矩阵FrCr信心10特征预测y但如[6]所示,它可能会引入错误AC。=wi>η, wj>η{|S1 ++---+S2 +---+ +S3------ S4 ++--- +S5 +--- + +S614312一(yIJikIJy锡德LL⊗Ⓢqdtyy pp联系我们LJJTP-TN(y_ij=1,y_ik=0),FP-FN(y_ij=0,我我我ikikikIJ+锚S-M(一)+锚S-M(b)第(1)款+-锚S-M(c)第(1)款++锚S-M(d)其他事项真阳性真阴性假阳性假阴性重采样真阳性/真阴性图3.四种三胞胎由于双噪声标签。对于每一个三重态,提出的四重态损失(方程10)。10)将自适应地变成不同的变体,以实现鲁棒学习。回想起这样的TN对,我们用p修改了它们的对应关系=0)样本。 多亏了我们的搭档迪维-pt ttt ttt tn模块,这些三元组可以被分组为一个组件,y<$ij=I(C(F(xi1))=C(F(x2),<$(xi1,x2)∈SP P P(七)其中Ct(Ft(xt))是注释预测。 等式6p=1)、TP-FN(y=p=1,y=p=1)、FP-TN(y=p=0,我7、将所有训练对分为TP、FP、TN和FN子集。3.4. 双重鲁棒目标函数通过协同建模和模块划分,DART可以获得标注的置信度,并校正对的对应关系。然后,我们使用以下损失p=0)与它们的校正对应。值得注意的是,最后三种组合是本文重点讨论的噪声对应。为了解决这种噪声对应问题,我们提出了以下自适应四元组损失:Lqdr=Ltri+Lqdt(10)其中Ltri定义为:实现强大的VI-ReID:(ypyp)(1−yp)(ypyp)(1−yp)三(−1)ij ikijdij+(−1)ijik ikdikppppL=L+L,(8)(−1)(1−yij)(1−yik)2yijyik(十一)其中SID和QDL是软识别损失和四元组损失,它们分别被提出来对抗噪声注释和噪声对应。下面,我们对每一项损失逐一进行阐述。其中m是在我们的实验中固定为常数的裕度,并且分别表示XOR和XNOR操作。 由于TP-FN和FP-TN都由同质对组成,现有的三重态损耗无法处理这种情况。因此,我们建议另外采样一对(xt1,xt4)的con-1。对噪声注释的鲁棒性:而不是简单地用噪声注释梳理样本,使用以下四元组项时的置信度ws> η网络A或B,我们利用置信度w惩罚-p pL=(−1)(yy)d.(十二)我在优化过程中消除噪声为此,伊季伊克IJii为提出了软识别损失当量12将生效时,对(xt1,xt2)和I jt1 t3 具有相同的对应关系,即, 他们是TP-Lsid=−wlogP。yt|C t. F t. 中国(9)(xi,xk)FN或FP-TN三联体。在下文中,我们将详细介绍其中tv,r表示可见光或红外模态。对噪声对应的鲁棒性:有了四个对子(TP、FP、TN和FN),DART需要减轻Lqdr在不同情况下所享有的鲁棒性• TP-TN(图3(a)):F或分为TP(y=1)或TN(y=0)的对在他们的帮助下,模式差异。由于vanilla三联体损失只能处理TP和TN的组合,因此有必要开发一种新的方法,该方法可以处理四个子集的所有可能的组合(以三联体的形式)。ik),目标是减少成对TP的距离而增加TN的距离本案中QDR将自适应地变成如下的普通三重损失:qdr=[dij−dik+m]+.(十三)• FP-FN(图3(b)):F或分解为FP(y=p)的对+--+yL=m+、L14313IJ我12J3KKQDR为此,设计了Lqdr,其可以是adap-pij不同的组合。正式地说,如果有一个三胞胎0) 或FN(y=1),目标是增加成对. xt,xt,xt,其中t∈ {v,r},k∈ {1,2,3},其对-FP的距离,同时减少FN的距离然后,Lqdr注意锚的索引,正(yp=1)和负L=[−dij+dik+m]+,(14)变成:明智的距离表示为dij和dik,其中i,j,kde。14314LQDRIJik+• TP-FN(图3(c)):F或划分为TP(y)的对,p=·Re gDB[13]:数据集包含412个图像的8,240个图像1) 或FN(y=1IJ由双摄像头收集的身份(一个可见,目的是增加对-TP和FN对的距离然后,QDR变成:一个红外)系统。对于每个身份,有10个可见光和10个红外图像。L=[−d], +dij+dik+m]2个以上.(十五)为了验证DART对噪声标签的鲁棒性,我们参考[31]中使用的设置。详细地说,我们从每个训练图像中随机选择特定百分比的训练图像• FP-TN(图 3(d)):F或被划分为FP(y_p=0)或TN(y_p=0)的对,目标是减小FP和TN两者的成对距离。然后,Lqdr变为:模态和随机分配错误的身份给他们。为了公平比较,我们遵循大多数现有VI-ReID方法中使用的常见测试简而言之QDR =[d是−dij+dik+m]。(十六)2SYSU-MM 01数据集包括两种测试模式,即全搜索和室内搜索模式。RegDB数据集包含两个测试设置,即可见光到红外和红外到可见光。在[17,23,26]之后,4. 实验在本节中,我们在SYSU-MM 01 [22]和RegDB [13]数据集上进行实验,以验证DART对双噪声标签的鲁棒性。由于篇幅所限,我们在实验材料方面做了更多的实验。4.1. 实验设置DART是一个通用框架,它可以赋予几乎所有现有的VI-ReID方法对双噪声标签的鲁棒性。因此,ADP[26]用于验证DART的有效性,DART是最近提出的VI-ReID方法。具体地说,我们保留了ADP的主干和管道,除了损失函数。为了赋予ADP鲁棒性,我们采用了双鲁棒目标函数的协建模和对划分模块。在实验中,在PyTorch中实现了DART1.7.0 [15] 所 有 评 估 均 在 Ubuntu 20.04 操 作 系 统 上 的GeForce RTX 3090 GPU上进行。保证金在当量11,置信度估计的阈值和预热时期对于所有实验分别固定为0.3、0.5和1。在测试阶段,类似于大多数多视图学习方法[?,?],我们简单地使用模型A和B的平均输出作为推理的最终表示。为了进行评估,我们使用了所有两个公开的数据集。具体来说• SYSU-MM 01 [22]:它是在SYSU校园内使用四个可见相机和两个近红外相机在室内和室外环境下收集的大规模VI-ReID数据集。训练集由分布在395个身份上的22,258个可见光图像和11,909个红外图像组成,而查询和图库集分别由来自96个身份的3,803个红外图像和301个随机采样的可见光图像组成,用于单次评估。对于SYSU-MM 01数据集,我们使用10个随机图库集来评估两种测试模式下的性能。对于RegDB数据集,我们在两种测试设置下使用不同的训练/测试分割进行了10次试验。在评估中,我们报告了累积匹配特征(CMC)、平均平均精度(mAP)和mINP的平均结果[26,28]。4.2. 与艺术在本节中,我们将DART与SYSU上的五种最先进的VI-ReID方法进行比较,即AGW [28],DDAG [27],LbA [14],MAPNet [23]和ADP [26]MM01和RegDB数据集。对于广泛的评估,噪声比从0%、20%到50%不等。此外,我们还报告了在干净的SYSU-MM 01和RegDB数据集上通过丢弃具有噪声符号的样本(由ADP-C表示)显然,ADP-C是一个相当强基线,因为使用的数据不包含任何噪声标签。当噪声比为0%时,我们参考了有关文献的结果.对于其他噪声比,我们使用建议的设置训练基线,并在表1和表2中报告相应的结果。从结果中,可以观察到DART在无噪声设置下与ADP竞争,即使DART是专门设计用于对抗双噪声标签的。当数据被噪声注释污染时,DART显著优于所有基线。此外,即使与在干净数据上训练的ADP-C相比,DART也将mAP提高了4。16%,2. 87%,3. 89%,3。SYSU-MM 01和5上的94%。94%,4. 02%,0. 43%和二、在噪声比为1.5%的四次估值中,两成和五成。4.3. 消融研究在本节中,我们对SYSU-MM 01进行消融研究,以验证DART中每个组件的重要性。由于DART赋予ADP三个L14315L表1.分别在噪声比为0%、20%和50%的SYSU-MM 01数据集上与最先进的方法进行比较。最好和次好的结果用粗体和下划线突出显示。噪声方法秩-1全部搜索十阶二十阶地图mINP秩-1室内搜索十阶二十阶地图mINPAGW(TPAMI2021)47.5084.3992.1447.6535.3054.1791.1495.9862.9759.23DDAG(ECCV2020)54.7590.3995.8153.0239.6261.0294.0698.4167.9862.610%的百分比LbA(ICCV 2021)MPANet(CVPR2021)55.4170.58–96.21–98.854.1468.24––58.4676.74–98.21–99.5766.3380.95––ADP(ICCV 2021)69.8895.7198.4666.8953.6176.2697.8899.4980.3776.79DART(我们的)68.7296.3998.9666.2953.2672.5297.8499.4678.1774.94AGW(TPAMI2021)17.6856.8072.4518.158.5520.8365.0182.4329.8025.31DDAG(ECCV2020)14.5546.5861.8113.995.5615.1350.6869.3322.3718.34LbA(ICCV 2021)9.8639.4755.8510.233.8410.1044.0664.4517.3913.97百分之二十MPANet(CVPR2021)21.5963.5878.7121.21–23.8070.1886.4433.17–ADP(ICCV 2021)25.4467.5580.8823.7111.0526.6170.6885.1934.9729.61ADP-C(ICCV 2021)63.6794.1397.7861.5748.0268.5296.1398.7373.8269.66DART(我们的)66.3195.3198.3864.1350.6970.5297.0899.0375.9472.30AGW(TPAMI2021)7.9337.5655.789.754.389.6147.8770.4718.1415.22DDAG(ECCV2020)6.6828.9543.777.522.938.3937.8757.8615.1212.33LbA(ICCV 2021)2.6717.7830.274.151.854.8729.3948.9710.968.63百分之五十MPANet(CVPR2021)6.9832.7549.168.20–8.4740.7161.3715.85–ADP(ICCV 2021)8.0042.5562.1410.835.2111.4952.9976.7720.8117.53ADP-C(ICCV 2021)59.1792.5297.2856.4941.8062.9994.8498.0869.0564.29DART(我们的)60.2793.4197.4758.6945.3365.7495.0498.2371.7768.14表2.分别在噪声比为0%、20%和50%的情况下,在RegDB数据集上与最先进的方法进行比较。最佳和次佳结果以粗体和下划线突出显示。噪声方法可见秩-1热地图mINP热至可见光秩-1地图mINPAGW(TPAMI 2021)70.0566.3750.1970.4965.951.24DDAG(ECCV 2020)69.3463.4649.2468.0661.8048.620%的百分比LbA(ICCV 2021)MPANet(CVPR2021)74.1783.7067.6480.90––72.4382.8065.4680.70––ADP(ICCV 2021)85.0379.1465.3384.7577.8261.56DART(我们的)83.6075.6760.6081.9773.7856.70AGW(TPAMI 2021)47.7731.3512.4347.1830.8611.85LbA(ICCV 2021)35.9923.487.4936.1822.756.74DDAG(ECCV 2020)39.2725.7410.0337.6925.079.61百分之二十MPANet(CVPR2021)33.8323.50–32.6222.06–ADP(ICCV 2021)50.7135.9214.1249.9834.7512.62ADP-C(ICCV2021)78.3970.0251.8075.8168.9551.19DART(我们的)82.0474.1857.8979.4871.7254.47AGW(TPAMI 2021)21.8713.403.9320.9812.953.70DDAG(ECCV 2020)24.0314.444.2521.4613.384.28LbA(ICCV 2021)11.656.681.5310.246.341.46百分之五十MPANet(CVPR2021)9.516.13–11.416.67–ADP(ICCV 2021)17.0411.253.5520.2812.313.24ADP-C(ICCV2021)77.4366.7547.2574.8963.0541.83DART(我们的)78.2367.0448.3675.0464.3843.62组件,我们对以下变量进行研究。更具体地说,所提出的联合建模模块和软识别损失(等式1)。9)被添加到ADP上以验证DART对噪声注释的鲁棒性,其被表示为此外,对分裂模块和特殊的三重态损失(方程。11)来验证对噪声对应的鲁棒性。第三个变量是添加四重态项(等式2)。12)验证DART在处理FP-TN和TP-FN三元组中的能力,并且这种能力可以进一步提高对噪声对应的鲁棒性。结果总结在表3中,其说明每个组分在对抗双噪声标签中起着不可分割的作用。14316表3. SYSU-MM 01的消融研究,全搜索模式下噪声比为20%。全搜索评价方法(a) 预热前(b)预热(c)没有EQ。9(d)与Eq. 9图4.不同情况下的单样本损失分布4.4. 鲁棒性在本节中,我们定性地分析了DART对噪声注释和噪声对应的鲁棒性秩-1十阶二十阶地图mINPBB +L侧B +L侧+L三B +Lsid+Ltri+Lqdt25.4449.2465.4466.3167.5589.1495.0195.3180.8895.6698.1398.3823.7146.7863.1564.1311.0531.3250.3550.6914317SYSU-MM 01数据集上的证据,噪声比为百分之二十对噪声注释的鲁棒性:如第3.2节和第3.4节中所讨论的,DART在软识别损失的帮助下对噪声注释具有鲁棒性(等式3.1)。第9段)。为了直观地显示所实现的鲁棒性,我们说明了所有训练样本在预热之前和之后的每个样本识别损失分布9 .第九条。结果示于图4,从中可以有以下观察。首先,经过预热阶段,大多数干净样本的损失小于噪声样本的损失,这验证了神经网络将首先拟合干净样本。由于仍然存在不可忽略的干净样本和噪声样本的混合,DNN将随着优化而持续拟合噪声,而不需要等式2。9 .第九条。换句话说,我们的损失将阻止噪声注释主导网络优化。表4.四类偶类型TPFPTNFN百分比(%)60.6239.3895.994.01(a) (b)DART的 TP-FP分布(c) 变量的TN-FN分布(d)DART的TN-FN分布图5.分别通过ADP [26]和DART计算的TP和FP对、TN和FN对对噪声通信的鲁棒性:如第3.3节和第3.4节所述,DART通过采用自适应四重损失(等式10),对噪声对应具有鲁棒性。10)和对分模块。为了显示所实现的鲁棒性,我们将DART上的TP和FP对以及TN和FN对的成对距离分布与仅使用Eq.9和香草三重损失。 四类配对其分布情况见表4和图5。五、从图5中,可以观察到该变体不能处理噪声对应。结果,TP和FP对以及TN和FN对被混淆。相反,DART可以正确区分这些情况,因为它将防止噪声对应主导网络优化。换句话说,DART在训练过程中会强制TN和FP的距离大于FN和TP的距离,从而消除噪声对应的影响。(a)(b)第(1)款图6. DART+AGW和AGW在SYSU-MM 01和RegDB上不同噪声比的性能比较。4.5. 概化研究在本节中,我们通过赋予AGW [28]对双噪声标签的鲁棒性来验证DART的可推广性。如图6.当噪声比在0%~ 50%范围内以10%的间隔变化时,我们的方法(DART + AGW)比AGW有相当大的性能裕度。这证明了DART的通用性和鲁棒性。5. 结论在本文中,我们研究了VI-ReID中的一个新问题,即:双噪声标签(TNL)是指噪声标注和噪声对应。为了解决这个问题,我们提出了DART估计清洁的注释的置信度,然后纠正嘈杂的对应。通过将数据对划分为四个子集,DART采用了一种新的双鲁棒损失来学习双噪声标签。我们相信这项工作可能会显着丰富的学习范式与嘈杂的标签,同时考虑嘈杂的注释和伴随的嘈杂的correspondence,特别是在VI-ReID社区。在未来,我们计划探索双噪声标签的其他场景,如类别级跨模态检索,人脸识别等。6. 致谢这项工作得到了国家自然科学基金U21 B2040、62176171、61836006和U19 A2078基金的部分支持;部分浙江省实验室开放研究项目2021KH0AB02。14318引用[1] 埃里克·阿拉索,迭戈·奥尔特戈,保罗·阿尔伯特,诺埃尔·无监督标签噪声建模和损失校正。ICML,第312-321页。PMLR,2019年。4[2] Seokeon Choi、Sumin Lee、Youngeun Kim、TaekyungKim和Changick Kim。Hi-cmd:用于可见-红外人员重新识别的分层交叉模态解缠。在CVPR中,第10257-10266页,2020年。2[3] Yixiao Ge,Dapeng Chen,and Hongsheng Li.相互意味着-教学:伪标签精炼用于人重新识别的无监督域适应。ICLR,2020年。1[4] Yixiao Ge,Zhuowan Li,Haiyu Zhao,Guojun Yin,Shuai Yi,Xiaogang Wang,and Hongsheng Li.Fd-gan:用于稳健的人重新识别的姿势引导特征提取gan。NeurIPS,2018。1[5] Bo Han,Jiangchao Yao,Gang Niu,Mingyuan Zhou,Ivor Tsang,Ya Zhang,and Masashi Sugiyama.掩蔽:噪声监督的新视角。arXiv:1805.08193,2018。2[6] Bo Han,Quanming Yao,Xingrui Yu,Gang Niu,MiaoXu,Weihua Hu,Ivor Tsang,and Masashi Sugiyama.合作教学:使用非常嘈杂的标签对深度神经网络进行鲁棒训练。在NeurIPS,第8527-8537页,2018年。二、四、五[7] 郝欣,赵三元,叶莽,沈建兵。通过模态混淆和中心聚合的跨模态人员重新识别。在ICCV中,第16403-16412页,2021年。2[8] Peng Hu,Xi Peng,Hongyuan Zhu,Liangli Zhen,andJie Lin.使用噪声标签学习跨模态检索。在CVPR中,第5403-5413页,2021年。3[9] Zhenyu Huang , Guocheng Niu , Xiao Liu , WenbiaoDing,Xinyan Xiao,and Xi Peng.学习与噪声对应的跨模态匹配。在NeurIPS,2021年。3[10] Junnan Li , Richard Socher , and Steven CH Hoi.Dividemix:使用带噪声标签的学习作为半监督学习。arXiv:2002.07394,2020。二、三、四[11] Yan Lu , Yue Wu , Bin Liu , Tianzhu Zhang , BaopuLi,Qi Chu,and Nenghai Yu.跨模态人员重新识别与共享特定特征转移。在CVPR中,第133792[12] Xingjun Ma , Hanxun Huang , Yisen Wang , SimoneRomano,Sarah Erfani,and James Bailey.带噪声标签的深度学习的归一化损失函数。在ICML,第6543-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功