没有合适的资源?快使用搜索试试~ 我知道了~
11395基于弱监督文本的身份再识别赵世珍1、高长新1 *、邵元杰1、郑伟世2、桑农11华中科技大学人工智能与自动化学院图像处理与智能控制重点实验室2中山大学电子邮件:xbrainzsz@gmail.com,cgao@hust.edu.cn摘要传统的基于文本的个人重新识别方法严重依赖于身份注释。然而,这种标记过程是昂贵且耗时的。在本文中,我们考虑一种更实用的设置,称为弱监督的基于文本的人重新识别,其中只有文本图像对可用,而无需在训练阶段注释身份。为此,我们提出了一个跨模态相互训练(CMMT)框架。具体地,为了减轻类内变化,利用聚类方法来为视觉和文本实例生成伪标签。为了进一步细化聚类结果,CMMT提供了一个相互伪标签细化模块,该模块利用聚类(一)弱监督图像文(b)第(1)款导致一种模态对另一种模态中由文本-图像成对关系约束的模态进行细化。同时,CMMT引入了文本信息引导的跨模态投影匹配损失来解决跨模态匹配的歧义问题。本文还提出了一种文本-IoU引导的硬样本挖掘方法,用于学习判别式文本-视觉联合嵌入。我们进行了广泛的实验,以证明所提出的CMMT的有效性,结果表明,CMMT表现faborably对现有的基于文本的人重新 识 别 方 法 。 我 们 的 代 码 将 在 github.com/X-BrainLab/WS_Text-ReID上提供。1. 介绍基于文本的人物重新识别(Re-ID)[20]是一项具有挑战性的任务,旨在通过文本描述检索相应的人物图像。近年来,许多全监督的文本视觉嵌入方法[30,15,25,23,18]取得了很大进展。这些方法遵循类似的学习方案:1)利用同一性损失来抑制每个分类中的类内变化。*通讯作者(c)(d)图1.(a)完全监督的基于文本的人重新识别,(b)我们提出的弱监督的基于文本的人重新识别,(c)文本和视觉模态两者的类内变化,以及(d)跨模态匹配歧义的图示。2)跨模态匹配由自动生成的正或负标签监督,基于它是否源自相同的身份可以观察到,它们严重依赖于身份注释,如图1(a)所示然而,跨多个非重叠相机视图的身份标记过程是昂贵且耗时的。在这项工作中,我们考虑了一个更实际的设置,称为弱监督的基于文本的人Re-ID,其中只有文本图像对在训练阶段没有任何身份注释,如图1(b)所示。由于缺乏身份注释,存在两个主要挑战。1)类内差异在文本和视觉模态上的影响很难减轻。如图1(c)所示,对人的描述可以在句法上不同。同时,不同相机拍摄的图像在视觉上也会受到影响完全监督标签图像文类内变异说明1:一个穿着黑白相间印花衬衫,黑色裤子,黑色鞋子的女人。描述二:这位女士穿着黑白相间的衬衫,黑色裤子和黑色凉鞋,她拿着一个灰色和黑色的肩钱包。说明三:一个女人穿着黑白相间的花衬衫和一条黑色的裤子。文本变异视觉变异跨模态匹配模糊度匹配该名男子留深色短发,身穿白色T恤、深色裤子和黑色背包。这名男子身穿蓝白条纹背心和绿色裤子。他脖子上戴着粉色耳机。一个留着棕色短发的女孩穿着牛仔裤和黑灰相间的t恤,正从镜头一个穿着蓝白条纹背心,绿色裤子和粉色鞋子的男人。11396通过关于照明、人的姿势、视角、背景等的显著变化。现有的基于聚类的方法[10,9,22]可以通过在每个模态中使用伪标签的无监督表示学习在一定程度上解决这个问题然而,与未监督的人Re-ID不同,可以进一步利用文本和视觉模态之间的关系来细化聚类结果。2)如图1(d)所示,这导致了跨模态匹配歧义问题,即对于一个文本描述,当学习跨模态匹配时,不能将正或负标签分配给除了其配对的图像之外的所有图像。为了解决上述问题,我们提出了一个跨模态相互训练(CMMT)框架,以促进弱监督的基于文本的人的Re-ID的视觉-文本表示学习。首先,为了减少类内变化,利用聚类方法为文本和视觉实例生成初步的伪标签。为了进一步改善聚类结果,CMMT提供了一个相互伪标签细化(MPLR)模块,该模块利用一种模态中的聚类结果来细化另一种模态中的聚类结果,该模态受到文本和视觉模态之间的成对关系的其次,为了减轻跨模态匹配歧义,CMMT采用文本IoU引导的跨模态投影匹配(Text-IoU CMPM)损失,其引入称为文本并集上的交集(Text-IoU)的启发式度量来分配相似性软标签。 此外,委员会认为,提出了一种文本引导的硬样本挖掘(Text-IoU HSM)方法,通过探索嵌入特征和文本短语的相似性一致性来学习有区别的视觉-文本联合嵌入我们的贡献如下:1. 据我们所知,这是第一个工作,特别是解决了弱监督的基于文本的人Re-ID的问题。2. 相互伪标签细化模块提出了伪标签细化,以抑制类内的变化,利用文本和视觉模态之间的成对3. 本文引入了文本相似度度量方法Text-IoU,该方法将文本描述作为多标签,在短语层次上度量文本描述的相似度。文本IoU被进一步用于促进跨模态匹配和硬样本挖掘。4. 大量的实验和成分研究进行证明所提出的方法的优越性,弱监督的文本为基础的人的Re-ID。实验结果表明,在没有任何身份监督的情况下,所提出的方法甚至优于最先进的完全监督的基于文本的人Re-ID方法。2. 相关工作2.1. 基于文本的人员重新识别不同于典型的人Re-ID问题[35,4,36],基于文本的人Re-ID [20,19,37,3,34,30,32,8,1,16,15,2,26,7]旨在确定目标人员自由形式的自然语言。例如,Li等人[20]和Chen等人 [3]计算图像-词语亲和度,以探索视觉空间和文本空间之间的局部水平关系。Zheng等人。 [37]和Zhang等人。 [34]专注于学习联合嵌入的跨模态目标函数。Chen等人。[2]通过使用图像区域的名词短语重建方法来学习局部关联。Sarafi-anos等人。 [25]引入了一个对抗性的跨模态学习框架来模糊模态信息。最近的研究[30,15]采用辅助算法(即姿势估计、人体解析)以将人的特征空间分解成对应于不同人体部分的多个空间。所有上述都是完全监督的方法,其中身份标记是昂贵且耗时的。2.2. 无监督人员重新识别无监督Person Re-ID [38,29,21,6,10,9,22]专注于学习目标数据集中没有身份注释的区分特征。有三种主要的方法:风格迁移、基于聚类的伪标签估计、软标签学习。最相关的工作是基于聚类的伪标签估计方法。例如,Song等人 [29]基于编码器迭代地为未标记的数据分配伪标签,其进一步用于训练编码器。Ge等人。 [10]提出了一种具有混合记忆的自定进度对比学习框架。与无监督的人Re-ID不同,弱监督的基于文本的人Re-ID给出了由文本-图像对组成的训练集因此,考虑到文本和视觉模态之间的成对关系,所提出的MPLR利用一种模态中的聚类结果来细化另一种模态中的聚类结果。2.3. 弱监督文本图像检索关于弱监督文本图像检索问题只有少数研究[27,11Patel等人。 [27]利用整个文本文章和图像标题来监督本地和全局级别的文本视觉嵌入。Gomez等人。 [11]从图像和成对的字幕中提取特征嵌入,然后将其用于学习文本-视觉联合嵌入。与一般的文本-图像检索问题不同,身份信息是学习基于文本的人Re-ID的特定于身份的特征嵌入的关键。因此,CMMT利用伪标签在每个模态中进行自训练,并利用Text-IoU得分作为相似性软标签,以促进跨模态匹配学习和硬样本挖掘。11397动态更新实例文本存储库文本编码器((*)TCMDMD,(*)ℒ&C视觉编码器视觉嵌入视觉记忆库动态更新实例MPLRt→$Text-IoU HSMText-IoUCMPMMPLR$→ti=1我C我C1nc1ncC我C1no1no--联系我们={I}文本一 名 身 穿 蓝 白 条 纹 背心 的 男 子 , 一 名对绿色裤子和一条粉红色的鞋图像文本聚类质心非聚类文本特征视觉聚类质心非聚类视觉特征图2.跨模态相互训练(CMMT)框架的图示。为了减轻类内变化的影响,CMMT利用聚类方法来获得初步的伪标签。相互伪标签细化(MPLR)模块利用一种模态中的聚类结果,通过文本模态和视觉模态之间的成对关系来细化另一种模态中的聚类结果对比损失LT和LV被用来监督相应模态的身份表征学习。文本IoUCMPM是用来缓解跨模态匹配的不成对的文本视觉实例的歧义 Text-IoU HSM被提出来学习有区别的视觉-文本联合嵌入。Text-IoU CMPM损失和判别式嵌入学习损失分别表示为L_M和L_D。3. 跨模态相互训练3.1. 符号和定义在弱监督的基于文本的人Re-ID中,给定训练数据集X=I i,T iN,其中I i是第i个图像,T i表示与I配对的第i个文本描述,N是文本-图像对的数量。相比最可靠的集群,衡量集群的独立性和紧凑性。聚类的文本和视觉嵌入表示为tc={tc,· · ·,tct}和vc=v c,··,v cv,其中n t和n v分别是文本和视觉模态中的聚类实例的数量。未聚类的文本嵌入和视觉嵌入被表示为t〇={t〇,· · ·,t〇t}和v〇={v〇,· · ·,v〇v}。完全监督的基于文本的人Re-ID,身份标签是其中nt和nv是未聚类实例的数量o o不给。在此基础上,我们的目标是学习只有文本图像对的有区别的视觉语义嵌入,分别以文本和视觉形式。我们利用内存库,这些内存库通过我们可以从X图库通过文本描述Tq,具有Ng个图像。3.2. 概述gNgjj=1训练阶段,为文本和视觉模态提供聚类质心和非聚类实例特征存储体更新的细节可以参考文献[10]。之后,CMMT利用MPLR进行挖掘我们提出CMMT来解决弱监督的基于文本的人Re-ID问题。 如图2所示,文本嵌入和视觉嵌入分别由文本编码器和视觉编码器提取。为了减少两种模态中的类内变化,进行聚类以获得文本和视觉实例的初步伪标签。可靠性标准[10]用于保持有价值的非集群实例。然后基于两种模态中的细化伪标签进行无监督身份学习。此外,提出了Text-IoUCMPM损失,以减轻未配对实例上的跨模态匹配歧义。此外,Text-IoU HSM被提出,以学习更多的区别性的文本-视觉联合嵌入。在本节的其余部分中,我们将分别描述每个组件的更多细节。……11398我·我C我KK我{ {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}我我K我我K我Kk=1exp(∠fi,ck∠/τ)+Ok=1 exp(∠fi,tk∠/τ)Ct←[Ct,to],(6)不∈V··相互伪标签细化。为了进一步抑制两种模式中的类内变化,我们提出了MPLR来挖掘有价值的非聚类实例,而不是简单地丢弃它们。如图3所示,MPLR利用一种模态中的聚类结果,通过文本模态和视觉模态之间的成对关系来细化另一种模态中的聚类结果。MPLR过程在文本和视觉模态中,表示为MPLRv→t和MPLR。 例如,在MPLR中,t→vov→t图3. MPLR的图示。©对于每个未聚类的实例A,我们首先在另一模态中搜索其配对的实例B。?如果B是集群的,那么我们找到B的最近实例,标记为C. 之后,我们在另一模态中搜索C的配对实例D。№如果D是聚类的,我们最终将A添加到D所属的聚类中。更多详情见第3.3小节。对于未聚类的文本特征ti,可以通过下式视觉实例vivi=PIS(to),(3)其中PIS()表示在另一模态中搜索的配对实例。 如果所获得的配对视觉实例是未聚类的vi∈ v。,则我们保持t。相反,如果vi∈vc,则可以通过以下方式获得最近实例:3.3. 基于伪标签vc=arg maxvc∈Cv,vc∈/Uvvi,vi,(4)为了解决类内变化问题,一个直接但次优的解决方案是在文本和视觉模态中应用无监督表示学习[31,12,10]。例如,在聚类之后,利用对比损失来监督两种模态的身份表示学习。语篇情态的对比损失由下式给出:其中k表示聚类的索引,Cv是Vi所属的聚类的所有视觉实例的集合,Uv是初始化为Vi的集合,表示两个特征向量之间的内积以测量它们的相似性。然后,对于所获得的v_c,可以通过下式找到配对的文本实例t_iti=PIS(vc),(5)如果ti∈tc,我们将未聚类的文本特征to添加到Texp(∠ft,f+∠/τ)ti所属的集群Ct,由下式给出、LC=−logΣnctt tΣntt o(一)KK我其中f+指示对应于ft的正类原型,温度τ根据经验设置为0。05. 更具体地,如果f t属于第k个聚类,则f+= c t为其中[,]表示将后者合并到前者的过程。如果t1到t0,则过程返回到等式4,并且将原始最近实例v_c添加到U_v,直到C_v=U_v。ikik k k第k个文本聚类质心。 如果f t是一个未聚类的注意,C v= U v表示成对的文本实例ik k离群值,我们将有f+=to,因为Cv中的视觉实例的离群值实例都是未聚类的。如果Cv=K对应于ft的特征。此外,我们还进行了L2-K KUv,我们为to创建一个新的文本簇Ik在计算损失之前对所有特征进行归一化V我Ctct+1←[ti,to],(7)同时,视觉模态ni的对比损失LC可以类似地定义。因此,总对比损失由下式给出:LC=LC+ LC。(二)与无监督的人Re-ID不同,我们的训练集由文本-图像对组成。因此,我们的动机是,在理想情况下,由于成对关系,两个模态中的聚类结果然而,类内的变化导致不一致。其配对实例被聚类的未聚类实例因此,我们利用两种模态之间的成对关系来改进聚类结果。DB2C文4一1331一4DC2B图像我11399←其中,n_ct是文本模态中的聚类的数量,并且如果创建了新的聚类,则通过n_ct_n_ct+1来更新。在MPLR期间,遍历两种模态中的所有非集群化实例。3.4. 基于文本信息的跨模态投影匹配如图1(d)所示,当在弱监督的基于文本的人Re-ID中学习跨模态匹配时,无法分配正或负标签。这导致了跨模态歧义问题。一种直接的方法是在进行分类时利用文本嵌入或视觉嵌入来计算相似性软标签11400i、j|∪|Σi,k我Σ1.Σ×−t vtk=1我 K我 J我 J我 我JJi,ijBB其中,视觉嵌入首先通过v¯j=IoU引导的跨模态硬样本挖掘(Text-IoU一个穿着棕色短裤,一双白色鞋子,红色短袖衬衫的女人。NPE一个穿蓝色衬衫、黑色裙子和一双白色鞋子的女人。NPE其中Npe表示名词短语提取,并且mi表示文本描述Ti中的名词短语的数量。因此,Text-IoU可以定义为Pi Pj{女人 布朗 短裤, 白色鞋子,红色{女人,蓝色衬衫,黑色裙子,衬衫,短袖}白色鞋子}IoUt=|Pi∩Pj||Pi∪Pj| 、(10)Pi∪P jPi∩Pj哪里|Pi∩Pj|是相同名词短语的个数棕色短裤,白色鞋子,红色衬衫,短裤{ 女人,白鞋}袖子,蓝衬衫,黑裙子}以及Pi和Pj之间的同义名词短语,&(为*P∩ PI ji、Pi∪Pj图4. Text-IoU的计算过程说明。首先,进行名词短语提取(NPE)以获得名词短语集合。其次,可以收集两个短语的交集和并集的集合第三,我们通过将交集的元素数Pi Pj是Pi的并集中短语的总数和Pj.文本IoU引导的跨模态投影匹配损失。Text-IoU可以被用作相似性软标签,然后通过IoUtjq=.(十一)union的元素编号i、jBk=1(IoUt)跨模态匹配学习然而,仍然存在许多异常值实例,这导致较差的相似性软标签,特别是在训练阶段的开始。为了解决这个问题,我们提出了文本IoU CMPM损失。然后将与正确匹配的视觉特征相关联的Text-IoUCMPM损失定义为从真实匹配分布qi到匹配概率pi的KL散度。对于每个批次,Text-IoU CMPM损失定义为LM=−BΣ pi,jlogpi,jqi,j+、(十二)交叉模态投影匹配.传统将跨模态投影合并到KL散度度量中以关联跨不同模态的表示的跨模态投影匹配由下式给出,exp(t,v¯)P=.(八)i=1j=1其中,k是用于防止被零除的非常小的数。3.5. 文本IoU引导的硬样本挖掘提出了Text-IoU HSM来学习判别式i,jBexp(t,v<$)VJ||vj|| ,B表示批量大小,并且概率CHSM)和Text-IoU引导的模态内硬样本挖掘(Text-IoU IHSM)。表示该内积在一个批中的对之间的所有内积中的比例。因此,文本嵌入与视觉嵌入越相似,内积就越Text-IoU引导的跨模态硬样本挖掘。如果文本视觉特征{ft,fv}具有高的跨模态特征相似性,这对是跨模态相似短信借据为了在缺乏身份监督的情况下监督跨模态投影匹配,引入Text-IoU分配相似度软标签。文本- IoU度量文本实例之间在短语水平上的相似性 例如,有两个文本-图像对{Ii,Ti}和{Ij,Tj},其可以在前向映射被编码为视觉和文本嵌入{fv,ft}和{fv,ft}。汇率受多标签参考学习[33]的启发,我们假设如果相似对的相应文本描述具有高Text-IoU分数,则它可能是正对。否则,它很可能是一个硬负对。因此,可以通过考虑跨模态特征相似性和Text-IoU得分两者具体地,相似对被定义为在所有相似对中具有最高特征相似性的pM对。传播 我们的动机是,如果两个文本描述-名词短语来源于同一个人M=N(N1)/2对,其中P是采矿比率。 如果一个相似的对(f t,f v)在I j在这两种描述中总是相同或同义的。因此,如图4所示,对于给定的文本描述Ti,我们利用NLTK [24]提取名词短语,其由下式给出:对于具有最高Text-IoU分数的前pM对,我们将(i,j)分配给正集合P。否则,我们将其分配给硬负集N。形式上,我们构建P={(i,j)|‖f,f‖≥ Q,IoU≥ R}i j i,jt v tPi=NPE(Ti)={pi,· · ·,pi},(9)N={(k,l)|‖f k,f l‖ ≥ Q,IoU k,l
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功