没有合适的资源?快使用搜索试试~ 我知道了~
110678用于人物搜索的雅静、1、3王伟、1、3王良、1、2、3谭铁牛、1、2、31智能感知与计算研究中心(CRIPAC),模式识别国家重点实验室(NLPR)2中国科学院自动化研究所脑科学与智能技术卓越中心(CEBSIT)3中国科学院大学(UCAS)ya. cripac.ia.ac.cn,{wangwei,wangliang,tnt} @ nlpr.ia.ac.cn摘要基于文本的人物搜索由于在视频监控中的广泛应用而受到越来越多然而,大多数现有的模型严重依赖于成对的图像-文本数据,这是非常昂贵的获取。而且,直接将其应用到新的领域时,往往会面临巨大的性能下降为了克服这个问题,我们第一次尝试在没有成对标签的情况下使模型适应新的目标域,这结合了跨模态(基于文本)的人搜索和跨域的人搜索的挑战特别地,本文提出了一种矩对齐网络(MAN)来解决跨模态跨领域的人物搜索问题。该思想是学习三种有效的矩对齐,包括域对齐(DA),跨模态对齐(CA)和样本对齐(EA),它们一起可以学习域不变和语义对齐的跨模态表示,以提高模型的泛化。在CUHK-PEDES数据集和RAP数据集上进行了大量的实验。实验结果表明,我们提出的模型实现了国家的最先进的性能上的五个传输任务。1. 介绍人物搜索是视频监控中的一项基本任务,由于其广泛的应用,近年来受到了广泛的关注现有的人物搜索方法主要集中在基于图像的人物搜索上,也称为人物重新识别(Person Re-ID)[36],其目的是预测来自不同相机的两个图像是否属于同一个人。随着深度神经网络的发展,已经取得了巨大的成功[9]。通讯作者:王伟图1.我们提出的(d)跨模态跨域基于文本的人物图像搜索结合了来自(b)跨域基于图像的人物搜索和(c)跨模态基于文本的人物图像搜索两者的挑战然而,大多数人Re-ID模型都是基于人工标记的成对数据集以监督学习方式训练的,这是昂贵的或在实践中不可能收集的这限制了只有未标记数据可用的应用。一种可行的方法是将已标记源域中的学习模型转移到一个新的未标记目标域,称为跨域人员Re-ID[27] 如图第1段(b)分段。然而,由于数据集偏差,仍然很难将在标记数据集上训练的模型推广到未标记数据集。因此,如何缓解畴移变得越来越重要。为了解决这个问题,最近已经提出了几种尝试。他们的目标是学习一个有标记的源数据集和未标记的目标数据集的目标集的区别表示。一种常见的做法[27,34]是将源图像转换为目标域风格,从而利用监督学习。此外,人Re-ID需要至少一个图像,110679在许多情况下,获得。由于文本描述更容易访问,基于文本的人物搜索[15]可以解决查询人物图像丢失问题,这也是一个跨模态任务,如图所示。第1段(c)分段。基于文本的人物搜索旨在从大规模的人物数据库中检索出与文本描述相对应的人物图像,其面临着图像与文本之间存在语义鸿沟的挑战与基于图像的人物搜索类似,基于文本的人物搜索仍然存在缺乏标记的成对数据的问题,并且需要从标记的源域到未标记的目标域的域自适应。此外,基于文本的人物搜索还面临着不同的收集监控场景的图像之间的域转移。在本文中,我们提出了一个新的任务,跨模态跨域的基于文本的人的图像搜索如图所示。1(d),其组合了来自基于跨域图像的人物搜索和基于跨模态文本的人物图像搜索两者的挑战。据我们所知,在以前的工作中没有提出这样的任务。此外,我们提出了一个时刻对齐网络(MAN),它包含三个对齐模块,以互补的方式减少域差异:域比对(DA)、跨模式比对(CA)和范例比对(EA)。图2示出了MAN的架构。具体来说,我们首先学习四个用于源/目标图像/文本分类的分类器考虑到[20]中引入的数据分布的类级均值与分类器参数之间的对齐和保留的语义结构,我们将类别的分类器参数作为该类别的数据分布的均值,也称为类均值。通过度量目标域中样本表示与源域中类均值(分类器参数)的相似性,计算出未标记目标数据的伪标签,作为目标分类器的监督信息。特别地,我们将类均值(分类器参数)及其方差称为类矩,用于对齐。接下来,我们计算三个对齐。 首先,为了直接减轻域差异,我们提出了一个域对齐,通过最小化源域和目标域之间的类矩的距离。基于域对齐策略,学习的表示被约束为跨域不变。其次,针对人物图像和文本描述之间的语义鸿沟请注意,源域中的跨模态对齐是通过最小化排名损失函数来实现的[3]。第三,考虑到从伪标签中学习到的目标域中的表示可能不是最佳区分的,我们提出了一种范例对齐,以进一步增强表示的聚类特性通过最大化目标样本属于其类别的概率来在目标域中创建多个目标样本。通过对这三种对齐方式进行联合建模,我们可以学习域不变和语义对齐的跨模态表示。我们提出的方法在CUHK Person Description数据集(CUHK-PEDES)[15]和Richly Annotated Pedestrian数据集(RAP)[12]上进行了评估,并在五个转移任务上实现了总之,主要贡献有三方面:(1) 我们首次尝试进行领域自适应的基于文本的人的搜索,这是一个具有挑战性的跨模态跨领域的任务。(2)我们提出了一种新的跨模态跨领域矩对齐网络,其中领域对齐,跨模态对齐和样本对齐联合建模,以互补的方式减少领域差异和语义差距(3)实验结果表明,本文提出的城域网具有最好的性能。广泛的消融研究证明了MAN中每个组件对基于文本的领域自适应人物搜索的有效性2. 相关工作在这一节中,我们介绍了相关的工作,包括基于文本的人搜索,跨域的人Re-ID和无监督域自适应。2.1. 基于文本的人员搜索Li等人[15]提出了基于文本的人员搜索任务,并进一步采用CNN(卷积神经网络)[10]-LSTM(长短期记忆)[7]网络,并将门控神经注意力用于此任务。为了利用个人识别,Li et al.[14]提出了一个身份感知的两阶段网络。PWM+ATH [1]利用补丁词匹配模型来利用局部相似性。 不同上述方法都是通过注意力机制来学习图像和文本之间的对应关系,而Dual Path [33]采用了一种识别损失来进行实例级的图像-文本匹配。CMPM+CMPC [31]设计了跨模态投影匹配(CMPM)损失和跨模态投影分类(CMPC)损失,用于学习区分性图像-文本嵌入。TIMAM[21]采用旨在识别输入是源自视觉模态还是源自文本模态的对抗性嵌入来学习区别性模态不变嵌入。与之相比,我们学习了无监督域自适应基于文本的人物搜索,它不需要目标域中的成对图像-文本数据。2.2. 跨域人员回复ID针对跨领域人员身份标注的昂贵性或不可能性,提出了跨领域人员Re-ID,其目的是通过标注的源数据集学习广义检索模型,110680图2.我们提出的跨模态跨域矩对齐网络(MAN)的架构一个视觉CNN和一个双向CNNLSTM分别用于对图像和文本进行编码。 分类器参数用于表示数据分布的类级平均值,即,类的意思。请注意,类均值及其方差称为类矩。随后,三个时刻对齐,包括域对齐,跨模态对齐,并提出了减轻域移位。此外,我们为每个目标样本计算一个伪标签,以指导目标分类器的学习最好用彩色观看未标记的目标数据集。为了减少数据集之间的域移位,提出了几种方法。 TJ-AIDL[26]学习可转移到看不见的域的属性语义和身份区分特征空间PTGAN [27]和HHL [34]都利用生成对抗网络(GAN)[4]将源域图像转换为目标域风格。然后,在这些经过训练的图像上训练模型,使其适合于目标域。ECN [35]研究目标域的域内不变性。另一行作品[13,30]专注于学习目标域中的伪身份标签。Yu等人。[30]提出通过与来自辅助数据集的一组已知参考人进行比较,与他们不同的是,我们研究的是-主要适应基于文本的人的搜索,这需要域,不能应用于人员搜索。领域自适应人员搜索由于源域和目标域的完全不同的身份而比UDA更具挑战性。3. 跨模态跨域矩对齐网络在本节中,我们首先详细解释所提出的然后介绍了模型的学习过程.3.1. 符号和定义在域自适应基于文本的人搜索中,我们被赋予-Ss s s s sNsen标记的源数据集X={I={I,y}I,T={I,y } I,ii i i=1不仅要挖掘跨域对齐,{T s,y s}NT },其中Ns和Ns是im的数目。i j j=1IT跨模态对齐 此外,我们可能是首先研究了领域自适应的基于文本的人物搜索。年龄分别为Is和文本Ts。每个样本都有一个标识y。此外,我们还提供不t t tNt未标记的目标数据集X={I={I}I,T=2.3.无监督域自适应i i=1{Tt}NT},其中标识注释不可用。它j j=1域自适应个人搜索与无监督域自适应(UDA)密切相关[18,22,24,19]。ADDA [24]设计了一个基于对立学习目标的领域分类器,以减少领域差距。TPN [19]利用可转移原型网络进行自适应,使得源和目标域中每个类的原型在嵌入空间中接近,并且原型分别在源和目标数据上预测的分数分布相似。然而,大多数UDA方法都假定源和目标值得注意的是,目标人群完全不是--由于不同的监视场景,与源人员重叠在此基础上,我们的目标是学习一个深度神经网络,该网络可以通过查询目标域中的文本来检索相应的3.2. 课堂时刻给定源和目标数据,视觉CNN和双向长短期记忆网络(bi-LSTM)分别用于对图像和文本进行编码110681IrTkTr=p,µIkIk我我不=∑Tkµ=p ,µ=Tk请注意,特征提取网络在源域和目标域之间共享。在此之后,四个经典-按类表示源域中:exp(cos(f(It),µs))学习用于源/目标图像/文本分类的因子由于数据分布在不同地区的变化,不IkCr=1Ikexp(cos(f(It),µs))、(6)电源,直接利用时性能下降很多该模型在源数据集到目标数据集上进行训练到yt=∑ exp(cos(f(Tt),µs))、(7)测量数据分布,这是UDA中的可选方法TkCr=1 exp(cos(f(Tt),µs))是根据样本计算原型[19],其中yt是目标图像的伪标签的第k个在每次迭代时使用一个小批处理,这会导致tIk模型可以支持的最大类数小于批大小。因此,该方法不能应用于本文提出的跨领域的基于文本的人物搜索。一般来说,在每个子搜索比那些在以前的UDA任务,这导致了事实上,在一个小批量的样本不能包含所有的类。每一小批中的分类信息是不充分的,并且估计分布与真实分布之间可能存在巨大的偏差。考虑到数据分布的类平均值与分类器参数之间存在一致性和语义结构,提出利用在源数据集和目标数据集上学习的分类器参数来近似表示每个类中数据分布的平均值(也称为类平均值),从而消除小批量约束,获得最新的类表示.I,cos表示余弦相似度,f表示活动度。最后一个全连接层的位置(图中的2)。注意学习的伪标签是软标签,因为跨域的类别不同,并且进一步用作目标分类器的监督信息。3.3. 畴对准在基于文本的领域自适应人物搜索中,由于不同数据集的词汇量差异很小,所以领域移动主要是由不同领域的人物出现分布引起的。为了消除图像分布的变化,我们提出了一个域对齐网络,通过减轻域统计的分歧。其基本思想是,如果源域和目标域的分布相同,则在不同域上计算的矩是相同的。不同于对域表示的全球分布sS sIk IkTktt tIk IkTk=ps,(1)(2)在关键的类级信息可能丢失的情况下,我们执行类级域对齐,以确保具有相似视觉特征的样本被映射到特征空间中的附近。换句话说,其中μs和ps表示类别平均值和分类器pa-域分布是在类级别上执行的。在可视源域中的第k类的参数,分别是活泼地基于类均值,我们可以计算它们之间的基于上述分析,我们提出了一种跨域一致性损失:∑CC∑ CLCDC=d(µs,µt)+γ1d(σs,σt),(8)σs=1∑C微秒S −k=11k)2、(3)IkCk=1我知道了σt=k=11∑CCk=1∑Cµt不 −k=11k)2、(4)IkC其中d(.,. )表示两个类矩之间的距离,γ是控制每个距离的重要性的超参数。我们在实验中使用平方欧几里德距离:1∑C∑Cµt不TCk=1不−k=1Tk)2,(5)TkCd(x1,x2)=<$x1−x2<$2。(九)理由是聚类平均值产生最佳其中C是源域中类的数量。没有使用σs,因为源文本和目标文本之间没有域转移。此外,通过最小化排序损失,实现了源域中的跨模态对齐。特别地,类均值(分类器参数)和它们的方差被称为用于对齐的类矩类间均值没有被利用,因为我们发现它不能提高性能。对于未标记的目标样本,我们利用自标记[11],其中为目标样本分配伪标签yµ=p(µ(µ(µσ110682当Bregman分歧(例如,平方欧几里德距离和马氏距离)[23]。通过显式地限制域统计之间的距离,引导特征提取器学习域不变表示。3.4. 交叉模态对齐领域对齐只限制了跨领域的视觉统计,而忽略了潜在的语义特征。110683我IkIrk=1在图像和文本之间进行匹配,这是这个跨模态匹配任务的关键。在源域中,成对秩-化损失LIs和LTs定义如下:S使用ingloss [3]来确保交叉模态对准。1L Is =−∑nIys log(softmax(W idig(Is),(14)由于缺乏标签,排名损失不能在目标域中使用。与域对齐一样,我们采用SI IIi=1ns类级跨模态力矩对准模块1LTs=−∑T ys log(softmax(Widt g(Ts),(15)保证语义相似的目标样本在特征空间中的相似性。基于类矩,跨模态一致性损失定义如下:∑CSI ITi=1其中,ns是训练批次中的源图像的数量,g表示分类器的激活,W_di是用于对视觉表示进行分类的变换矩阵。LCMC=d(µ t,µ t)+γ2d(σ t,σ t)。 (十)k=1Ik Tk IT则总源损耗定义为:LS=Lr+β(LI+LT),(16)因此,学习的表示可以独立于他们的数据模式。3.5. 示例对齐在目标域中,由于缺乏地面真值标签,所学习的表示可能不是最佳区分的。考虑到目标样本属于目标类之一的事实,我们提出了一个样本对齐模块,通过强制每个样本接近其最近的类均值来增强表示的聚类我们首先计算f(It)和目标类均值之间的余弦相似度然后,It属于类别k的概率计算如下:其中β旨在控制每个损失函数的相对重要性通过结合上面定义的损失,我们的MAN的最终目标被公式化为:L=L S+λ1L CDC+λ2L CMC+ λ3L EC。(十七)基于这个目标,我们可以获得两个深度嵌入网络(CNN和bi-LSTM),其中学习的跨模态表示是域不变的和语义对齐的。培训过程分为两个阶段。在第一阶段,只采用LS,对模型进行训练q(k|I t)= ∑exp(cos(f(It),µt)).(十一)在源域中。 在第二阶段,我们利用最后目标L来训练我们的模型,其中使用源数据和目标数据。这不仅保证了Cr=1 exp(cos(f(It),µt))在源域中的准确性,而且还将在源域中学习的知识转移到目标域。示例一致性损失定义为:L EC= −log(maxq(k|I t)|C)、(12)其目的是最大化目标样本所属类别的概率。这样,我们可以进一步提高我们的模型的鲁棒性。3.6. 模型训练和测试对于标记的源数据集,利用最难负样本的排名损失[3],通过使正对比最难负对更接近来确保跨模态对齐:L(Is,Ts)=max(α−S(Is,Ts)+S(Is,Ts),0)在测试过程中,我们分别通过CNN和bi-LSTM计算视觉和文本表示。然后对它们之间的相似度进行排序,以基于查询文本检索相应的人物图像。4. 实验我们在CUHK-PEDES数据集[15]和RAP数据集[12]上对MAN进行了广泛的评估。与最先进的方法以及消融研究的性能比较。目前,CUHK-PEDES数据集[15]是ly数据集,用于基于文本的人员搜索,其中图像是从五个不同的现有人员重新识别数据集CUHK 03 [17],Market-1501[32],nn110684Hr^h+max(α−S(Is,T s)+S(I^s,T s),0),(十三)[28][29]由于这五个数据集是从不同的监测场景中收集的,因此它们之间存在域转移。其中,Ts是小批处理中最难的文本样本,为了进一步验证MAN的有效性,我们将-^H源图像Is,S表示在RAP数据集上进行实验[12],收集-图像和文本,即,cosine score,α是margin。在身份级匹配中,除了引入排序损失外,还引入了身份损失图像和文本识别-室内购物中心的25个摄像头拍到的对于远距离摄像机,由于视点、背景、布料外观和光照条件的变化很大,110685图3.来自CUHK-PEDES和RAP数据集的示例图像最好放大观看。在由不同相机捕获的图像之间存在分布偏差。我们选择两组图像(RAP-1和RAP-2)来执行域/视图自适应,其中这两组图像的相机视点非常不同。这两个集合之间的域/视图差距已经通过表2中目标域中的监督学习(SL)与从标记源域到未标记目标域(SO)的转移学习之间的性能差距来证明。请注意,在我们的设置中,从不同相机收集的两个集合具有不同的行人身份,以执行自适应个人搜索。4.1. 数据集和指标CUHK-PEDES。CUHK-PEDES数据集包含40,206张图像和13,003个身份的80,440个文本描述。为了研究基于文本的人物搜索中的领域适应性,我们将CUHK-PEDES看作五个独立的数据集,每个数据集被看作一个域。注意,我们选择SSM(S)作为源数据集,并考虑四个传输任务S→C03(CUHK03),S→M( Market-1501 ) 、 S→V ( VIPER ) 和 S→C01(CUHK01)。RAP。我们选择两组来自不同相机的图像来执行域自适应, 在那里,im-来自10个摄像机的年龄(即,CAM 31、CAM 30、CAM 29、CAM 28、CAM 27、CAM 25、CAM 22、CAM 21、CAM 20、和CAM 19)被认为是源数据集(RAP-1),并且来自其他5个相机的图像(即,CAM 01、CAM 06、CAM09、CAM 10和CAM 11)被视为目标数据集(RAP-2)。因此,RAP-1和RAP-2中分别有12,985和3,084幅图像。为了执行基于文本的人物搜索,我们从152个属性中选择了104个,除了年龄、客户、雇员、视点、遮挡和位置。此外,我们将所有选定的关于图像的属性连接到一个句子中来描述该图像。图中显示了几个示例图像。图3是说明域间隙的例子。指标. 我们选择top-1,top-5和top-10的准确度来评估基于文本的人搜索的性能。具体地说,给定一个查询文本,所有测试图像都是根据与文本的相似性排序。如果对应的图像在前k个图像内,我们认为它是成功的搜索。4.2. 实现细节我们将输入图像调整为384 × 128,并使用ResNet-50 [6]对其进行编码。对于文本表示,我们通过收集感兴趣的所有单词来构建词汇表,tences.然后将单词嵌入到300维向量中,并输入到1024维的bi-LSTM中。此外,特征空间的维度被设置为1024。在第一个训练阶段,我们首先修复ResNet-50,并以学习率lr =1e−3训练模型的其他部分。然后我们用学习率lr =2e−4训练整个模型。在第二个训练阶段,我们直接以2e-4的学习率训练整个模型。Adam优化器[8]用于优化。超参数γ、β和λ根据经验设置为1。此外,每个批次的批量大小域和余量分别设置为128和0.2特别地,对于S→ C 03和RAP-1→RAP-2转移任务,我们在第一个训练阶段分别训练模型400和300 epoch。在第二训练阶段,我们分别训练模型80和60个时期。我们花了大约7个小时来训练模型。4.3. 与现有技术方法的比较方法。为了验证我们的MAN的优点,我们在各种实验设置中与以下代表性方法进行比较:(1)利用标 记 的 目 标 数 据 来 训 练 模 型 , 例 如 , 监 督 学 习(SL)。(2) 仅利用标记的源数据来训练模型,例如,仅源(SO)、CMPM+CMPC [31]、属性查询(AQ)和Adv-attReID [29]。CMPM+CMPC是一种传统的基于文本的高性能人物搜索方法,它利用跨模态投影匹配(CMPM)损失和跨模态投影分类(CMPC)损失来学习区分性的图像-文本表示。属性查询(AQ)根据人物的属性检索相应的人物图像. Adv-attReID是一种传统的基于属性的高性能人物搜索方法,它对图像采用属性引导的注意机制,对属性采用语义(3)标记的源数据和未标记的目标数据都用于训练模型,例如,[24][25][26][27][28][29][29] SPGAN以无监督的方式将标记图像从源域翻译到目标域,然后用翻译后的图像通过监督方法训练Re-ID模型。ADDA设计了一个基于对抗学习目标的领域分类器。ECN研究了目标域的域内不变性,提出了三种不变性,即,样本不变性、相机不变性和邻域不变性。值得注意的是,由于我们可能是第一个进行域自适应基于文本的人搜索,没有方法报告CUHK-PEDES和RAP的性能。因此,我们进行实验的基础上110686表1.对C03、M、V和C01进行检测时的方法比较。监督学习(SL):利用L S用标记的目标数据训练模型。仅来源(SO):使用L S仅使用标记的源数据训练模型。报告前1、前5和前10的准确度(%)。最好的表现是大胆。方法Top-1S→C03Top-5前10Top-1S→MTop-5前10Top-1S→VTop-5前10Top-1S→C01Top-5前10SL54.779.487.168.590.195.267.891.896.459.381.588.4所以CMPM+CMPC[31]41.542.365.869.278.179.962.763.484.585.191.292.259.157.883.284.793.492.444.344.869.570.980.881.7SPGAN[2]44.772.582.663.385.392.460.785.793.345.371.283.1ADDA[24]45.172.882.563.985.792.361.486.093.245.771.683.0ECN[35]45.873.282.864.386.193.462.586.493.746.672.183.2MAN(我们的)48.574.884.365.187.494.664.287.294.348.273.283.6表2.在RAP-1→RAP-2和RAP- 2→RAP-1传输任务上测试时的性能。方法RAP-1→RAP-2前5名前10名RAP-2→RAP-1前5名前10名SL46.573.281.533.458.769.2所以42.368.978.419.137.647.0并修改它们以适应我们的任务。CUHK-PEDES数据集上的结果。我们在CUHK-PEDES数据集的四个传输任务上,将我们提出的MAN与最先进的方法进行了比较。表1示出了结果,其中S→C03意味着S是源C03是目标数据集。 请注意,源-ly和CMPM+CMPC [31]是两种无主适应的方法。与在基于文本的人物搜索中取得高性能的强基线(CMP-M+CMPC)相比,我们的MAN仍然改善了实验结果。特别地,仅源的性能可以被视为下限。对域自适应进行简化可以明显优于仅源代码,这表明了减轻域离散性的优势。此外,我们提出的MAN实现了最好的性能的所有域自适应方法的每一个传输任务,这证明了我们的MAN的有效性。具体地说,与利用生成对抗网络消除域转移的方法(SPGAN和AD-DA)相比,我们的MAN显著优于它们。改进的性能说明了类级矩对齐网络在限制跨域统计方面的优势,其中具有相似语义的特征被限制在附近映射此外,与采用域内矩对齐的ECN相比,该MAN也取得了更好的性能,这从根本上说明了跨模态跨域人物搜索中联合建模域间、域内和模态间矩对齐的优势.请注意,尽管我们的MAN与现有的域自适应方法相比实现了最佳性能,但这低于监督式跨模态匹配方法(Super-表3.在RAP数据集上测试时的方法比较(RAP- 1→RAP-2)。方法Top-1Top-5前10SL46.573.281.5所以42.368.978.4AQ32.160.670.3[29]第二十九话25.347.256.9SPGAN[2]42.668.479.0ADDA[24]43.369.479.4ECN[35]43.569.179.6MAN(我们的)44.269.880.1学习)。这表明领域适应方法仍有改进的空间。RAP数据集上的结果。为了证明RAP-1和RAP-2之间的结构域差距,我们进行了大量的实验,如表2所示。SL(Supervised Learning)和SO(Source Only)之间的性能差距证明了两个数据集之间确实存在域转移。表3显示了RAP-1→ RAP- 2转移任务的比较结果根据SL(Supervised Learning)和SO(Source Only)之间的性能差距,RAP-1→RAP-2是一个比CUHK-PEDES数据集中的转移任务更平衡的转移任务。在此基础上,我们的模型仍然优于现有的域自适应方法。ods,但与CUHK-PEDES数据集上的结果相比,改进较小。这进一步证明了所提出的MAN可以学习域不变表示。此外,我们报告的结果属性查询方法(AQ),这是类似于SO设置,除了查询类型。这种降低的表现意味着属性之间的关系对文本表征的学习是重要的。此外,与传统的基于属性的人员搜索方法Adv-attReID[29]相比,我们的MAN也实现了更好的性能。4.4. 消融研究为了系统地研究MAN中每个组件的有效性,我们进行了一系列消融研究110687图4.在S→ C 03迁移任务中,通过Source Only,MAN和监督学习学习的图像和文本特征的t-SNE可视化。在S→C03转移任务上。结果如表4所示。我们首先通过 在 MAN ( wo DA ) 上 进 行 实 验 来 研 究 域 对 齐(DA)的重要性,地方检察官完全不见了可以看出,top- 1准确率下降了2.2%,这证明了领域对齐在有利于领域不变表示学习方面的有效性当比较MAN与MAN(wo CA)时,其中跨模态对准缺失,我们可以观察到MAN在前1准确度(48.5% / 46.8%)方面显著优于MAN(wo CA)。改进的性能表明,跨模态对齐可以帮助我们的模型学习更多的歧视性的跨模态表示,通过建模图像和文本之间的约束,从而有利于性能。 To investigate the im-portance of exemplar alignment, we perform experimentson MAN (wo EA). 结果表明,通过增强目标领域表征的聚类特性来缓解领域差异是此外,我们报告的结果,丢弃σ的时刻对齐。性能比MAN低0.5%,说明σ在缓解数据分布发散方面的优越性总之,我们可以观察到,所有组件都设计合理,当这些组件中的任何一个被移除时,性能都会下降。4.5. 视觉结果为了弄清楚我们的模型是否可以很好地学习目标域中的跨模态特征,我们利用t-SNE[25]来可视化通过Source On-ly,MAN和S→ C 03转移任务的监督学习的特征分布(随机选择7个类)。如图4(c),我们可以看到,学习的图像-文本特征沿着径向辐条分布,其中,由于图像和文本之间的余弦相似性的使用,相应的视觉和文本特征位于相同的方向上从图之间的COM。4(a)和图4(b),我们可以清楚地观察到,通过Source Only学习的特征不能很好地区分,其中来自非同源类的一些特征在特征空间中混合在一起。相比之下,我们的MAN学习的特征更具区分力,表4.在S→C03转移任务中,对拟定MAN中不同部件的烧蚀分析。wo的意思是没有。方法Top-1Top-5前10所以41.565.878.1MAN(woDA)46.373.282.7MAN(woCA)46.873.483.0MAN(woEA)47.373.883.4MAN(woσ)48.074.183.7人48.574.884.3分散在不同的班级。这说明我们的模型可以通过三阶矩对齐来扩大目标域的类间离散度5. 结论在这项工作中,我们提出了一种新的时刻对齐网络域自适应文本为基础的人搜索。据我们所知,这是第一次尝试调查这个问题。为了实现这一目标,我们提出了三种有效的矩对齐方法,包括领域对齐、跨模态对齐和目标领域内的样本对齐这三种对齐机制相互补充,以学习领域不变和语义对齐的跨模态表示。我们在CUHK-PEDES和RAP数据集上的五个传输任务上进行了广泛的实验,并通过显着的性能改进证明了我们的模型的有效性。6. 致谢本工作得到了国家重点研究发展计划(2016 YF-B1001000) 、 国 家 自 然 科 学 基 金 ( 61420106015,61572504,61721004)、山东省省 重 点 研 发 计 划 ( 重 大 科 技 创 新 项 目 )(NO.2019JZZY010119)、国家电网公司科技攻关项目“基于小样本机器学习方法的输电线路典型冰风灾特征识别与预测研究”。110688引用[1] 陈天狼,徐晨良,罗杰波。利用空间匹配和自适应阈值改进基于文本的人物搜索。在WACV,2018。[2] Weijian Deng , Liang Zheng , Qixiang Ye , GuoliangKang,Yi Yang,and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在CVPR,2018年。[3] 放大图片作者:David J. Fleet,Jamie Ryan Kiros,andSanja Fidler. Vse++:用硬否定词改进视觉语义嵌入。在BMVC,2018年。[4] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。NeurIPS,2014。[5] 道格拉斯·格雷,谢恩·布伦南,海涛。评估识别、重新捕获和跟踪的外观模型IEEE跟踪和监视性能评估国际研讨会,第1-7页,2007年[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[7] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,1997年。[8] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。计算机科学,2014年。[9] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。InNeurIPS,2012.[10] YannLeCun,Le'onBottou,YoshuaBengio,PatrickHaffner等人。基于梯度的学习应用于文档识别。在IEEE会议录,1998年。[11] 李东贤伪标签:简单高效的深度神经网络半监督学习方法-S.在表征学习的挑战研讨会,ICML,2013年。[12] Dangwei Li,Zhang Zhang,Xiaotang Chen,and KaiqiHuang.一个丰富的注释行人数据集,用于在真实监控场景中进行人员检索。IEEE图像处理交易,第1575-1590页[13] Minxian Li,Xiatian Zhu,and Shaogang Gong.通过深度学习轨迹关联的无监督人员重新识别在ECCV,2018。[14] 李爽,肖彤,李洪生,杨伟,王晓刚.具有潜在共同注意的身份感知文本视觉匹配。InICCV,2017.[15] Shuang Li,Tong Xiao,Hongsheng Li,Bolei Zhou,Dayu Yue,and Xiaogang Wang.使用自然语言描述进行人员搜索。在CVPR,2017年。[16] Wei Li,Rui Zhao,and Xiaogang Wang.用转移度量学习进行人类再识别在ACCV,第31[17] Wei Li , Rui Zhao ,Tong Xiao ,and Xiaogang Wang.Deep- reid:深度过滤配对神经网络,用于人物重新识别。在CVPR中,第152-159页[18] Mingsheng Long , Yue Cao , Jianmin Wang , andMichael I Jordan.使用深度适应网络学习可转移特征。ICML,2015。[19] Yingwei Pan,Ting Yao,Yehao Li,Yu Wang,Chong-Wah Ngo,and Tao Mei.用于无监督域适应的可转移原型网络。在CVPR,2019年。[20] Siyuan Qiao,Chenxi Liu,Wei Shen,and Alan L Yuille.通过从激活预测参数的少拍图像识别在CVPR,2018年。[21] Nikolaos Sarafianos , XiangXu , and IoannisAKakadiaris. 用于文本到图像匹配的对抗表示学习在ICCV,2019年。[22] Rui Shu , Hung H Bui , Hirokazu Narui , and StefanoErmon.无监督域自适应的dirt-t方法。在2018年的I-10[23] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少镜头学习的原型网络。NeurIPS,2017。[24] 埃里克曾,朱迪霍夫曼,凯特萨恩科,和特雷弗达雷尔-L.对抗性判别域自适应。在CVPR,2017年。[25] 劳伦斯·范德马滕。使用树型演算法加速t-sne。TheJournal of Machine Learning Research,第3221-3245页[26] Jingya Wang,Xiatian Zhu,Shaogang Gong,and Wei Li.可转移的联合属性-身份深度学习,用于未监督的人员重新识别。在CVPR,2018年。[27] Longhui Wei,Shiliang Zhang,Wen Gao,and Qi Tian.人员转移甘桥梁域差距的人重新识别.在CVPR,2018年。[28] 肖彤,李爽,王博超,林良,王晓刚.用于人员搜索的端到端深度学习。arXiv预印本arXiv:1604.01850,2016年。[29] Zhou Yin , Wei-Shi Zheng , Ancong Wu , Hong-XingYu , Hai Wan , Xiaowei Guo , Feiyue Huang , andJianhuang Lai.广告属性-图像人重新识别。在IJCAI,2018。[30] Hong-Xing Yu,Wei-Shi Zheng,Ancong Wu,XiaoweiGuo,Shaogang Gong,and Jian-Huang Lai.利用软多标签学习进行无监督人员再识别。在CVPR,2019年。[31] 张颖和卢沪川。用于图像-文本匹配的深度跨模态投影学习。在ECCV,2018。[32] 郑良,沈丽月,田璐,王胜金,卜嘉豪,田奇.人物再识别遇上图像搜索。arXiv预印本arXiv:1502.02171,2015。[33] Zhedong Zheng , Liang Zheng , Michael Garrett , YiYang,and Yi-Dong Shen.双路径卷积图像-文本嵌入。在arXiv预印本arXiv:1711.05535,2017。[34] Zhun Zhong,Liang Zheng,Shaozi Li,and Yi Yang.异构和同构的人检索模型的一般化。在ECCV,2018。[35] Zhun Zhong,Liang Zheng,Zhiming Luo,Shaozi Li,and Y-i Yang.不变性很重要:用于领域自适应个人重新识别的示例性存储器。在CVPR,2019年。[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功