没有合适的资源?快使用搜索试试~ 我知道了~
12016ASMR:自适应语义间隔正则化学习基于属性的人物搜索1*Jicheol Park2* Suha Kwak1,2 Dept. CSE,POSTECH1,人工智能研究生院,POSTECH2http://cvlab.postech.ac.kr/research/ASMR/摘要基于属性的人物搜索是找到与作为查询给出的一组文本属性最佳匹配的个人图像的任务。这项任务的主要挑战是属性和图像之间的巨大模态差距。为了减少差距,我们提出了一个新的损失学习跨模态嵌入的背景下,基于属性的人搜索。我们把一组属性看作是具有相同特征的人的一个类别。在两个模态的联合嵌入空间中,我们的损失将图像拉近其人类别以进行模态对齐。更重要的是,它将一对人类别推开由其语义距离自适应地确定的余量,其中距离度量是端到端学习的,使得损失在使人类别相关时考虑每个属性的重要性。我们的损失引导的自适应语义边缘导致更多的区分和语义良好安排的分布的人的图像。因此,它使简单的嵌入模型能够在公共基准上实现最先进的记录,而无需花里胡哨。1. 介绍人物搜索是从一个描述他们外表的查询中从一个大的图像集中找到人的任务。它在公共安全应用中发挥着关键作用,例如在视频中搜索罪犯,以及使用多个监控摄像头以非重叠视野跟踪人员。人物搜索已经被公式化为仅关注人物图像的细粒度图像检索问题,其中解决方案应该区分不同人的细微外观变化,并且同时很好地泛化到在训练期间看不见的人。大多数现有的人员搜索技术需要将目标人员示例为查询的图像[3,4,5,17,18]。20、24、27、30、33、38、48、50、52]。然而,图像查询在现实世界场景中并不总是可访问的,例如,得双曲余切值.*同等贡献目击者的记忆是发现罪犯的唯一证据。该问题的解决方案是利用口头描述作为针对人员搜索的查询[22,23],但是其遭受自然语言的固有模糊性并且需要复杂的过程来理解查询。针对上述问题,本文研究了基于文本属性的个性化搜索.具体地,查询被给定为指示目标人的特质的预定义属性的集合,例如:、性别、年龄、衣着、配饰;我们将这样的集合视为人类别,并且共享相同特质的多个人属于相同的人类别。这种方法适用于野外的人员搜索,因为属性收集起来很便宜,同时比自然语言描述更不模糊,更容易处理。然而,由于属性的描述能力有限,使用属性作为查询引入了额外的挑战,这导致图像和人物类别之间存在很大的模态差距。先前关于基于属性的人物搜索的工作试图通过模态对抗训练[2,51]在联合嵌入空间中对齐每个人物类别和相应的图像,或者通过以分层方式增强人物类别和图像的嵌入向量的表达能力[9]来减少模态差距。尽管这些先驱性的研究揭示了然而,对于个人搜索的探索较少的方法,仍然存在进一步改进的大空间。首先,由于它们的对抗性学习策略[2,51],它们在训练中是不稳定的并且计算量大,或者由于大维度嵌入向量需要额外的网络来匹配[9]而在推理中是昂贵的。更重要的是,这些方法将人物类别视为人物图像的独立类别标签,而忽略了它们之间的关系,例如。它们之间有多少属性不同,尽管这样的关系可以提供丰富的监督信号,用于学习人类别和图像的更好表示。我们开发了一种新的基于属性的人的搜索方法,克服了这些限制。我们的方法通过一对简单的编码器网络学习两种不同模态的联合嵌入空间,一个用于图像,另一个用于图像。12017其他人员类别;人的类别被表示为二进制向量,其每个维度指示相应属性的存在。 在进行人物搜索时,人物类别编码器将人物类别以二进制向量的形式表示为查询,并将其投影到联合嵌入空间上,检索出与查询的嵌入向量最接近的图像。本文的主要贡献是提出了一个新的损失函数,使我们的模型能够以简单的结构和检索流水线实现出色的性能。在联合嵌入空间中,损失将每个人类别视为关联图像的语义原型,并鼓励图像接近其原型,使得两种模态对齐。损失的关键特征是它根据人在二元属性空间中的距离自适应地确定嵌入空间中的人类别之间的间隔。此外,通过加权汉明度量来测量距离,其中权重乘以各个比特(即,每个比特的权重与每个比特的权重之和)。属性)与嵌入网络的参数一起被优化,使得当关联人物类别时损失集中在更重要的属性上。这个想法是由自适应语义边缘正则化器(ASMR)实现的,作为我们损失的一部分。所提出的损失函数与ASMR允许的人的图像的分布,以更具歧视性和se-mantically良好地安排在学习的嵌入空间。因此,我们的方法在三个公共基准数据集[8,25,29]上达到了最先进的水平,没有花里胡哨的东西。此外,与以前的工作[2,9,51]相比,它是有效的,因为它在嵌入空间上工作它是一个小维度的,没有额外的网络,并且在训练中收敛得非常快,因为它不需要对抗性训练。我们工作的主要贡献有三方面:• 我们提出了一种新的跨模态嵌入损失,considering人的类别之间的语义关系,使嵌入空间变得更具歧视性,更好地推广到看不见的类别。• 所提出的框架的简单架构和检索管道使得训练中的快速收敛和测试中的有效人员搜索成为可能。• 我们的方法在三个公共基准测试中达到了最先进的水平,没有花哨的东西。2. 相关工作2.1. 基于属性的人物搜索基于属性的人物搜索的一种简单方法是识别人物图像的属性,并找到其预测属性与查询[21,34,40]中给出的人物类别相同的图像。然而,这种方法是不可靠的,由于属性识别的不完善。注意属性识别本身是具有挑战性的,因为属性的外观可能显著变化,并且由监视摄像机捕获的人物图像通常在分辨率和质量方面受到限制。最近的方法反而学习和利用跨模态嵌入空间,其中人员类别和相关联的图像彼此接近。这方面的主要问题是两种模式之间的巨大差距。Dong等人。 [9]通过分层嵌入捕获两种模态的丰富信息来解决这个问题。然而,他们的模型计算量很大,因为它计算高维嵌入,并部署了一个额外的网络来匹配它们。 Yin等人 [51]和Cao et al.[2]学习一个联合嵌入空间,其中人物类别和图像直接匹配。为了弥合模态差距,它们的嵌入空间以模态对抗的方式进行训练,然而,由于极大极小优化的性质,这通常会导致不稳定和缓慢的收敛。此外,这些方法都有一个局限性,即人的类别被认为是单独的类标签和他们的非平凡的关系被忽略。我们的方法还学习了一个跨模态嵌入空间,但与以前的技术不同,它在训练和测试中都很有效,并且让学习的嵌入空间反映人物类别之间的语义关系。2.2. 深度度量学习深度度量学习的目标是学习一个嵌入空间,其中相同类的数据被分组在一起,而不同类的数据被推开。度量学习的损失函数大致分为两类,基于对和基于代理的损失。基于对的损失基本上将一对嵌入向量拉近彼此,如果它们是相同的类,否则将它们推开。 遵循此原则的早期示例是对比损失[1,6,14],其通过关联多个对[35,36,37,44,47]而扩展到考虑嵌入向量的高阶关系。另一方面,基于代理的损失将嵌入向量与原型相关联,每个原型都是代表每类训练数据的虚拟嵌入向量,并学习为嵌入式网络的一部分。然后,根据它们的类等价性,损失将一对嵌入向量和原型拉在一起或推开[7,19,31]。不幸的是,由于以下原因,这些损失不适合直接应用于基于属性的人员搜索。首先,除了少数例子外,大多数都是为单模态检索开发的[12,26]。第二,他们不能考虑人的范畴之间的语义关系,因为他们认为范畴是独立的标签,其关系是二元的(即。相同或不相同)。与度量学习的现有损失不同,我们的损失可以处理非平凡的类别间关系以及12018嵌入空间CNN间隙图像嵌入图像图像编码器性别好色彩⁝年龄人类类别性别向上颜色Concat多热向量年龄语义原型推拉ASMR马雄性红⁝年轻男性灰色⁝成人女红⁝年轻男性灰色⁝成人人员类别编码器损失图1.我们的方法的整体流水线图像被嵌入一个传统的CNN,然后是一个MLP,而查询的属性集,称为人的类别,被转换为一个二进制向量,并通过一个单独的嵌入网络编码。在它们的联合嵌入空间中,图像嵌入和语义原型的正对被拉到一起,而负对被推开以进行跨模态对齐。此外,一对语义原型通过由它们的语义亲和力自适应地确定的裕度相互推或拉这些类别和图像之间的感谢ASMR。我们相信我们的损失可以应用于其他任务,其中标签间关系超出了二进制。2.3. 跨模式检索基于属性的人物搜索是跨模态检索的一个特定示例,其主要针对图像-文本或图像-声音检索进行了研究[10,32,41,42,45,46]。大多数现有的跨模态检索方法旨在学习不同模态的联合嵌入空间,以便简单的最近邻搜索可以在空间中找到相同内容的样本,而不管它们的模态如何。这个想法通常由典型相关分析(CCA)[15]或生成对抗网络(GANs)[13]实现。具体来说,基于CCA的方法试图通过最大化它们的相关性将不同模态的样本投影到公共嵌入空间中[10,45,46,49],而基于GAN的方法通过学习模态对抗嵌入来对齐不同模态的样本[41,42,51]。不幸的是,这些方法不能考虑类之间的语义关系。本文表明,基于原型的嵌入学习是相当有效的跨模态检索。此外,与以前的工作不同,我们的方法可以考虑类别之间的关系,大大提高性能。3. 我们的方法在基于属性的人员搜索中,一组称为人员类别的属性描述了我们想要找到的人的特征。给定一个人类别作为查询,我们的方法通过在人图像和类别的联合嵌入空间中找到最接近查询的图像来进行逐个搜索。它通过两个编码器学习嵌入空间,一个用于图像,另一个用于人物类别;该体系结构的概述在图1中给出。1.一、我们工作的关键贡献是用于训练网络的损失函数。在嵌入空间中,该损失将个人类别及其相关联的图像拉到一起,并且同时将一对个人类别推开由它们的语义相异度自适应地确定的余量。由于提出的损失,我们的模型实现了出色的性能和快速收敛,并且由于直接的模型架构和检索管道而具有计算效率。本节的其余部分首先描述了模型架构及其预训练的细节,然后详细阐述了所提出的损失函数并讨论了其优点。3.1. 模型结构及其预训练在我们的模型的图像编码器中,传统的CNN提取输入人物图像的特征图,该特征图进而通过全局平均池化(GAP)转换为单个特征向量,并馈送到产生图像嵌入的多层感知器(MLP)。同时,人类别编码器是一个MLP,它将人类别作为输入并产生人类别嵌入。两个编码器的输出都是l2归一化的。由于人物类别是一组文本属性,因此必须将其转换为数字形式以馈送到其编码器。为此,它以二进制向量的形式给出,其每个维度指示相应属性的存在。假设属性被排他性地分组到多个属性组中;例如,两个属性男性和女性属于相同的属性组性别。由于每个属性组只能取一个属性,因此属性由一个维数与属性组数相同的独热向量表示。在其组中的属性。然后,通过连接其所有属性的此类独热向量来获得人类别的二进制向量表示。12019i=1Σ··i=1Gi=1i=11e我我⎛⎞D{}.Σ。Σ。Σpi−pj=1pj− pk=3少年短发短袖上白长下紧身衣浑身冻得发紫裤子手袋男性少年短发短袖上白长下紧身衣浑身冻得发紫裤子手袋女性少年长发短袖上白短浑身冻得发紫裤子袋女性IIPIIjpjIKPK图2.在Eq.中的学习目标的概念说明。(一).模态对准损失将图像拉到接近其在裕度γ内的人类别。同时,ASMR根据语义倾向控制人类别之间的边界我们模型的参数是随机初始化的,除了我们采用ImageNet 预 训 练 参 数 的 CNN 的 参 数 。 不 幸 的 是 ,ImageNet分类的权重对于捕捉人物图像的细微外观特征来说是次优的。因此,我们对图像编码器进行了属性分类的预训练,这是一项辅助任务,用于学习更适合人物搜索的图像表示。1具体来说,我们在每个属性组的GAP顶部附加了四个全连接(FC)层的分类头。然后,每个分类头与骨干CNN一起训练,以通过多类分类损失在其属性组中选择正确的属性;为此,我们采用softmax交叉熵损失。在预训练之后,随机初始化的MLP替换属性分类头。ASMR,并且λ是加权超参数。这两个组件的细节描述如下。3.2.1模态对准损失模态对齐部分的作用是在公共嵌入空间中对齐两个不同的模态。考虑到每个人类别嵌入作为相关联的图像嵌入的语义原型,通过将图像嵌入拉近其语义原型并将其推离不相关的原型来完成跨模态对齐。这个想法被公式化为LM A. {fi,gi}mΣ=Mσcos(a(f,g)+γ)、3.2. 学习目标-mlogeσcos(a(f,g)+γ)+ Σeσcosa(fi,gk)我们模型的损失由两部分组成。其中之一是模态对齐损失,其设计用于将图像的嵌入向量围绕其每个向量分组在一起。i=1我我gk∈G\gi(二)子类别进行跨模态对齐。另一种是自适应语义间距调节器(ASMR),它根据人物类别的语义差异来调节嵌入向量之间的间距。这两个组件的作用如图所示。二、令f和g分别是图像和人物类别的编码器。 用于学习编码器的训练数据由与指示其人类别的二进制向量配对的一组图像提供,其中m是训练图像的数量。此外,让-注意在训练集中的唯一个人类别的嵌入向量的集合。给定图像的嵌入向量fi:= f(li)和人物类别的嵌入向量gi:= g(pi),我们的模型的学习目标是如下两项的线性组合:L {fi,gi}m=LMA{fi,gi}m+λRG,(一)其中L_MA表示模态对准损失,R表示1出于同样的原因,现有方法也利用了属性分类,将其作为辅助任务[9]或将其用于预训练模型[2]。其中α(i)表示其两个输入向量之间的角度,〇>〇是比例因子,并且γ >〇是图像和人物类别嵌入之间的裕度。 以上表格类似于ArcFace损失[7],但不同之处在于用作原型的人类别嵌入不是参数,而是我们损失中另一个编码器g的输出。我们经验地发现,仅用这种损失训练的简单联合嵌入架构与先前的技术一样具有竞争力;它可以被认为是一个简单而坚实的基线基于属性的人搜索,和ASMR进一步提高性能显着。3.2.2ASMR为了准确的人搜索和泛化到未见过的人类别,我们期望从学习的嵌入空间中,不同的人类别彼此清楚地分开,并且如果它们更不相似,则它们的距离更大,即。,共享较少的属性。然而,方程中的模态对准损失。(2)单独不能保证嵌入空间的这种质量,因为它忽略了它们之间的语义关系;损失考虑人员类别嵌入空间arccosμ +ðpj,pkarccosμ +ðpi,pj12020Σ ΣΣΣ- -- -我 J作为独立的类标签。关于这个问题的失败情况之一是,当不同的人类别的图像表现出细微的外观变化时,这些类别在学习的嵌入空间中经常彼此过于接近;图中给出了一个例子。六、为了解决这个问题,我们引入ASMR,显式地控制一对人的类别之间的差距,根据他们的语义相异。正则化子由下式给出表1.三个基准的统计一个R(G)=|− 1个|−1|G| .s(g,g)−μ−δ(p,p)Σ2,4.1. 数据集我们评估我们的方法和以前的艺术上三个酒吧-|G|C2其中s(·,·)i=1I jj=i+1I j(三)lic数据集,PETA [8],Market-1501 Attribute [25]和PA100 K [29],它们是表示两者之间的余弦相似度并且μ是在嵌入空间中的所有成对的人类别上的平均相似度:基于属性的人员搜索。数据集统计总结见表1。请注意,PETA数据集遵循普通图像检索设置,其中类别一个|G| −1个μ=|G|s(g,g)。(四)的测试图像都是不可见的,而其他两个数据集i=1 j=i+1此外,δ(pi,pj)量化了表示为二进制向量pi和pj的一对人物类别的语义相似性,并被公式化为加权汉明距离的逆δ(pi,pj)=Sigmoid。1−Σwk|pi(k)−pj(k)|Σ。(五)关于其形状,S形函数使该相似性边缘更敏感地响应于更相似的人类别对,其通常必须被更仔细地处理以用于准确的人搜索。2此外,权重参数wk与嵌入网络的权重参数wk一起训练,这使得ASMR能够估计个体属性的重要性并考虑重要性来关联人物类别。ASMR强制s(gi,gj)近似μ+δ(pi,pj),使得二进制向量空间中的人物类别之间的相似度通过它们在学习的嵌入空间中的相似度来反映。ASMR的这种行为通过扩大人类别之间的间隔,使得嵌入向量的分布更有区别。此外,我们相信它有助于我们的模型避免偏向图像信息,并通过在嵌入空间中显式地反映人物类别之间的语义关系,更好地推广到看不见的人物类别。4. 实验我们的方法进行了评估,并与以前的工作进行了比较,对基于属性的个人搜索[8,25,29]的三个公共基准。我们还通过消融研究和定性分析证明了ASMR的效果。2共享更多属性的人类别由于其相似的外观而更可能在嵌入空间中接近,并且影响以找到最接近查询的样本为目标的人搜索的准确性4.2. 实现细节网络架构。在图像编码器中,骨干CNN是ResNet-50[16],MLP由三个FC层组成。另一方面,人类别编码器仅由具有三个FC层的MLP实现。两产生128维的嵌入向量,该嵌入向量被L2归一化。编码器的更多细节在补充材料中给出。超参数。在每次实验中,我们的模型都用SGD进行了优化,动量为0.9,权值衰减为5e 4,持续10个epoch;每个小批由128个图像及其人物类别组成。初始学习速率设置为1e3用于图像编码器,以及1e 2 用于人类别编码器和加权汉明距离的参数。然后,两个学习率每5个时期衰减0.1倍。其他超参数,Eq.(1),以及等式(2)中的σ和γ。(2)在PETA上设置为(4,32,0.1),在Market-1501上设置为(6,12,0.2属性,以及PA100K上的(5,48,0.1)。4.3. 与以前工作的我们的模型与现有的三种基于属性的人员搜索方法AAIPR [51],AIHM [9]和SAL [2]进行了比较。我们还报告了相关模型的性能,这些模型最初不是针对基于属性的人搜索提出的,但已在文献中被复制。这些方法(包括我们的方法)的性能总结在表2中,其中采用累积匹配特征(CMC)和平均精度(mAP)作为遵循惯例的性能指标。该表显示,我们的模型在Rank1和mAP指标方面它清楚K|G|C2假设更一般的搜索场景,其中在测试中出现了见过的和没见过的人类别。数据集PETAMarket-1501PA100K#属性652726#属性组171015#培训人员类别1,890508500#训练图像12,14012,93680,000#测试人员类别200484814#看不见200315168#测试图片1,18116,48310,00012021方法PETAMarket-1501PA100KSAL [2]202211957我们271811045岁男性背包帽子-黑色浑身冻得-30岁女性--裤子粉红色羽绒灰靴子方法昏暗PETA市场-1501属性PA100KRank1Rank5排名10地图Rank1Rank5排名10地图Rank1Rank5排名10地图DeepMAR [21]-17.825.631.112.713.224.932.98.9----DCCAE [46]-14.222.130.014.58.124.034.69.721.239.748.015.62WayNet [10]-23.738.541.915.411.324.431.57.819.526.634.510.6CMCE [22]-31.739.248.426.235.051.056.522.825.834.945.413.1AAIPR [51]12839.053.662.227.940.349.258.620.7----AIHM [9]3K----43.356.764.524.331.345.151.017.0SAL [2]12847.066.574.041.249.068.677.529.8----SAL [2]†12839.061.570.037.244.465.772.529.422.736.541.615.0我们12856.580.083.550.249.664.972.531.031.949.158.220.6表2.与先前技术的定量比较Dim表示基于交叉模态嵌入的方法的嵌入维数粗体和下划线分别表示最佳和次佳。†表示正式实施的结果表3.训练时间比较(min)超过AIHM [9],PA100K的最新技术水平,所有可用设置。这一成就是显著的,因为我们的方法比AIHM更有效;与AIHM不同,它不需要任何额外的网络来进行检索。此外,我们的方法超过SAL [2],PETA和Market-1501属性中的最新技术水平,几乎适用于所有设置。特别是,它在PETA数据集上的表现优于SAL,在Rank1中为9.5%,在mAP中为9.0%。在Market-1501属性数据集上,它在Rank 1和mAP方面比SAL更准确,尽管它的记录(一)年龄18-60男性 短套筒背包眼镜前上logo裤子(c)第(1)款(b)第(1)款18-60岁女性 长袖背包-回来-裤子(d)其他事项在Rank5和Rank10中的浓度略低于SAL。我们的方法成功的关键是双重的。第一是亏损。由于损失将每个图像嵌入与数据集中所有人类别的图像嵌入进行比较,因此它能够更有效地学习更多有区别的嵌入空间。同时,AIHM的损失仅考虑小批量内的图像和人员类别。另一个原因是人物类别编码器,它以属性感知的方式对人物类别进行编码,以便嵌入空间反映其语义关系。另一方面,SAL将人类别表示为独立的网络参数。最后一个也是最重要的原因是ASMR,其有效性在第二节中得到了验证。四点六分。Market- 1501属性和PA 100 K数据集略有改善的原因如下。与PETA数据集相比,这些数据集假设了更具挑战性的搜索场景,其中在测试中出现了见过和未见过的人类别。此外,在Market-1501数据集中,不正确的属性标签绑定性能;这是因为不是每个图像而是每个视频来注释标签,例如,,标有“夹克”的男子此外,与SAL相比,我们的模型在培训方面更有效。SAL由于其对抗性学习策略而需要大量的训练时间来收敛在12022图3.我们的方法在(a,b)PETA和(c,d)PA100K数据集上的前5个检索结果图像根据它们的等级从左到右排序。绿色框和红色框分别表示真匹配和假匹配。查询以表的形式给出,其中空格表示查询中不存在的属性相比之下,我们的方法只是通过监督学习来训练,其中损失函数在等式中。(一).因此,我们使用单个GPU的收敛速度比使用两个GPU的SAL快7.5倍以上,如表3所示。4.4. 定性分析所提出的方法的定性结果在图中给出。图3和图4。 所有呈现的结果表明我们的方法对人和相机姿态的严重变化不敏感。此外,个别例子表明,我们的方法对图像分辨率的变化是鲁棒的(图1)。3(b,c,d),Fig.4(a,b,c)),照明(图3(c,d),图4(a,b,c))和部分闭塞(图4(a,b,c))。3(a、c、d))。实验结果还表明,该方法能够捕捉到图像的精细细节,从而实现精确检索;示例包括图3(a、c、d)和图3(b)中的背包。4(a,b),帽子在图3(a)和图。图4(c)中的眼镜和衣服图案以及图3(c)中的眼镜和衣服图案。在补充材料中可以找到更多定性结果。12023LLLLPETAMarket-1501PA100K方法PETAMarket-1501PA100Kw/oδ(pi,pj)52.046.130.3统一wk52.546.529.8l2归一化wk52.046.330.1我们56.549.631.9(一)少年背包裙子短短袖长发女性上黄羽绒黑-(b)第(1)款成人-裤子长下半身服装短袖短发男性上白羽绒黑帽子(c)第(1)款图4.我们的方法在Market- 1501 Attribute数据集上的前10个检索结果。图像从左到右排序,根据他们的行列。绿色框和红色框分别表示真匹配和假匹配查询显示在检索到的图像上方;空白表示查询中不存在的属性表5.ASMR及其变体在三个数据集检索结果中的Rank@1比较图5.在我们的方法中学习的wk在三个数据集上的可视化,其中每个值对应于每个属性。PETA为2.0%,Market-1501属性为14.4%,PA 100 K为2.9%,这清楚地验证了其有效性。此外,该表显示,简单基线已经与现有技术水平相当;我们认为,这是今后工作必须考虑的一个坚实和未经探讨的基线。最后,我们再次强调,最先进的方法[2,9]也利用了属性分类,因此表2中的比较是公平的。与其他嵌入损失的比较。为了证明我们的模态对齐损失MA的优越性,我们评估了我们的方法的变体,这些变体用代理锚点[19]、代理NCA [31]、CosFace [43]和SphereFace [28]代替MA,使用原型代表嵌入损失。表4(b)示出了使用MA的我们的方法大大优于两个变体,这表明MA是最佳的。LMA的优势表4.在PETA、Market-1501 Attribute和PA 100 K数据集上,我们的Rank@1及其变体的性能。4.5. 消融研究预训练和ASMR的效果。我们通过评估我们的方法的两个简化版本(有和没有它们)来量化我们的预训练策略和ASMR的效果。为此,我们首先定义一个基线作为模型 与我们的架构相同,但只在Eq中使用MA训练。另一个变体通过将预训练添加到基线来获得。表4(a)中的结果表明,ASMR的贡献是显著的,预训练也在一定程度上有所帮助。具体而言,ASMR对性能有贡献,在PETA上将Rank 1提高了8.0%,在Market-1501属性上提高了4.8%,在PA 100 K上提高了3.0%。这些结果表明,ASMR使学习的嵌入空间更具鉴别力,并更好地推广到看不见的类别。此外,预训练将Rank1提高了4.6. ASMR深入分析ASMR的每个设计点的效果通过实验进行验证,其结果总结在表5中。首先,我们的模型和没有δ的模型之间的巨大差距证明了δ对性能的重要贡献。请注意,没有δ的ASMR变得类似于[11]中的多样性正则化器,并强制人员类别嵌入均匀分布。这表明ASMR并没有盲目地扩大类别间的边界,而是考虑类别之间的语义相似性来控制它们,这对我们的工作的出色表现至关重要。还研究了δ中可学习权重wk的作用。我们观察到,当权重由单个值固定时,性能下降(即,uniformwk),这表明学习的权重很好地捕获了属性的不相等重要性。我们还发现,对权重进行L2归一化没有用,反而损害了性能;图5示出了我们的方法在没有这样的约束的情况下学习非均匀和正权重。少年背包裤子短短袖长发女性上灰羽绒黑-方法PETA市场PA100K(一)基线基线+训练前46.548.530.444.826.028.9(b)LMA→代理锚[19]LMA→Proxy NCA[31]LMA→ CosFace[43]LMA→ SphereFace48.052.050.552.541.143.845.345.027.429.724.923.812024十个7五个605-54-103-5 0 5 10 15-2 0 2 4 6 8 10第1人物图片类别1第2人物图片类别2(a) (b)我们的第1少年手袋裤子长下半身服装短袖短发女性上白 浑身冻得发紫第2少年袋裤子短短袖长发女性上白 浑身冻得发紫图6. t-SNE可视化为Market-1501属性数据集学习的联合嵌入空间的一部分。星形和圆形分别表示人物类别及其关联图像的嵌入向量,并且它们的颜色表示它们的人物类别。下面详细说明人员类别,其中两个类别之间不同的属性用红色表示具有正则化器的模型根据两个类别的语义相异性来扩大它们之间的间隔,使得它们在嵌入空间中被很好地区分。通过对比图1中正则化子前后模型的检索结果,进一步验证了ASMR的有效性。7.第一次会议。结果表明,该模型(一)没有正则化器的情况下,当不同的图像人的类别与图中的过于相似 7(a)和/或查询的一些属性是关于图像的精细细节,如图7(b)中的帽子和年龄。我们的方法与ASMR handles这些问题有效地感谢改进的区分能力的ASMR。5. 结论(b)图7.我们的方法及其变体在Market-1501 Attribute数据集上没有ASMR的前5个图像根据它们的等级从左到右排序。绿色框和红色框分别表示真匹配和假匹配。最后,我们对ASMR的效果进行了更详细的定性分析,以解释它是如何工作的,并验证其贡献。图6比较了由我们的模型学习的联合嵌入空间及其没有ASMR的简化版本。我们采用t-SNE[39]来可视化他们的嵌入空间,并只关注两个特定的人类别,共享他们的许多属性,以便进行清晰的分析。如图在图6(a)中,人类别2的一些图像(其外观与人类别1的那些图像非常相似)在没有正则化器的情况下学习的嵌入空间中过于靠近人类别1;这样的图像将导致人员搜索失败。这是因为如果没有对人物类别嵌入施加约束,则模型过度地偏向于图像模态。相比之下,图6(b)表明我们的最终结果我们已经提出了一个有效的框架,用于基于属性的人员搜索。我们工作的主要贡献是基于ASMR的新型损失函数,用于学习跨模态嵌入:它将人物类别和相关图像对齐在一个公共的嵌入空间中,同时根据空间中的语义属性排列人物类别。我们通过实验证明,建议的损失允许一个简单的嵌入式模型,以实现国家的最先进的性能。考虑到它的简洁和出色的性能,我们的工作将是一个坚实的基线基于属性的人搜索。鸣谢:这项工作得到了NRF赠款,IITP赠款和&由韩国科学和信息通信技术部资助的高级集成智能识别研发计划的支持(No.2019-0- 01906人工智能研究生院计划-POSTECH,NRF-2021 R1 A2 C3012728 - 30%,NRF-2018 R1 A5 A1060031 - 20% , NRF-2018 M3 E3A1057306 - 20%)。30%,IITP-2020-0-00842-20%)。ASMR少年手袋裤子长下半身服装短袖短发女性上白浑身冻得发紫-不带ASMRASMR成人手袋连衣裙长下半身服装短袖短发女性向上红色向下黑色-不带ASMR12025引用[1] Jane Bromley、Isabelle Guyon、Yann Lecun、EduardS ¨ckinge r和RoopakShah。使用“连体”时间延迟神经网络的签名验证。 在proc 神经信息处理系统(NeurIPS),1994年。[2] Yu-Tong Cao,Jingya Wang,and Dacheng Tao. 共生基于属性的人搜索的对抗学习。欧洲计算机视觉会议(ECCV),2020年。[3] 张晓军,黄伯尧,沈义东,晓丹Liang , Yi Yang , and Alexander G Hauptmann.RCAA:用于人员搜索的相关上下文感知代理 在proc欧洲计算机视觉会议(ECCV),2018年。[4] 陈迪,张珊珊,欧阳万里,杨健,和英台。基于掩码引导的双流cnn模型的人员搜索。欧洲计算机视觉会议(ECCV),2018年。[5] Guangyi Chen , Chunze Lin , Liangliang Ren , JiwenLu,and周介。自我批判的注意力学习对人的重新识别。在Proc. IEEE计算机视觉国际会议(ICCV),2019年10月。[6] S. 乔普拉河Hadsell和Y.乐存。学习相似性有区别地度量,并应用于面部验证。在proc IEEE计算机视觉与模式识别会议(CVPR),2005年。[7] 邓建康, 贾果: 薛念南: 关于StefanosZafeiriou. Arcface:用于深度人脸识别的附加角度余量损失。IEEE计算机视觉与模式识别会议(CVPR),2019年。[8] Yubin Deng,Ping Luo,Chen Change Loy,and XiaoouTang.远 距 离 行 人 属 性 识 别 在 proc ACM多 媒 体 会 议(ACMMM),2014年。[9] 齐东,龚少刚,朱夏天。人检索通过文本属性查询作为零拍学习。在proc IEEE计算机视觉国际会议(ICCV),2019年。[10] 艾薇夫·艾森施塔特和里奥·沃尔夫。链接图像和文本双向网 在proc IEEE计算机视觉和模式识别会议(CVPR),2017年。[11] M. Hayatet al. Gaussian affinity for max-margin class im-均衡学习。在Proc. IEEE国际计算机视觉会议(ICCV),2019年。[12] Fartash Faghri,David J Fleet,Jamie Ryan Kiros和Sanja菲德勒Vse++:用硬否定词改进视觉语义嵌入 在proc英国机器视觉会议(BMVC),2017年。[13] Ian Goodfellow , Jean Pouget-Abadie , Mehdi Mirza ,BingXu , David Warde-Farley , Sherjil Ozair , AaronCourville,and Yoshua Bengio.生成性对抗网。在神经信息处理系统的进展,第2672[14] R. Hadsell,S.Chopra和Y.乐存。降维-通过学习一个不变的映射。 在proc IEEE计算机视觉与模式识别会议(CVPR),2006年。[15] David R Hardoon、Sandor Szedmak和John Shawe-Taylor。典型相关分析:学习方法应用概述。神经计算,2004年。[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习 在proc IEEE计算机视觉和模式识别会议(CVPR),2016年6月。[17] 何凌霄,梁健,李海青,孙振安。用于部分人重新识别的深度空间特征重建:无对准方法。IEEE 计算机视觉和模式识别会议(CVPR),2018年6月。[18] MahdiM Kalayeh,EmrahBasaran,MuhittinGokmen,穆斯塔法·E. Kamasak和Mubarak Shah用于人员重新识别的人类在Proc. IEEE Conference on Computer Visionand Pattern Recognition(CVPR),2018年6月。[19] Sungyeon Kim 、 Dongwon Kim 、 Minsu Cho 和 SuhaKwak。用于深度度量学习的代理锚丢失。IEEE计算机视觉和模式识别会议(CVPR),2020年。[20] 徐澜,朱夏天,龚少刚。 人检索通过多尺度匹配。 在proc 欧洲计算机视觉会议(ECCV),2018年。[21] Dangwei Li,Xiaotang Chen,and Kaiqi Huang. 多-用于监控场景中行人属性识别的属性学习。2015年IAPR亚洲专利认可会议(ACPR)[22] 李爽、肖彤、李洪生、杨伟、奚-王奥刚。具有潜在共同注意的身份感知文本视觉匹配。 在proc IEEE国际计算机视觉会议(ICCV),2017。[23] 李爽,肖彤,李洪生,周波磊,大宇Yue,and Xiaogang Wang.使用自然语言描述进行人员搜索。IEEE计算机视觉与模式识别会议,2017年。[24] Wei Li,Rui Zhao,Tong Xiao,and Xiaogang Wang.深-reid:用于人员重新识别的深度过滤器配对神经网络。在Proc.IEEE Conference on Computer Vision and PatternRecognition(CVPR),2014年6月。[25] 林玉田、郑良、郑哲东、吴宇、志-胡兰,严成刚,杨毅。通过属性和身份学习改进人员再识别。模式识别,2019年。[26] Venice Erin Liong,Jiwen Lu,Yap-Peng Tan,and JieZhou.跨模态匹配的深度耦合度量学习IEEE Transactions on Multimedia,19(6):1234[27] Hao Liu,Jiashi Feng,Zequn Jie,Karlekar Jayashree,Bo Zhao , Meibin Qi , Jianguo Jiang , and ShuichengYan. 神 经 人 搜 索 机 器 。 在 Proc. IEEE InternationalConferenc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功