没有合适的资源?快使用搜索试试~ 我知道了~
3652…基于文本属性查询的零机会学习方法齐东伦敦玛丽女王大学q. qmul.ac.uk龚绍刚伦敦玛丽女王大学s. qmul.ac.uk朱下田深圳市金源科技有限公司eddy. gmail.com摘要现有的人搜索方法主要假设所查询的人的至少一个拍摄的图像样本的可用性。 这种假设在只有目标人的简短文本(或口头)描述可用的情况下是有限的。在这项工作中,我们提出了一种基于文本属性描述的深度学习方法,无需任何查询图像。虽然传统的跨模态匹配方法,例如基于全局视觉-文本嵌入的零拍摄学习和局部输入-输出学习,但它们都是基于视觉-文本嵌入的。属性文字青少年,背包,下黑,上红,低帮短袖,短袖,裤子,短发,男检索图像查询检索人物图像数据库单独属性识别,在功能上是可应用的,高匹配分数低它们受到在部署规模、数据质量和/或类别名称语义上对人员搜索无效的几个假设的限制。我们克服了这些问题,制定一个属性图像层次匹配(AIHM)模型。它是能够更可靠地匹配文本属性描述,通过共同学习,ING全球类别级和本地属性级的文本视觉嵌入以及匹配与嘈杂的监视人的图像广泛的评估证明了我们的AIHM模型在三个公开可用的属性标记的监视人员搜索基 准 上 优 于 各 种 最 先 进 的 方 法 : Market-1501 、DukeMTMC和PA 100 K。1. 介绍大规模视频中的人物搜索是一个具有挑战性的问题,在法医视频分析和实时视频监控中有着广泛的应用[11]。随着全球越来越多的智慧城市配备了成千上万的24/7监控摄像头,每天积累了大量的原始视频数据。人工操作员手动搜索人是不可行的(例如,搜索人的位置)。犯罪嫌疑人或失踪人员)。自动化人员搜索变得至关重要。大多数现有的人员搜索方法基于图像查询(探测),也称为人员重新识别[11,13,21,39,40]。给定查询图像,系统计算查询图像与测试数据中的每个图库图像之间的成对视觉相似性顶部图1:通过文本属性(关键字)进行人员搜索。具有最高相似性分数的等级被认为是可能的匹配。这样的操作假设被查询的人的至少一个图像(一次拍摄)可用于发起搜索。当只有对目标人的口头或文本存在通过文本查询进行人员搜索的许多尝试,例如自然语言描述[20,19]或离散文本属性[37,16,32]。为了学习这样的搜索系统,标记跨文本和视觉数据模态的大型训练数据集是必要的。精细的语言描述不仅需要更昂贵的训练数据标记,而且还存在显著的计算挑战。这是由于语言描述和图像外观之间的解释的歧义,使得:(1)相同语言描述的显著和/或细微的视觉变化;(2)对同一图像的语言描述具有灵活的句法结构;以及(3)建模句子中的顺序词依赖性是一个困难的问题,特别是对于长描述。相比之下,文本属性描述不仅在收集标记的训练数据方面要便宜得多,而且在模型优化方面也更容易处理。重要的是,它们消除了对建模复杂句子结构及其与相同视觉外观的相关性的需要,反之亦然。虽然给出了较弱的外观描述能力的折衷方案,但有利地使用文本属性可以实现更鲁棒且计算上易于处理的方法36531234567123456图2:属性查询person search的模型架构。(a)个体属性分类,即局部属性级建模。(b)交叉模态匹配,即全局类别级建模。(c)拟议的属性-图像分层匹配,将局部和全局建模结合起来。在没有图像探测器的情况下进行文本查询。文本属性查询的人搜索是在很大程度上研究的文献。 很少有尝试。 一种直观的方法是估计每个人图像的属性向量(文本描述),然后将查询人的属性向量与所有图库人图像的属性向量进行匹配[16,32](图2(a))。通过独立处理属性标签,该方法可以灵活地处理巨大的属性组合空间。然而,它缺乏一个支持的背景下,占一个整体的解释,所有的文本属性作为一个整体,这有助于文本图像匹配的人搜索。当前最先进的模型AAIPR [37](图2(b))采用文本-图像匹配策略,但失去了单个属性建模的通用可扩展性。在这项工作中,我们第一次将文本属性查询人员搜索的问题制定为零射击学习(ZSL)问题[35,10]。这是因为潜在的测试查询类别(文本属性组合)在现实中大规模存在,但是由于穷尽地获取每个类别的训练数据的高成本,它们中只有一小部分可用于模型训练。这引起了模型训练和测试之间的跨类别问题,即在训练过程中,针对不可见类别的零次采样。这种理解促使我们设计基于全局类别级视觉-文本嵌入的跨模态匹配方法,这是一种常见的零次学习方法(图2(b))。AAIPR [37]也使用了全局嵌入思想,但完全忽略了模型设计中的零触发学习挑战。作为一种类型的解决方案的属性查询人的搜索,现有的ZSL模型,然而是次优的。首先,不像传统的ZSL设置将测试图像分类为少量类别,我们将文本属性描述与大量人物图像和更多类别相匹配这代表了更大规模的更具挑战性的零射击搜索问题。现有的最先进的ZSL方法是基于全局类别级的视觉-文本嵌入,但规模不佳的大型测试[35]。一个合理的原因是由于不足的本地属性级别的歧视,更细粒度的匹配。第二,人搜索中的监视图像呈现出明显更多的噪声和模糊性,呈现出更困难的任务。第三,缺乏语义上有意义的人类别名称防止利用类间关系。在这项研究中,我们制定了一种新的属性图像层次匹配(AIHM)方法(图2(c))。它在多个层次上执行用于人搜索的属性和图像匹配,包括全局类别级视觉-文本嵌入和局部属性级特征嵌入。该方法的目的是克服传统的ZSL模型和现有的基于文本的per-son搜索方法的局限性,受益于传统的属性分类方法的泛化可扩展性。重要的是,跨模态匹配可以跨所有不同的级别联合地端到端优化。我们的贡献是:(一)我们制定了第一次扩展ZSL方法来解决文本属性查询的人搜索问题。我们的模型旨在解决监控视频中有限的训练类别数据的内在挑战 。 ( II ) 提 出 了 一 种 新 的 属 性 - 图 像 层 次 匹 配(AIHM)方法。AIHM是能够匹配更可靠的稀疏属性描述与嘈杂的监视人的图像在全球类别和本地在贡级同时。这超越了常见的ZSL最近邻搜索。 (III)我们进一步引入用于解决任何视觉模糊问题的质量感知融合方案。大量的实验表明,AIHM优于国家的最在 三 个 基 准 上 查 询 人 员 搜 索 : Market-1501 [39] 、DukeMTMC [27,23]和PA 100K [24]。2. 相关工作人员搜索。最常见的人员搜索方法是基于将边界框图像作为探针(查询),作为人员重新识别问题的扩展[11,21,39,17,22,7]。然而,图像查询在实践中并不总是可用的。最近,文本查询个人搜索已经获得了越来越多的关注,搜索查询作为自然语言描述[20,19,4,3]或短文本关键字(文本属性)[37,16,32]。这些模型使人搜索图像的口头或书面文本描述。使用自然语言句子进行人员搜索是有吸引力的,因为它具有自然的人类用户友好性。然而,这给计算建模带来了额外的挑战,因为(1)获得准确和丰富的训练数据是昂贵的,以及(2)一致和可靠地建模丰富和复杂的句子句法及其对任意图像的解释是不平凡的,并且由于质量差的监控图像而增加了困难。相比之下,简短的文字致敬说明提供了更具成本效益和compu-(a)属性分类(c)AIHM54男性24135024-113-20层次匹配输入图像35-8-6245短裤8-3910-4-8-6-4-202468男性(b)跨模态匹配5输入文本属性短裤男性…短裤43男性210123-145-26短裤8-3910-4-8-6-4-202468………3654不可见文本人物类别挖掘i=1文本属性嵌入跨模态层次匹配男性短裤上衣蓝色背包男可视化属性嵌入短裤UpperBlue背包匹配网查看文本人员类别10阳性/阴性对图3:所提出的属性-图像分层匹配(AIHM)模型的概述。AIHM由层次视觉-文本嵌入和跨通道层次匹配组成。为了克服文本嵌入中的一次性学习挑战,我们在匹配上下文中引入了一种简单有效的负类别增强策略,该策略允许丰富训练文本数据并降低模型过拟合风险。更容易处理的方法来解决这个问题。视觉属性。计算视觉属性已广泛用于人员搜索[15,16,17,28,26,33,6]。其思想是利用人的属性的视觉表示作为中级描述,其在语义上有意义并且比低级像素特征表示更可靠。例如,Peng et al.[26]在有限的属性标签空间中挖掘未标记的潜在视觉属性,以丰富外观表示。被认为是一个更域不变或域自适应视觉特征表示,王等。[33]利用视觉属性学习在监视域之间进行无监督身份知识转移。所有这些现有的方法都集中在视觉属性表示,以方便图像查询人搜索。与此相反,本文的工作重点是文本查询人搜索。文本属性。已经提出了一些文本属性查询人搜索的尝试[32,16,37]。特别地,Vaquero et al.[32]和Layne etal.[16]提出了将问题视为多标签分类学习任务的第一项研究。虽然允许灵活地对任意属性组合进行建模,但该策略没有对整体人员类别信息进行建模的能力,因此对于处理模糊监视而言是次优的(a)视觉嵌入(b)文本嵌入Attri属性i+1Word2VectorFC(c)跨模态跨层次嵌入全球GVGT当地LVLtLV LTHadamard积预测评分GVLT LTMTNsgloQuality AwareFusion定位CNN跨层嵌入LV LVGTAttri 属性i+1SMN相似性分数图4:分层视觉文本嵌入和匹配。MTN:多任务网络。MN:匹配网,用于相似性得分预测的3层FC。由于搜索空间更大,所以会更长。与传统的ZSL设置相反,在人员搜索中没有有意义的类别名称。这禁止了对可见和不可见类别之间的语义关系的利用。此外,人物搜索的图像数据往往涉及更多的噪声和腐败,这增加了难度。这些因素使得最先进的ZSL方法对于人员搜索不太有效,正如我们在实验中所证明的那样。3. 方法为了训练一个文本属性查询人搜索模型,我们需要标记一组N个图像-属性训练对喷枪数据最近,Yin et al.[37]利用…的思想D={Ii,ai}N描述Nid不同的人描述-跨模态数据对齐。 这就抓住了整体的ap-人的行为信息,但遭受训练和测试数据之间的跨类别域差距问题。相比之下,我们唯一考虑的问题,从零杆学习的角度,并制定了一个新的AIHM模型。至关重要的是,我们的模型不仅解决了现有解决方案的局限性,还结合了它们的建模优点,以实现额外的互补优势。零 射 击 学 习 。 属 性 查 询 人 搜 索 可 以 从 零 次 学 习(ZSL)[14,1,35,30,38]中理解,因为需要在测试中推广到看不见的类别。但有几个显著的区别。首先,大多数ZSL方法是为图像分类而不是搜索/检索而设计的后者往往更有挑战性--选项。一个人的多标签属性文本描述图像(我们称之为属性向量ai)定义了每个属性标签相对于相应的个人外观的值。共享指定人的类型的相同属性向量描述的人被认为是人类别的长。总共有Natt个不同的二进制类或多类属性标签。考虑到测试人员类别 可 能 无 法 用 于 模 型 训 练 , 我 们 通 过 零 次 学 习(ZSL)对这个问题进行建模。3.1. 方法概述所提出的AIHM模型的示意图如图3所示。AIHM的目标是学习文本属性a和人之间的相似性匹配模型3655我ii=121i图像I在分层视觉-文本嵌入空间中。代替大多数ZSL方法采用的最近邻搜索,我们的目标是学习相似性匹配模型:y=fθ(a,I)∈[0,1],其中θ为模型参数。如果一个特定的文本-图像对是真正的匹配,模型应该理想情况下输出1;否则输出0。对于模型训练,我们采用均方误差损失函数[30]:如图4(b)所示。 由于训练属性标签数据较小(每个人类别只有一个属性向量),因此导出丰富的文本嵌入具有挑战性。与ZSL相反,在人物搜索中我们无法访问有意义的人物类别名称这阻止了我们使用维基百科预训练的word2vector模型来表示每个类别以受益于辅助知识[25]。Lmse=1N批次NΣ批次i=1(yi−y(i)2(1)对于文本属性(也可用于个人搜索),ZSL中最常见的表示是多标签二进制向量,但其效率和信息量较低(表6)。为了使丰富的维基百科信息的好处,我们其中yi和yi表示地面实况和预测模拟。第i个训练对的相似性。小批量大小由N批次指定。为了实现这样的匹配,我们需要形成一个分层的视觉-文本嵌入(Sec3.2第3.3节)和跨模态融合(第3.4节)作为匹配输入(等式(7))。为简洁起见,以下为建议通过word2vector表示来表示属性标签具体来说,我们使用word 2 vector模型将每个属性名称映射到语义(300-D)空间1,然后进一步映射到本地文本嵌入空间zloc的一个FC层。 然后我们同样采用多任务学习对于嵌入每个属性标签z_loc,i∈ {1,...,N_att}。下面我们假设两级层次结构:全球范畴我为了获得全局文本嵌入zGlo ,一个简单的ap-级别和本地每属性级别。 是直截了当以扩展到更多的层次级别而不改变如下所述的模型设计。3.2. 层次视觉嵌入对于人物图像的分层视觉嵌入,我们采用了多任务联合学习策略[5]。一个方法是平均池化每属性嵌入。由于缺乏特定任务的监督学习,这可能是次优的为了克服这个问题,我们学会了结合由两个1×1卷积层组成的融合单元进行每属性嵌入。这允许属性内和属性间融合:图4(a)给出了分层可视嵌入的概述。具体来说,我们构建本地属性特定的嵌入-zglo=f({zloc}Natt)=Tanh. ΣNatt.wi·Tanh(wi·zloc)ΣΣ、(3)ding(xloc,i∈ {1,…,Natt})基于全局计数器-i=1part(xglo)在ResNet-50架构中[12]。就每一个─tribute标签,我们使用一个单独的轻量级分支,它有两个全连接(FC)层。该设计是合适的,因为在典型的个人搜索场景中仅存在少量(约10)属性 在有许多属性标签的情况下,我们可以为每个分支分配一组属性,用于限制分支数以及整个模型的复杂性(评估见表7)。对于局部属性级视觉嵌入的判别式学习,我们利用softmax交叉熵(CE)损失。我们把每个单独的属性标签作为一个单独的分类任务(Lcls)。形式上,它们被表述为:其中w1和w2是可学习的参数,Tanh是非线性激活函数。我们使用CE损失函数(等式(2))来监督文本嵌入。在训练中,嵌入损失和匹配损失以相同的权重端到端地联合优化。注意,与视觉嵌入过程不同,我们通过组合所有局部属性级对应物来获得全局类别级文本嵌入,这是一个逆过程。这是由于额外地使用辅助信息(维基百科)。负类别扩增。语篇模态中的一次分类问题增加了模型训练的难度。为了解决这个问题,我们利用负Lcls= −N1批N个批次N个属性i=1j=1l〇g(pij),⑵类别增强到AIHM模型学习。这通过生成新的随机属性向量来实现。我们使用这些合成的属性向量作为负样本其中pij是第i次训练的概率估计第j个地面实况属性上的样本。通过多任务学习,我们可以获得全局类别级视觉嵌入作为所有局部嵌入的共享特征表示有关网络体系结构的详细信息,请参见补充资料3.3. 层次文本嵌入我们还需要学习文本属性的分层嵌入。分层文本嵌入3656在匹配损耗(等式(1))中。这有助于缓解模型过度拟合风险,同时增强稀疏训练数据,特别是对于全局文本嵌入。有趣的是,我们不知道任何现有的ZSL和个人搜索方法,利用这个简单的策略。一个可能的原因是,以前的方法大多不利用负1我们将二进制属性标签转换为二进制标志以保证包含。具体地,我们在提取word2vector标签表示之前将二进制标签“*”转换为“Yes”+“*”和“No”+“*”的形式。未知属性设置为向量0。3657我我我我我i ii=1目标学习损失函数中的跨模态对我们将验证该方案的有效性(见图6)。3.4. 跨模态跨水平嵌入给定如上导出的分层视觉-文本嵌入,我们接下来将它们跨模态和级别组合以形成用于属性-图像匹配的最终嵌入。图4(c)中示出了这种跨模态跨层级嵌入的图示为此,一种常见的融合方法是为每个训练对连接两个嵌入向量[19,20,36]。然而,这可能是次优的,因为缺乏跨模态的特征维度对应,这使得优化无效。相反,我们部署Hadamard乘积,通过逐元素乘法融合两个输入向量。(I) 跨模态全局级嵌入。我们将跨模态全局级嵌入的glo形成为:sglo=xglo◦zglo,(4)其中◦指定Hadamard乘积。(II) 跨模态局部水平嵌入。不像单一的全局级嵌入,我们有多个本地每-在两种模态中的属性嵌入因此,我们首先需要将每个属性的跨模态嵌入形成为:sloc=xlocozloc,i∈ {1,· · ·,Natt}。(五)然后我们融合属性。而不是平均池,我们设计了一个质量感知的融合算法。这是基于两个考虑:(1)监视图像(具有噪声和损坏的观测的质量差)和属性标记(由于成像条件差而引起的注释错误)都不是高度可靠的。信任所有属性并在匹配中平等对待它们是容易出错的。(2)人员搜索的重要性可以在属性之间变化。具体来说,为了估计每个属性的质量ρloc,我们使用图像和文本的最小预测得分为ρloc=min(ρvis,ρtex),i∈ {1,· · ·,Natt},其中p是且表1:人员搜索数据集的统计。数据集Market-1501DukeMTMCPA100K#属性类别10815#培训人员类别5083002020#训练图像12,93616,52280,000#测试人员类别529387849#看不见367229168#测试图片15,91319,88910,0004. 实验数据集。在评估中,我们使用了两个公开可用的人员搜索(Market-1501 [39],DukeMTMC [27,23])和一个大型行人分析(PA 100 K [24])基准。这些数据集对具有不同相机观看条件的人员搜索提出了很好的挑战。我们遵循标准评估设置。数据集统计总结见表1。绩效指标。我们使用CMC和mAP作为评估指标。如[37]所述,我们将涉及给定属性向量查询的图库图像视为真匹配。实 施 详 情 。为 了 与 [37] 进 行 公 平 比 较 , 我 们 使 用ResNet-50 [12]作为学习视觉嵌入的骨干网络。我们雇用亚当作为优化者。我们将批量大小设置为16(属性-图像对),学习率设置为1 e-5,epoch数设置为150。在每个小批次中,我们形成了16/255(16*16-1)个阳性/阴性文本图像训练对。我们使用50个训练人员类别进行参数交叉验证。我们在AIHM中使用了两层层次结构进行主要实验,并对不同的层次结构进行了独立评估4.1. 与现有技术方法的比较竞争对手我们将我们的AIHM与两个范例中的文本属性人员搜索方法的各种合理解决方案进行了比较:(1)全局类别级视觉-文本嵌入方法:学习在公共空间中对齐文本属性和图像的分布,我我我i,包括基于CCA [2,34,8,29]或MMD [31]的交叉分析。Ptex表示由相应分类器估计的地面真值类后验概率。这阻碍了模型对损坏和噪声观测的拟合。基于该数量度量,我们学习用于自适应交叉属性嵌入的融合单元(等式(3))为:.Σsloc=f{ρloc·sloc}Natt .(六)(III) 跨模态跨层级嵌入。在连接跨层级嵌入之后,我们使用融合单元(等式(3))来形成最终的跨模态嵌入,如下:模 态 匹 配 模 型 , ZSL 方 法 ( DEM [38] , RN[30] ,GAZSL [41]),视觉语义嵌入(VSE++ [9])和基于GAN的跨模态对齐(AAIPR [37])。(2)局部属性级视觉-文本嵌入方法:学习属性-图像区域对应,包括基于区域建议的密集文本-图像跨模态匹配。ing(SCAN [18]),基于自然语言查询的人员搜索(GAN-RNN [20]和CMCE [19])。我们使用了官方发布的代码,并在需要时进行了仔细的参数调整,例如。 这些最初应用于不同的应用程序-S=f.{sloc ,sgloΣ{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}(七)3658选项。在测试语言模型[9,18,20,19]中,我们使用随机属性语句,因为没有排序和报告最终嵌入s用于估计输入属性查询和人物图像的属性图像匹配结果y(等式(1))g。10次试验的平均结果。对于所有方法,我们使用ResNet-50进行视觉嵌入。结果 上的人员搜索性能比较3659(a){青少年背包下黑上白裤子短袖短发男}(b){青少年双肩包下黑上红裤子短袖短发男}(c){成人手提包下蓝上黑长裤长袖长发女}(d){年轻包包黑色连衣裙短袖短袖长发女}表2:与现有技术方法的比较。 红/蓝:最佳/次佳结果。方法Market-1501DukeMTMCPA100KRank1Rank5排名10地图Rank1Rank5排名10地图Rank1Rank5排名10地图[第38话]34.048.157.517.022.743.954.512.920.838.744.214.8注册护士[30]17.238.747.315.525.142.051.513.027.538.846.613.6Gazsl [41]23.336.945.914.118.230.037.811.92.23.85.30.9DeepCCAE[34]8.123.934.59.733.259.367.614.921.239.748.015.6DeepCCA[2]29.950.758.117.536.758.865.113.519.540.349.015.42WayNet[8]11.224.331.47.725.239.845.910.119.526.634.510.6MMD[31]34.147.957.218.941.762.368.614.225.838.946.214.4[29]第二十九话36.547.655.920.046.161.068.117.122.039.748.114.1VSE++[9]27.049.158.217.233.654.762.815.522.739.848.115.7AAIPR[37]40.249.258.620.646.659.669.015.627.340.549.815.2扫描[18]4.010.115.32.13.59.314.31.62.98.212.51.9GNA-RNN[20]30.438.744.415.434.652.765.814.220.330.838.29.3CMCE[19]35.050.956.422.839.756.362.715.425.834.945.413.1AIHM43.356.764.524.350.565.275.317.431.345.151.017.0一阶十阶图5:在Market-1501上按属性查询进行人员搜索的示例属性查询在每种情况下都位于顶部真/假图像匹配由绿色/红色框指示我们用红色突出显示与假匹配对应的属性表2中示出了三个基准。很明显,我们的AIHM模型优于所有现有的方法,例如。在Market-1501的Rank-1/mAP中以3.1%/3.7%的幅度超过了第二好的和最先进的人员搜索模型AAIPR [37]。与其他全局视觉-文本嵌入方法和局部区域对应学习模型相比,性能裕度更显着。特别地,由于更大规模的搜索、更模糊的视觉观察和无意义的类别名称,最先进的ZSL模型也未能表现出色。总体而言,这些结果表明,尽管它们各自的建模强度,但单独的全局和局部嵌入对于更具挑战性的人员搜索问题是次优的。这显然是有益的整体模型的性能,如果他们的互补优势,利用制定的AIHM模型。4.2. 定性分析和目视检查为了对AIHM的性能提供更深入和直观的检查,我们进行了定性分析,如图5所示。很明显,AIHM的前10名中的大多数搜索结果与属性查询精确匹配,其中由于不同人员类别的非常相似的视觉外观而存在例如,由于跨模态的局部对应匹配的能力,AIHM成功地检测到Rankl图像(c)中的微小“手提包”和Rankl图像(a)中的具有非常有限的可见部分的我们发现,错误的检索图像往往是由于ambiancial视觉外观和/或文本描述。例如,等级7图像(b)具有“上紫色”,而等级9具有“上红色”。这种颜色差异即使对于人类来说在视觉上也是非常微妙的。另一个关于视觉的366040302010503025201540302010模糊性是“蓝色”与“黑色”(c)。在模糊文本属性描述方面,“Teenage”和“Young”在语义上非常接近。这导致失败的搜索结果(d),其中4.3. 进一步分析和讨论分层嵌入和匹配。我们研究了联合本地属性级和全局类别级视觉文本嵌入AIHM的效果和互补性。这是通过比较单个性能与它们的组合来进行的。表3表明:(1)单独的嵌入对于个人搜索来说已经是相当强的和可区分的.本地AIHM嵌入单独与最先进的AAIPR竞争[37]。(2)通过将全局和局部嵌入作为一个整体结合在个人搜索中,获得了明显的性能增益这验证了在AIHM中交互式地联合学习局部和全局视觉-文本嵌入的互补益处和性能优势表3:分层嵌入和匹配分析。方法Market-1501 DukeMTMCPA100K等级1 mAP等级1 mAP等级1 mAP全球唯一30.620.540.713.726.114.3仅本地39.521.946.915.329.415.6层次结构43.324.350.517.431.317.0质量感知融合。回想一下,我们在AIHM中包括质量感知融合(等式(6)),用于减轻局部视觉-文本嵌入中的噪声和模糊观察的负面影响。我们测试了该组分与共同平均汇集策略相比表4示出了我们的质量感知融合在抑制噪声信息方面更有效,例如:Market-1501、DukeMTMC和PA 100 K的Rank 1/mAP率分别比平均合并率提高4.3%/0.5%、5.6%/1.3%和5.2%/1.9%。这显示了在人员搜索中考虑输入数据质量的益处。表4:质量感知融合与平均池化。方法Market-1501 DukeMTMCPA100K等级1 mAP等级1 mAP等级1 mAP平均池39.023.844.916.126.115.1AIHM43.324.350.517.431.317.0负类别扩增。 为了应对全局文本嵌入中的一次性学习挑战,我们在AIHM模型学习中利用负类别增强,从而丰富训练文本数据以降低过度拟合风险。我们测试了三种不同的增强尺寸:5K,10K,20K。在图6中示出,该文本增强明显有益于AIHM。例如,对于10 k个负面类别,我们在Market-1501、DukeMTMC和PA 100 K的排名中获得了4.4%、5.5%和3.8%的收益。最佳扩增大小约为10k。它的好处可以从消极的硬挖掘的角度来理解,它在有限的训练类别数据的情况下提高了模型的判别学习。但是,太多(例如:20k)负对似乎由于有限的正对而具有负的过度的模型学习。(a) 市场-1501(b)Duke-MTMC(c)PA 100 K图6:文本否定类别扩充。表5:模型设计策略检查:属性识别(AR)与学习比较(AIHM)。数据集方法Rank1 Rank5 排名10 地图Market-1501AR35.747.857.819.8AIHM43.356.764.524.3DukeMTMCAR42.052.963.215.8AIHM50.565.275.317.4PA100KAR30.342.847.813.8AIHM31.345.151.017.0通过个人属性识别进行人员搜索。我们研究了两种高级模型设计策略,用于人员搜索:(1)属性识别(AR):使用AIHM的视觉组件的属性预测得分,以及属性向量空间中的L2距离度量进行跨模态匹配和排序。(2)学习战略匹配,即:AIHM,其考虑全局类别级和局部属性级的文本视觉嵌入。有趣的是,从表5中发现,与表2中的竞争产品相比,AR基线表现相当好。例如,AR甚至接近最先进的人员搜索模型AAIPR的性能[37]。请注意,这种强AR可能受益于我们的分层嵌入学习设计。此外,我们的模型在AR上的大性能裕度表明,在联合优化中匹配策略的学习是优越的。全局文本嵌入。我们研究了学习全局文本嵌入的(1)个体属性表示:One-Hot(OH)vs Word 2 Vec(WV),(2)多属性嵌入的聚合:RNN(LSTM)vs CNN。(3)二进制类标签表示:零与转换后的输入。表6显示:403020Ran1k-1mA2 P5040302010R a 1 nk-1mA2P30252015100+5K+10K+20kRan1k-1m2A P准确度3661(1) OH+CNN的性能优于OH+RNN,这表明人为地引入时序结构信息对无序人属性的建模不仅不必要,而且会对模型性能产生不利影响(2) WV+CNN优于OH+CNN,表明WV是一种信息量更大的属性表示,特别是在稀疏训练属性数据的情况下。我们的文本嵌入设计通过CNN是优于直接使用WV,建议,gesting的必要性,特征变换,因为通用的WV不是特别优化的人的图像分析。表6:全局文本嵌入分析。OH:One-Hot; WV:Word2Vec。表7:多任务学习局部嵌入的可扩展性#分支Market-1501 DukeMTMCPA100K等级1 mAP等级1 mAP等级1 mAPNatt/441.623.947.915.630.316.3Natt43.324.350.517.431.317.0在5次试验中取平均。表8示出了具有更多层的层次结构导致更好的模型性能,但伴随着更高的计算成本(每个模态每个层次结构节点一个特征向量,在所有层上融合)。表8:层级深度的影响。方法Market-1501 DukeMTMCPA100K等级1 mAP等级1 mAP等级1 mAPOH+RNN35.717.846.616.821.412.3OH+CNN37.121.049.818.125.313.7WV41.822.948.716.229.114.2OH+CNN39.122.046.516.125.313.7WV+CNN43.324.350.517.431.317.0#深度Market-1501 DukeMTMCPA100K等级1 mAP等级1 mAP等级1 mAP243.324.350.517.431.317.0445.225.253.618.533.417.8全局本地(a)分支(b) 4家分公司(c) 4层.........这是什么?.... . . . .. 这 是 什么 ?5. 结论在这项工作中,我们提出了一种新的属性图像层次匹配(AIHM)模型的文本属性查询的人搜索。与大多数现有的方法不同,这些方法作为基于图像的查询,这些查询在图7:层次结构变体。(a)两级,一分支一属性,共N个分支;(b)两级,一个分支Natt/4属性,共4个分支;(c)四个层级,在层-2处有2个分支,以Natt个分支结束。多任务学习可扩展性。我们使用多任务学习用于局部视觉-文本嵌入,因此分支编号由属性集大小Natt决定(图7(a))。为了扩展到许多属性的情况,我们可以使用一组属性的分支。我们进行了一项具有两个层次的受控评估。给定Natt属性,在应用AIHM之前,我们将它们随机分组为4个大小平衡的组(图1)。(b))。我们重复了5次不同分组的试验,并报告了平均结果。表7显示了属性分组降低了模型性能,因为正如预期的那样,细粒度的局部嵌入较少。重要的是,性能下降并不显著。这也验证了我们的AIHM的设计动机,将本地和全球嵌入联合,在对比国家的最先进的ZSL方法,考虑全球嵌入单独。层次结构深度。我们评估了AIHM的高分辨率深度对模型性能的影响。我们使用随机分组来形成用于1层(1=2/4)层次结构的大小平衡的中间层(参见图1)。7(c))。结果在实践中,AIHM仅使用简短的文本属性描述来实现人员搜索。与现有的几种属性查询方法相比,我们将这个问题描述为一个扩展的零射击学习问题,并采用更有原则的方法来解决这个问题。在数学上,所提出的AIHM模型通过联合全局类别级和局部属性级的视觉-文本嵌入和匹配解决了现有视觉-文本学习方法的基本限制。这旨在消除其各自的建模弱点,同时优化其相互互补的优势。广泛的比较评估的性能优越性,证明了所提出的AIHM模型在广泛的现有的替代方法的三个属性的人的搜索基准标记。我们提供了详细的组件分析,以便深入了解模型设计及其性能优势。确认这项工作得到了Vision Semantics Limited、国家留学基金管理委员会、Alan Turing Institute和Innovate UKIndustrialChallengeProjectonDevelopingandCommercialising Intelligent Video Analytics Solutions forPublic Safety(98111-571149)的支持………3662引用[1] Ziad Al-Halah和Rainer Stiefelhagen。如何换乘?通过语义属性的分层传递的零射击对象识别。InWACV,2015.3[2] Galen Andrew,Raman Arora,Jeff Bilmes,and KarenLivescu.深度典型相关分析。2013年,《国际反洗钱法》。五、六[3] Dapeng Chen , Hongsheng Li , Xihui Liu , YantaoShen,Jing Shao,Zejian Yuan,and Xiaogang Wang.通过全局和局部图像-语言关联改进用于人重新识别的深度视觉表示。在ECCV,2018。2[4] 陈天狼,徐晨良,罗杰波。利用空间匹配和自适应阈值改进基于文本的人物搜索。在WACV。2[5] 齐东,龚少刚,朱夏天。多任务课程转移服装属性的深度学习。在WACV,2017年。4[6] 齐东,龚少刚,朱夏天。通过少数类增量纠正不平衡的深度学习TPAMI,2018年。3[7] 齐东,朱夏天,龚少刚。基于深度逻辑回归的单标签多类图像分类。在AAAI,2019年。2[8] 艾薇夫·艾森施塔特和里奥·沃尔夫。用双向网络链接图像和文本在CVPR,2017年。五、六[9] Fartash Faghri,David J Fleet,Jamie Ryan Kiros和SanjaFidler。Vse++:用硬否定词改进视觉语义嵌入。2018.五、六[10] 傅彦伟,蒂莫西·M·霍斯佩德莱斯,陶翔,龚少刚.Transductive multi-view zero-shot learning.TPAMI,2015。2[11] Shaogang Gong,Marco Cristani,Shuicheng Yan,andChen Change Loy. 人员重新识别。Springer,2014.一、二[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。四、五[13] 放大图片创作者:Peter M. Roth和Horst Bischof。基于等价约束的大规模度量学习。CVPR,2012。1[14] Christoph H Lampert , Hannes Nickisch , and StefanHarmeling.基于属性的零镜头视觉对象分类。TPAMI,2014年。3[15] Ryan Layne , Timothy M Hospedales , and ShaogangGong.按属性重新识别人员。在BMVC,2012年。3[16] Ryan Layne,Timothy M Hospedales,and ShaogangGong.基于属性的重新识别。亲自再-识别. Springer,2014. 一、二、三[17] Ryan Layne,Timothy M Hospedales,and ShaogangGong.Re-id:野外狩猎属性。InBMVC,2014. 二、三[18] Kuang-Huei Lee,Xi Chen,Gang Hua,Houdong Hu,and Xi-aodong He.用于图像-文本匹配的堆叠交叉注意在ECCV,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功