自然语言描述的人物搜索

173 浏览量更新于2023-10-16 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1970那女人穿着一件亮橙色的长袍，腰间系着一条白色的腰带。她把头发往后挽成一个发髻或马尾辫。用自然语言描述的李爽1童晓1李洪生1周波磊2岳大宇3王晓刚1王晓1香港中文大学2麻省理工学院3商汤科技集团有限公司{sli，xiaotong，hsli，xgwang}@ ee.cuhk.edu.hk，bolei@mit.edu，yuedayu@sensetime.com摘要利用自然语言描述查询在大规模图像数据库中进行人物检索在视频监控中有着重要的应用。现有的方法主要集中在基于图像或基于属性的查询中，这在实际应用中有很大的局限性。本文研究了自然语言描述的人物搜索问题。给定一个人的文本描述，要求人搜索的算法对人数据库中的所有样本进行排序，然后检索与所查询的描述相对应的最相关的样本。由于没有人的数据集或基准的文本描述，我们收集了一个大规模的人的描述数据集，详细的自然语言注释和个人样本，从不同的来源，被称为中大人查询说明检索结果描述数据集（CUHK-PEDES）。已经对广泛的提出了一种具有门控神经注意机制的递归神经网络（GNA-RNN），以建立最先进的人物搜索性能。1. 介绍在具有自由形式自然语言描述的数据库中搜索人物是计算机视觉领域的一个挑战性问题。它在视频监控和活动分析中有着广泛的应用如今，城市地区通常配备有数千个监控摄像头，每秒产生千兆字节的视频数据。从如此大规模的视频中人工搜索可能的犯罪嫌疑人可能需要数十天甚至数月才能完成。因此，迫切需要自动的人员搜索根据查询的模式，现有的人物搜索方法主要可以分为基于图像的查询和基于属性的查询。然而，这两种模式都有很大的局限性，可能不适合实际使用。面对这样的局限性，我们建议研究自然语言描述的搜索问题*通讯作者人物图像数据库图1. 给定一个人的自然语言描述，我们的个人搜索系统通过大规模的个人数据库进行搜索，然后检索最相关的个人样本。选项。图1示出了人员搜索的一个示例具有基于图像的查询的人员搜索被称为计算机视觉中的人员重新识别[44，24，39]。给定一个查询图像，该算法获得查询和图像数据库中的那些之间的亲和力。根据相似度值可以从数据库中检索最相似的人然而，这样的问题设置在实践中具有主要限制，因为它需要给出被询问的人的至少一张照片。在许多刑事案件中，可能只有对嫌疑人外貌的口头描述人员搜索也可以通过基于属性的查询来完成使用一组预定义的语义属性来描述人然后在每个属性上训练分类器。给定查询，数据库中的相似人员可以被检索为具有相似属性的人员[36，35]。然而，这些属性也有许多实际局限性一方面，属性描述人的外貌的能力有限例如，PETA数据集[4]定义了61个二进制和4个多进制。1971这个女人打扮得像玛丽莲·梦露，白色的裙子在风中向上吹，金色的短卷发，高跟鞋。这名男子穿着黄色运动鞋，白色袜子上面有蓝色条纹，黑色运动短裤和黄色蓝色T恤。他留着黑色短发。这个男人有一头黑发，戴着眼镜。他穿着一件粉红色的衬衫，蓝色的短裤和白色的网球鞋。他有一个蓝色的背包，带着一个可重复使用的手提袋。女孩穿着粉红色的衬衫和白色的短裤，她穿着黑色的匡威，她的头发扎成马尾。这名女子留着浅棕色长发，身穿黑色西装，白色低胸衬衫，白色袖口宽大，戴着金戒指，正在打手机。他穿着蓝色的手术服，上面是一件白色的实验室工作服。他手里拿着文件，外套左边有一个胸牌。图2.来自我们数据集的例句描述，详细描述了人分类人的属性，而有数百个字来描述一个人的外观。另一方面，即使属性集已经用尽，为大规模的人物图像数据集标记它们也是昂贵的。面对这两种方式的局限性，我们提出使用自然语言描述来搜索人。它不需要像那些基于图像的查询方法那样给出一个人的照片。自然语言还可以精确地描述人的外貌细节，并且不需要标注者遍历整个属性列表。由于没有现有的数据集专注于用自然语言描述人的外表，我们首先构建了一个大规模的语言数据集，其中包含来自现有人员重新识别数据集的13，003人的40，206张图像。每个人的形象都是由两个独立的工作人员在亚马逊机械土耳其人（AMT）上用两句话描述的。在视觉方面，从各种重新识别数据集中汇集的人图像处于不同的场景、视点和相机规格下，这增加了图像内容多样性。在语言方面，数据集有80，412个句子描述，包含丰富的词汇，短语和句型和结构。标注者对用于描述人的语言没有限制。我们对数据集进行了一系列的用户研究，以展示语言描述的丰富表达数据集的示例如图2所示。我们提出了一种新的具有门控神经注意力的递归神经网络（GNA-RNN）用于人员搜索。GNA-RNN以描述句和人物图像作为输入，并输出它们之间的亲和力。句子被输入到单词LSTM中，并逐字处理。在每个单词上，LSTM为各个视觉单元生成单元级注意力，每个视觉单元都确定输入图像中是否存在某些人的语义属性或视觉模式。视觉单元注意机制对不同单词的不同单元的贡献进行加权。此外，我们还学习单词级门，估计不同单词对adap的重要性词级加权。通过对所有单词的所有单元的响应进行平均来获得最终的亲和度。单元级注意力和字级S形门都有助于我们提出的GNA-RNN的良好性能。本文的贡献有三个方面。1)本文提出研究自然语言寻人问题。此问题设置对于真实世界场景更实用。为了支持这一研究方向，收集了一个大规模的人的描述数据集与丰富的语言注释，并给出了用户研究的自然语言描述的人。2)我们研究了基于不同视觉和语言框架的各种合理解决方案，包括图像标题[19，37]，视觉QA [45，32]和视觉语义嵌入[31]，并在人物搜索基准上建立基线。3)我们进一步提出了一种新的具有门控神经注意力的递归神经网络（GNA-RNN）用于人员搜索，在人员搜索基准上具有最先进的性能。1.1. 相关工作由于目前还没有针对自然语言搜索的数据集和方法，我们简要介绍了各种视觉任务的语言数据集，以及可用作此问题可能解决方案的视觉深度语言模型。视觉语言数据集。早期的视觉语言数据集包括Flickr8K [12]和Flickr30K [42]。受其启发，Chenet al.构建了一个更大的MS-COCO Cap- tion [2]数据集。他们从MS- COCO [25]中选择了164，062张图像，并用来自独立标签人员的五个句子标记了每个图像。最近，Krishna等人提出了Visual Genome [20]数据集，其在每个图像内合并对象、属性和关系的密集注释。然而，尽管数据集中有人，但他们不是描述的主要对象，并且不能用于训练具有语言描述的人搜索算法。对于细粒度的视觉描述，Reedet al.添加语言注释到Caltech-UCSD197210.90.80.70.60.510.9yc a乌尔0.8cC一kop-0.7不0.60.5Top-k精度birds [38]和Oxford-102 flowers [29]数据集来描述文本图像联合嵌入的图像内容。视觉的深度语言模型。与卷积神经网络在图像分类[21，10]和目标检测[18，17，16]中工作良好不同，递归神经网络更适合处理序列数据。近年来，已经提出了大量用于视觉任务的深度模型[40，1，13，15，8，3，5]。对于图像字幕，Maoet al.[28]学习了句子中每个单词的特征嵌入，并通过多模态层将其与图像CNN特征连接起来，以生成图像标题。Vinyal等人[37]从CNN中提取高级图像特征，并将其输入LSTM以估计输出序列。NeuralTalk [19]在句子生成的联合嵌入空间中寻找句子片段和图像区域之间的潜在对齐图3.我们数据集中的高频词和人物图像提出了视觉QA方法来回答有关给定图像的问题[32，30，41，34，27，7]。Yang等[41]提出了一种堆叠注意力网络，该网络通过递归地关注与问题相关的图像区域来细化联合特征，从而提高QA准确性。Noh等人[30]学习了一个具有哈希技术的动态参数层，该层根据不同的10.90.80.70.6Top1 Top5时间（分钟）1.81.61.41.2110.90.80.70.6Top1 Top5时间（分钟）1.81.61.41.21问题的准确答案分类。视觉语义嵌入方法[6，19，31，26，33]0.51 2 3 4 5 6数量的句子0.80.50.820~29 30~39 40~49 50~59 60~69 70~96句子的词长学会了将语言和图像嵌入到一个公共空间中，用于图像分类和检索。Reed等人[31]训练了一个端到端的CNN-RNN模型，该模型将图像和细粒度的视觉描述联合嵌入到同一个特征空间中文本到图像的检索可以通过计算嵌入空间中的距离来进行。弗罗姆等人[6]通过构建深度视觉语义模型将文本的语义知识与视觉对象相关联，该模型联合重新训练神经语言模型和视觉对象识别模型。2. 基于自然语言描述由于没有现有的语言数据集专注于人的外观，我们建立了一个大规模的基准与自然语言的人搜索，被称为中大人描述数据集（CUHK-PEDES）。我们从五个现有的人员重新识别数据集CUHK 03 [23]，Market-1501 [43]，SSM [39]，VIPER [9]和CUHK 01 [22]中收集了13，003人的40，206张图像，作为语言描述的主题。由于Market-1501和CUHK 03中的人有很多相似的样本，为了平衡来自不同领域的人的数量，我们在两个数据集中为每个人随机选择了四张图像。所有图像都由Amazon Mechanical Turk（AMT）的人群工作人员标记，其中每个图像都用两个句子描述进行注释，总共收集了80，412个句子。该数据集包含了关于人的外观，动作，姿势和互动的图4. Top-1准确度、Top-5准确度和平均使用时间使用不同句子数量和不同句子长度的语言描述进行人工人员搜索与其他物体。句子描述一般较长（平均超过23个单词），词汇量丰富我们提出的数据集的示例如图2所示。2.1. 数据集统计数据该数据集由丰富而准确的注释和开放的单词描述组成。有1，993名独立工人参与了标签任务，所有人的批准率都超过95%。我们要求工作人员用至少15个单词的句子描述给定图像中的所有重要特征大量的工人意味着数据集具有不同的语言描述，并且用它训练的方法不太可能过度拟合仅几个工人的描述。词汇量、短语大小和句子长度是我们语言数据集容量的重要指标。我们的数据集中共有1，893，118个单词和9，408个唯一单词。最长句子有96个单词，平均单词长度为23.5，显著长于MS-COCO Caption [25]的5.18个单词和Visual Genome [20]的10.45个单词。大多数句子有20到40个单词。图3显示了一些人的例子和高频词。Top-k精度时间（min）Top-k精度时间1973词象亲和性总和元素乘法字级单位级登机口注意事项单元激活SigmoidSoftmax关注FC2cls-fc2关注-FC 1cls-fc1Word-LSTMVGG-16可视化CNN级联Xv人物图像...vis-fc1独热“Young”...“围巾”VGG-16可视化CNNfc1门控.........Vis-FC 22.2. 用户研究基于我们收集的语言注释，我们进行了用户研究，以调查1）语言描述的表达能力与属性的表达能力相比（2）句子数量和句子长度的表达能力这些研究为我们理解这一新问题提供了思路，也为我们设计神经网络提供了指导.语言与美德.先知-愿给定一个描述性的句子或注释属性的查询人的形象，我们要求群众工作者从AMT选择其相应的图像，从20个图像池。这20张照片包括9个具有与地面实况相似外观的图像，以及10个从整个数据集中随机选择的图像。通过LOMO+XQDA [24]方法从整个数据集中选择9个相似图像，该方法是用于人员重新识别的最先进方法。其他10个干扰物图像是随机选择的，并且与9个相似图像没有重叠人物属性注释从PETA [4]数据集获得，该数据集与我们的数据集有1，264个相同的总共500幅图像由工作人员手动搜索，并评估搜索的平均前1和前5精度。使用语言描述的搜索具有58.7%的前1和92.0%的前5准确率，而使用属性的从每次搜索的平均时间来看，使用语言描述需要62.18秒，而使用属性需要81.84秒。结果表明，从人的角度来看，语言描述比属性描述更精确、更有效。他们部分支持我们选择使用语言识别来进行个人搜索。句子的数量和长度。我们设计了手动实验来研究语言描述在每个图像的句子数量和句子长度方面的表达能力。我们数据集中的图像根据与每个图像相关联的句子数量和不同的句子长度分为不同的组。给定每个图像的句子，我们要求AMT的人群工作人员从20个图像的池中手动检索相应的图像。图4显示了不同图像组的平均top-1和top-5准确度以及使用时间，这表明用于描述人的3个句子达到了最高的检索准确度。句子越长，用户越容易检索到正确的图像。文字类型。我们还调查了不同的词类型的重要性，包括名词，动词和形容词，通过使用相同的20个图像池手动实验。在这项研究中，句子中的名词、动词或形容词在提供给工人之前被屏蔽掉。例如，原稿发送.无名词无形容词w/o动词top-10.590.380.440.57top-50.920.810.850.92时间（min）1.141.010.981.12表1. 使用原始句子和屏蔽了名词或形容词或动词的句子的人工人员搜索结果的前1准确度、前5准确度和平均使用时间。Xtwword-fc1图5. 提出的GNA-RNN的网络结构。它由一个视觉子网络（右蓝色分支）和一个语言子网络（左分支）组成。视觉子网络生成一系列视觉单元，每个视觉单元编码人物图像中是否存在某些外观模式。给定每个输入单词，语言子网络输出世界级门和单位级at-tentions用于加权视觉单位。有粉红色的 *"表1中的结果表明，名词提供的信息最多，其次是形容词，而动词提供的信息最少。这一研究为我们设计神经网络或收集新的语言数据时注意名词和形容词提供了重要的启示3. 用于行人搜索的GNA-RNN模型解决语言描述的人物检索问题的关键是有效地建立词-象关系。给定每个单词，如果神经网络将搜索相关区域以确定单词及其上下文是否适合图像，则是期望的对于一个句子，可以调查所有这样的词-图像关系，并且应该对所有关系的置信度进行加权，然后聚合以生成最终的词-图像亲和度。基于这一想法，我们提出了一种新的具有门控神经注意力的深度神经网络（GNA-RNN）来捕获1974W不不t=1词-图像关系，并估计句子和人物图像之间的亲和力。GNA-RNN的整体结构如图5所示。该网络模型由视觉子网络和语言子网络组成。视觉子网络生成一系列视觉单元激活，如果某些人类属性或外观模式（例如，白围巾）存在于给定的人物图像中。语言子网络是具有长短期记忆（ LSTM ）单元的递归神经网络（RNN），其将单词和图像作为输入。在每个单词处，它输出单元级注意力和单词级门来对来自视觉子网络的视觉单元进行加权。单位级注意力决定了根据输入词的不同，哪些视觉单位应该被更多地关注。词级门对不同词的重要性进行加权。所有单元通过以端到端的方式训练这样的网络，门控神经注意力机制能够有效地捕获最佳的词-图像关系。3.1. 视觉单位视觉子网络将重新调整为256×256的人物图像作为输入。底层结构与VGG-16网络相同，增加两个512单元全连接层以生成512个全连接层（VGG-16的“drop 7”层之后的两个512单元的全连接层（在每一步，LSTM将xt=[xw，xv]T作为输入，这是第t个单词嵌入xw和图像特征xv的串联。LSTM由一个存储单元和三个控制门组成，即。输入门it、遗忘门ft和输出门ot。存储器单元保存了关于步进和电流输入的知识，而门控制信息的更新和流动方向在每个字处，LSTM更新存储单元ct并以以下方式输出隐藏状态htit=σ（Wxi xt+Whiht−1+bi），ft=σ（Wxfxt+Whfht−1+bf），ot=σ（Wxo xt+Who ht−1+bo），（1）ct=ft<$ct−1+it<$h（Wxc xt+Whcht−1+bc），ht=ot<$h（ct），其中，R1表示逐元素乘法，W和b是学习的参数。为了在每个单词处生成单元级注意力，输出隐藏状态ht被馈送到具有ReLU非线性函数的全连接层和具有softmax函数的全连接层，以获得注意力向量v=[v1，...，v512]T . 我们的目标是训练整个网络-At∈R512，它与视觉具有相同的维度，单位v.句子和人之间的亲和力共同工作，使得每个视觉单元确定是否在人物图像中存在某些人的外貌模式视觉子网络首先在我们的数据集上进行预训练，以基于人物ID进行人物分类。在与语言子网络的联合训练期间，仅更新两个新的全连接层（请注意，我们没有手动限制哪些单元学习什么概念。通过整个网络的联合训练，视觉单元的语义自动捕获必要的语义概念。3.2. 注意视觉单位为了有效地捕捉词-图像关系，我们提出了一种视觉单位的单位级注意机制。在每个词处，与该词具有相似语义含义的视觉单元应该被分配更多的权重。以图5为例，给定单词我们训练语言子网络来实现这一目标。语言子网络是一个LSTM网络[11]，它可以有效地捕获序列数据的时间关系给定一个输入句子，LSTM会逐字地为视觉单元生成注意力。首先将单词编码为长度为K的独热向量，其中K是然后可以通过以下步骤获得第t个字处的图像：Σ512Σ512at=At（n）vn，s.t.At（n）= 1，（2）n=1n =1其中At（n）表示第n个视觉单元的注意力值。由于每个视觉单元确定图像中某些人的出现模式的存在，因此单独的视觉单元不能产生照片-图像亲和性。由语言子网络生成的注意力值At决定哪些视觉单元如果语言子网络在某个视觉单元上产生了高的注意值，则只有当该视觉单元也具有高的反应（表示存在某种视觉概念）时，元素级乘法才会在该词上产生高的亲和值。最后的图像-图像亲和度是亲和度值的总和ΣT在所有单词中使用，a=at，其中T是在给定的句子中。3.3. 视觉单位单位水平的注意能够将最相关的单位与每个单词相关联。然而，注意机制要求不同单位在我们使用softmax非线性函数的情况下Σ512我们有n=1At（n）=1，并发现这种con-t-t（n）=1，词汇量给定一个描述性的句子，一个可学习的限制对于学习有效的注意力是很重要的。1975t=1NeuralTalk [37]CNN-RNN [31]EmbBoW问答QAWord-imgQABoWGNA-RNNtop-113.668.078.3811.6210.218.0019.05前1041.7232.4730.7642.4244.5330.5653.64表2.所提出的GNA-RNN的定量结果和所提出的数据集上的比较方法然而，根据我们在2.2节中对不同词类型的用户研究，不同的词携带显著不同的信息量来获得语言-图像亲和力。例如，“白色”这个词在每个词处，单位级注意力总和总是为1，并且不能反映这种差异。因此，我们建议在每个单词上学习世界级标量门，以学习对不同单词进行加权。字级标量门通过经由具有S形非线性函数gt=σ（Wg ht+bg）的全连接层映射LSTM的隐藏状态ht来获得，其中σ表示S形函数，Wg和bg是全连接层的可学习参数。单元级注意和世界级门都被用来对每个词处的视觉单元进行加权，以获得对等语言图像特征，Σ512at=gtAt（n）vn，（3）n=1GNA-RNN 无预培训无门无注意top-119.058.9313.864.85前1053.6432.3244.2727.16表3.GNA-RNN在没有VGG-16 re-id预训练，没有世界级门或没有单元级注意力的情况下对建议数据集的定量结果单位数量12825651210242048top-116.1516.7519.0518.6218.25前1048.5849.2553.6452.3951.59表4.GNA-RNN在不同视觉单位数下的前1和前10精度并将这些解决方案与我们提出的方法进行比较。我们还对我们提出的深度神经网络进行了组件分析，以表明我们提出的门控神经网络。注意机制能够捕捉复杂的词-象关系。大量的实验和与最先进方法的比较证明了我们的GNA-RNN对这个问题的有效性。最后的亲和力是亲和力的集合一个字=一个字。不4.1. 数据集和评估指标3.4.培训计划所提出的GNA-RNN是使用批量随机梯度下降进行端到端训练的，除了视觉子网络的VGG- 16部分，该部分是针对人员分类进行预训练并在之后固定的。训练样本是从数据集中随机选择的，其中对应的图像-图像对作为正样本，不对应的图像-图像对作为负样本。阳性和阴性样本的比例给定训练样本，训练使交叉熵损失最小化，数据集被分成三个子集，用于训练、验证和测试，而不与相同的人ID重叠。训练集由11，003个人、34，054个图像和68，108个句子描述组成验证集和测试集分别包含3，078和3，074个图像，并且它们都具有1，000人。所有实验都是基于这种训练-测试分割进行的。我们采用top-k准确率来评价人物检索的性能.给定一个查询语句，所有测试图像根据它们与查询的亲和力进行排名。一个成功的搜索是实现，如果任何图像的相应-E=−1ΣNNi=1yilogaΣ（4）sponding person是top-k图像中的一个Top-1和top-我们所有的实验都报告了10个4.2. 比较方法和基线其中，αi表示针对第i个样本的预测αf，并且γi表示其地面真值标签，其中1表示对应的图像-图像对，并且0表示非对应的图像-图像对。我们使用了128个图像对对于每一个训练批次。除了字级栅极的层之外，所有完全连接的层都有512个单元。4. 实验目前还没有专门针对该问题设计的方法我们调查了广泛的可能的解决方案的基础上国家的最先进的语言模型的视觉任务，我们将各种可能的解决方案与深度神经网络进行了比较，包括图像字幕，视觉QA和视觉语义嵌入的方法。通常，每种类型的方法利用不同的监督进行训练。图像字幕、视觉QA和视觉语义嵌入方法都是用词分类损失、答案分类损失和基于距离的损失来训练的。我们还提出了几个基线来研究详细的网络结构设计的影响为了进行公平的比较，所有比较方法的图像特征都来自我们的VGG-16网络预训练模型。1976图像字幕。Vinyals等人[37] Karpathyet al. [19]提出使用深度递归框架生成描述图像的自然句子。我们使用Karpathy等人提供的代码。以训练图像加帽模型。我们遵循[14]中的测试策略，使用图像字幕方法进行文本到图像检索。在测试阶段，给定一个人的图像，而不是递归地使用预测的单词作为下一个时间步的输入来预测图像标题，LSTM将给定的句子逐字作为输入。它计算给定单词和LSTM预测单词之间的每个单词交叉熵损失。对应的句子-图像对的平均损失较低，而不对应的句子-图像对的平均损失较高.目视QA。Agrawal等人[1]提出了更深层次的LSTMQ +范数I方法来回答关于给定图像的问题。我们把元素乘法在问题和图像特征之间，用问题和图像特征的连接，并用二进制分类器代替多类分类器。由于提出的GNA-RNN只有一层用于LSTM，因此为了公平比较，我们将更深LSTM Q +范数I中的LSTM也改为一层。[1]中的范数I也被修改为包含两个额外的全连接层以获得图像特征，而不是遵循我们模型结构的原始层。我们称修改后的模型为QA- Word。在哪里连接问题和图像模态的特征也可能影响分类性能。QAWord模型将图像特征与LSTM输出的句子特征连接起来我们研究了在将单词嵌入特征和图像特征输入到LSTM之前将它们这种修改后的我们还将QAWord中的语言模型替换为[45]中的简单语言模型，该模型使用传统的词袋（BoW）方法对句子进行编码，并将其称为QABoW。视觉语义嵌入这些方法试图将图像和句子特征映射到联合嵌入空间中。图像和句子特征在联合空间中的距离可以被解释为它们之间的亲和力。对应的视差-图像对之间的距离应当小，并且在非对应的巴黎之间应当大。Reed等人[31]提出了一种用于零镜头文本到图像检索的CNN- RNN。我们利用他们的代码，并将其与我们提出的框架进行比较。我们还研究了用简单的BoW语言模型[45]替换CNN-RNN中的语言模型进行句子编码，并将其表示为EmbBoW。4.3. 定量和定性结果定量评价。表2显示了我们提出的框架和比较方法的结果。我们使用一个句子作为查询来进行人员搜索。我们的方法在前1和前10的准确度方面都达到了最佳性能，并且优于其他方法大幅度地。实验结果表明，我们所提出的网络能够更好地捕捉复杂的词-图像关系。对于所有基线，图像字幕方法Neu- ralTalk优于其他基线。它计算每个单词的平均损失作为图像-图像亲和度，并获得比视觉QA和视觉嵌入方法更好的结果，这些方法将整个句子编码为一个特征向量。这些结果表明，LSTM可能难以将复杂的人物描述性句子编码为单个特征向量。逐字处理和COM可能更适合于人员搜索问题。我们还观察到QAWord-img和QAWord具有相似的性能。这表明，LSTM之前或之后的图像和文字之间的模态融合对人物搜索性能的影响很小。这两种方式都在一定程度上捕捉了词与图像的关系。对于视觉语义嵌入方法，CNN-RNN在所提供的代码的前k个准确度方面表现不佳。基于距离的损失可能不适合学习好的模型的人搜索问题。EmbBoW和QABoW使用传统的Bag-of- Word方法对句子进行编码，其性能不如使用RNN语言模型的同类方法，这表明RNN框架更适合处理自然语言数据。成分分析我们首先对人重新识别任务的视觉VGG模型进行预训练，然后对整个网络进行微调以进行文本到人的搜索。如果没有人重新识别预训练，前1和前10的准确率明显下降，如表3所示。这意味着最初的训练对最终的表现影响很大。为了研究所提出的单元级注意力和字级门的有效性，我们设计了两个基线进行比较。对于第一个基线（表示为“w/o门”），我们删除字级门，只保留单元级注意力。在这种情况下，不同的词在估计句子-图像亲和度时被相等地加权。对于第二个基线（表示为我们在表中列出了两个基线的前1和前10精度3 .第三章。单元级注意力和字级门对于我们的GNA-RNN实现良好的性能都很重要。调查影响视觉的数量单位列出了不同数量视觉单位的结果表4. 具有更多视觉单位的模型可能会过度拟合数据集。512台达到最佳效果。定性评价。我们对我们提出的GNA-RNN进行了定性评估。图6显示了我们提出的GNA-RNN的6个带有自然语言描述的搜索结果前2行中的四个案例示出了相应图像在前6个检索结果内的成功案例对于成功的案例，我们可以观察到，每个顶部图像有多个区域，适合部分的描述。一些不对应的图像也1977这位女士穿着白色的婚纱，棕色的头发向后拉成一条长长的白色面纱。这件连衣裙用一条白色丝带系紧。这名女子身穿黑白印花裙，黑色绑带凉鞋和白色上衣。她左手腕上戴着一个黑色手镯。一个男人留着棕色短发，戴着眼镜。他穿一套灰色西装，配一件白色衬衫和黑色领带。他拿着一个白色的活页夹。一个女人穿着一件鲜红色的衬衫，一条黑色的裤子和一双黑色的鞋子。这名男子身穿白色衬衫和一条棕色裤子，背着一个黑色背包。那个女人穿着白色上衣和卡其布裙子。她拿着一个红色的手提包。图6. 使用我们提出的GNA-RNN进行自然语言描述的前6名搜索结果的示例。相应的图像用绿色矩形标记。(Rows 1-2）对应人员在前6名结果中的成功搜索。(Row 3）对应人员不在前6名结果中的失败案例。显示与查询语句的相关性就失败案例而言，有两种第一种类型的失败搜索确实检索到与语言描述相似的图像，但是，确切对应的图像不在顶部检索结果中例如，图6中右下角的情况确实包括与描述类似的人（顶部2、顶部3和顶部4），他们都穿着白色上衣和红色短裤/裙子。其他人也有部分符合描述的特征第一名的人有一个前4名的人穿第二种失败-背包粉红色无袖黄色实验结果表明，GNA-RNN不能理解整个句子，而只能捕获单独的单词或短语。以图6中左下角的情况为例，短语相反，仅捕获单词“brown”，这导致用于前1和前6个人的“brown”套装，并且“brown”落在前2个图像中。我们还发现一些罕见的单词/概念或详细描述很难学习和定位，如如果将来提供更多的数据，则可以获知这些信息。视觉单元可视化。我们还检查学习的视觉单位，看看他们是否隐含地捕捉共同的视觉模式的人的图像。我们选择一些常用的形容词和名词。对于每个频繁词，我们收集大量训练图像的单元级注意力向量这样的单元级注意向量被平均以识别其最关注的视觉单元。对于每个这样的单元，我们检索在单元上具有最高响应的训练图像。图7中显示了以这种方式获得的视觉单元的一些示例。它们中的每一个都捕捉到一些共同的图像模式。5. 结论本文研究了基于自然语言的人物搜索问题。我们收集了一个大规模的人图7. 在4种不同视觉单位这4个单元被识别为在我们的GNA-RNN中具有最大平均注意力值的单元，具有相同的单词（“背包”，“无袖”，“粉红色”，“黄色”）和大量图像。每个单元决定了一些共同的视觉模式的存在。数据集包含80，412个句子描述，13，003个人。在基准上对各种基线进行评估和比较。提出了一种GNA-RNN模型，利用所提出的门控神经注意机制学习句子和人物图像之间的相似度，建立了最先进的人物搜索性能。鸣谢本研究部分由商汤科技集团有限公司资助，部分由香港研究资助局的“优配研究基金”资助，资助项目包括：香港中文大学 14207814 、香港中文大学14213616、香港中文大学14206114、香港中文大学14205615、香港中文大学419412、中大14203015及中大14239816，部分由香港创新及科技支援计划ITS/121/15 FX资助，部分由国家自然科学基金61371192资助，部分由博士学位授予人中国博士后科研工作站项目资助20130185120039，部分项目资助2014M552339。1978引用[1] S. 安托尔， A. 阿格拉瓦尔 J. Lu， M. 米切尔 D.巴特拉C. Lawrence Zitnick和D.帕里克Vqa：可视化问答。在ICCV，第2425-2433页，2015中。三、七[2] X. Chen，H. 方，T.- Y. 林河，巴西-地 Vedantam、S.古普塔P. Doll a'r和C. L. 齐特尼克Microsoftcococaptions：数据收集和评估服务器。 arXiv 预印本 arXiv ：1504.00325，2015。2[3] X. Chen和C. L.齐特尼克学习图像标题生成的递归视觉表示。arXiv预印本arXiv：1411.5654，2014年。3[4] Y. Deng，P.罗角，澳-地C. Loy和X.唐远距离行人在ACM MM，第789-792页1、4[5] H. Fang，S.古普塔F.扬多拉河K.斯利瓦斯塔瓦湖邓小平说，P. 多尔，J。Gao、X. 他，M。米切尔，J。C. Platt，etal.从标题到视觉概念再到后面。在CVPR，第14733[6] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩T. Mikolov等人Devise：一个深度的视觉语义嵌入模型。NIPS，第2121-2129页，2013年。3[7] A. 福井 D. H. 帕克 D 。 Yang ，杨树 A. Rohrbach ， T.Darrell和M.罗尔巴赫多模态紧凑双线性池化视觉问答和视觉接地。arXiv预印本arXiv：1606.01847，2016。3[8] H. Gao，J. Mao，J. Zhou，Z.黄湖，澳-地Wang和W.徐你在跟机器说话吗？多语言图像问题的数据集和方法。在NIPS，第2296-2304页，2015年。3[9] D. Gray，S. Brennan和H.涛.评估识别、重新获取和跟踪的外观模型。在Proc. IEEE跟踪和监视性能评估国际研讨会（PETS），第5期，2007年。3[10] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第7703[11] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735-1780，1997。5[12] M. Hodosh，P. Young，and J.霍肯迈尔将图像描述成帧作为排名任务：数据、模型和评估指标。Journal ofArtificial Intelligence Research，47：8532[13] R. Hu，M.Rohrbach和T.达雷尔。从自然语言表达中分割arXiv预印本arXiv：1603.06180，2016年。3[14] R. Hu，H.Xu，M.Rohrbach，J.Feng，K.Saenko和T.达雷尔。自然语言对象检索。CVPR，2016年。7[15] J. Johnson，A. Karpathy和L.飞飞Densecap：用于密集字幕的全卷积定位网络。 arXiv 预印本 arXiv ：1511.07571，2015年。3[16] K.康，H. Li，T.肖，W. Ouyang，J. Yan，X.刘翔的成功X.王.视频中的对象检测与tubelet提议网络。在CVPR，2017年。3[17] K. 康，H.Li，J.Yan，X.曾湾，澳-地Yang，T.肖氏C.张先生，Z. 王河，巴西-地Wang，X.wang等人T-cnn：Tubelets与卷积神经网络用于视频对象检测。arXiv预印本arXiv：1604.02532，2016年。3[18] K.康，W。欧阳，H. Li和X.王.用卷积神经网络从视频tubelets中检测目标在IEEE计算机视觉和模式识别会议论文集，第817-825页3[19] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在CVPR，第3128-3137页，2015年。二、三、七[20] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma等人可视化基因组：使用众包密集图像注释连接语言和视觉。arXiv预印本arXiv：1602.07332，2016。二、三[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。3[22] W.利河，巴西-地赵，和X。王.用转移度量学习进行人类重新识别。在ACCV，第31-44页，2012中。3[23] W. 利河，巴西-地Zhao，T.萧，还有X。王. Deepreid：深度过滤配对神经网络，用于人员重新识别。在CVPR中，第152-159页3[24] S. 廖，Y.Hu，X.zhu和S.Z. 李基于局部最大发生表示和度量学习的人物在CVPR，第2197-2206页，2015年。1、4[25] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。在ECCV，第740-755页，2014中。二、三[26] W. Liu，T.梅，Y. Zhang C.，中国古猿科Che和J.Luo。多任务深度视觉语义嵌入视频缩略图选择。在CVPR，第3707-3715页，2015年。3[27] M.马林诺夫斯基，M。Rohrbach和M.弗里茨问问你的神经元：基于神经的方法来回答有关图像的问题。在ICCV，第1-9页，2015年。3[28] J. Mao，W. Xu，Y. Yang，J. Wang，Z. Huang和A.尤尔。使用多模态递归神经网络（m-rnn）的深度字幕。arXiv预印本arXiv：1412.6632

下载后可阅读完整内容，剩余1页未读，立即下载