超越实例级图像检索：利用标题学习语义检索的全局视觉表示

198 浏览量更新于2023-10-15 收藏 3.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1超越实例级图像检索：利用标题学习语义检索的全局视觉表示阿尔伯特·戈多和黛安·拉卢斯Xerox欧洲firstname.name邮件xrce.xerox.com摘要使用示例图像进行查询是从可视化数据库中检索信息的简单图像检索中的大多数研究都集中在实例级图像检索的任务上，其目标是检索包含与查询图像相同的对象实例的图像在这项工作中，我们超越了实例级检索，并考虑在复杂的场景中的语义图像检索的任务，其目标是检索图像共享相同的语义作为查询图像。我们表明，尽管其主观性质，语义排名的视觉场景的任务是一致的，在整个人类注释池实现。我们还表明，基于人类注释的区域级字幕的相似性与人类排名高度相关，并构成了一个很好的可计算的替代品。在此观察之后，我们学习图像的视觉嵌入，其中视觉空间中的相似性与它们的语义相似性surrogate相关我们进一步扩展了我们的模型，学习一个联合嵌入的视觉和文本线索，允许一个查询数据库使用文本修饰符除了查询图像，适应结果的最后，我们的模型可以通过显示对图像对之间的相似性贡献最大的区域来确定排名决策，从而提供对相似性的视觉解释。1. 介绍图像检索的任务旨在给定查询图像，在潜在的非常大的图像数据库中检索与该查询相关的所有图像。多年来，这一主题得到了大量研究。最初使用特征袋表示，大词汇表和倒排文件[61，51]，然后使用Fisher向量或VLAD描述符等特征编码[55，31]，检索任务最近受益于深度学习表示的成功，如卷积神经网络，这些表示被证明是有效的和计算的图1.我们处理语义检索任务。利用可用于训练集的图像的多个人类字幕，我们训练语义感知表示，其在不包含文本注释的图像的不相交数据库内改进语义视觉搜索。作为副产品，我们的方法突出了对决策贡献最大的区域。这是一个很好的任务[64，58，25]。在以前的检索方法中，许多方法都集中在检索与查询图像中完全相同的实例，例如特定的地标[56，57，32]或特定的对象[51]。另一组方法集中于检索语义相关的图像，其中这需要做出所有类别或标签都是预先已知的强假设，这对于复杂场景不成立。在本文中，我们感兴趣的应用任务的语义检索查询图像，显示现实和复杂的场景，我们不能假设，所有的对象类别是已知的，提前，其中的inter-mantic检索。65896590对象之间的操作可能非常复杂。我们的第一个概念是验证语义检索的任务是明确定义的，特别是在复杂场景的存在下（第3节）。虽然不同的人理解为语义相似的场景是受解释，我们在用户研究中发现，有一个高层次的一致性不同的用户之间。按照标准的图像检索范式，目标-得到有效的检索数据库内的潜在的数百万的图像，我们的目标是学习一个全球性的和紧凑的视觉表示量身定制的语义检索任务，而不是依赖于一个预定义的列表的类别或相互作用，隐式地捕捉有关的场景对象和它们的相互作用的信息然而，直接从人类获取足够的语义注释来训练这样的模型可能是不可行的。我们的第二个贡献是表明，基于人类注释者产生的标题的相似性函数，我们假设在训练时可用，构成了真实语义相似性的良好可计算代理，并提供了足够的信息来学习语义视觉表示（第4节）。我们的第三个贡献是一个模型，利用人类生成的字幕之间的相似性，即。仅在训练时可用的特权信息，以学习如何将图像嵌入语义空间中，其中嵌入图像之间的相似性与它们的语义相似性有关（第5.1节）。我们的实验首先表明，学习语义表示比在ImageNet上预训练的模型有显着改善我们还表明，它可以提供一个视觉解释的语义相似性突出的区域，贡献最大。我们的最后一个贡献（第5.2节）是对先前模型的扩展，它显式地利用图像标题，并学习视觉和文本表示的联合嵌入。我们表明，这进一步提高了模型的准确性，而且，更重要的是，这允许一个添加文本修饰符的查询，以完善查询或适应额外的概念的结果。2. 相关工作图像检索图像检索主要是作为实例级图像检索的问题[61，51，55，31，64，58，25]，其重点是检索与标准基准数据集中定义的实例完全相同[56，57，32，51]。离开实例，一些作品已经将视觉搜索处理为检索共享相同类别标签[7，8]或一组标签[29，22]的图像。这些作品对场景语义的理解仍然比较粗糙。Zitnick和Parikh在其抽象场景的合成数据集上证明，当详细的语义可用时，图像检索可以得到极大的改善[70]。场景的显式建模可以与属性[19，17，53，41]，对象同现完成[47] ，或对象之间的成对关系[12，14，43]。由于场景中对象之间的交互可能是高度复杂的，超出了简单的成对关系，Johnson等人提出的一种极端接口。[34]是将显式场景图形表示而不是视觉表示进行组合。他们的方法的一个缺点是，它需要用户使用全场景图进行查询，这是一个繁琐的过程。我们认为，查询与图像是一个更直观的界面。许多方法已经将图像字幕的任务转换为检索问题，首先检索相似的图像，然后将字幕注释从检索的图像转移到查询图像[28，62，18，52]。然而，这些方法使用未针对任务训练的特征，无论是简单的全局特征[28]，在ImageNet上预训练的特征[62]还是依赖于对象检测器、场景分类器等的复杂特征。[18、52]。我们认为，表示应该不受场景中可能遇到的对象、属性和交互列表的假设的影响，因此，我们直接从训练数据中学习这些表示图像和文本的联合嵌入。许多任务需要联合利用图像和自然文本，例如零拍摄学习[4，10]，语言生成[67，35]，多媒体学习[67，35媒体检索[2，3]，图像字幕[62，16]和VQA [59，45，6]。一种常见的解决方案是为文本和视觉线索建立一个联合嵌入，并直接在该空间中比较第一类联合嵌入方法基于CCA [26]。最近使用CCA的方法包括[22，24，39]和[5]，CCA的深度扩展。作为CCA的替代方案，以前的工作已经学习了具有排名损失的联合嵌入其中，WS- ABIE [69]和DeViSE [20]学习视觉和文本特征的线性变换，具有单向排名损失。一些论文提出了一种双向排名损失[35，36，38，62]，可能有额外的约束[68]。基于深度玻尔兹曼机[63]，自动编码器[50]，LSTM [15]或RNN [46]，也提出了用于此任务的深度方法这些联合图像和文本嵌入通常用于进行跨模态查询，即。用文本查询检索图像，反之亦然[68]。在许多这些作品中，学习联合嵌入本身就是最终目标。这与我们的工作不同，在我们的工作中，最终任务是学习一个视觉嵌入来使用查询图像检索图像，而联合嵌入用于丰富视觉表示。从这个角度来看，也发现了与特权学习框架的联系[66]：我们改进的表示是用训练时存在的标题提供的语义相似性度量形式的特权信息来学习的。Gomezet al. [21]，在这些相同的诉讼，遵循类似的想法，利用文本6591从维基百科学习自我监督的视觉嵌入，旨在分类，检测和检索任务。3. 用户研究在本节中，我们进行了用户研究，以获取与用户感知的图像之间的语义相似性相关的注释，并使用这些注释来表明复杂场景中的语义检索任务我们还表明，在ImageNet上预训练的视觉模型虽然比随机模型好，但与用户的一致性并不高，并且需要某种形式的训练才能仅使用视觉特征来实现良好的语义检索结果。数据集。计算机视觉社区最近在收集和组织大规模数据集方面做出了努力，这些数据集允许认知的训练和基准测试查询. 我们的研究涉及35名注释者（13名女性和22名男性），他们的注释超过3,000个图像三联体。一组常见的50个三元组由25个用户回答，大多数三元组被至少两个注释者注释。对于每个三元组，我们存储三个值：o1和o2分别对第一个（分别为第二个）图像被选中，而O3 是人们没有选择两个图像中任何一个的次数。用户间协议。我们评估用户之间在这个排名任务的协议。我们以留一用户的方式计算分数，其中每个用户的决定与所有其他用户的决定给定一个用户和一个排序问题，一致性得分s被测量为做出与该用户相同选择的剩余用户的比例，由对该三元组做出决定的剩余用户的比例加权，即，s=woi−1，其中w=o1+o2−1，i∈{1，2}是场景理解任务：MS-COCO数据集[42]，o1+o2−1o1+o2+o3−1VQA数据集[6]，它向MS-COCO添加了一组与这些图像的视觉内容相关的问题/答案对，以及最近的VisualGenome数据集[40]，它由108 k图像组成，具有广泛的注释，如区域级别标题、场景图、对象和属性。该数据集旨在评估超出图像分类的任务，以及需要对视觉场景进行推理的任务我们采用Visual Genome数据集进行实验，因为它非常适合语义视觉搜索的任务。我们将其结构化为80k图像用于训练，10k用于验证，10k用于测试。方法论根据图像与查询图像的语义相关性对大量图像进行手动排序是一项非常复杂、繁琐和耗时的任务。相反，为了简化注释器的任务，我们考虑三元组排名的问题：给定由一个查询图像和两个其它图像组成的图像的三元组，我们要求我们的用户在两个选项中选择语义上与查询最相似的图像。为了不使注释偏向于语义相似性的任何解释，我们保持尽可能开放的指导方针，要求用户在两个显示的图像中选择“描绘了与查询图像中的场景最相似的场景”的图像用户可以选择两个图像中的一个，或者选择两个图像与查询同等相关或不相关。为了构建三元组，我们随机采样查询图像，然后选择两个视觉上与查询相似的图像这是通过使用在ImageNet上预训练的ResNet-101 [27]提取图像特征（在最后一个卷积层之后执行全局平均池化）并从视觉特征空间中查询的50个最近邻居中采样两个图像来实现的的动机选择视觉上相似的图像是，在随机的图像三元组中，两个图像通常都与用户的选择。此分数仅计算三胞胎其中用户和至少一个剩余用户选择图像之一。特定用户的最终一致性分数是每三个一致性的平均值。平均而言，用户间协议得分为89.1，标准差为4.6。这表明人们对两幅图像之间的语义相似性排序在由25个用户标注的50张图像集上，我们得到了类似的留一协议得分为87.3 ±4.5。与视觉表现的一致性。我们现在展示了在ImageNet上预训练的模型，没有进一步的训练，不能与用户达成高度一致。我们考虑基于全卷积ResNet-101架构的图像表示[27]。我们的表示遵循R-MAC [64，25]架构，其中，在[27]的卷积层之后，在不同尺度下对图像的不同网格区域执行最大池化，使用具有白化的PCA独立地归一化每个区域的描述符，最后聚合并重新归一化最终输出以获得2048维的描述符。这些ResNet R-MAC描述符可以使用点积进行比较。如在用户间一致性情况下，方法和用户之间的一致性被测量为同意由该方法产生的排名决定的用户的比例，由对该三元组做出决定的用户的比例加权，通过具有至少一个人类注释者的所有三元组平均。在这种设置下，我们的视觉基线，带有R-MAC的ResNet，获得了64的同意。0，cf.表1. 该协议高于三胞胎的随机排序（50. 0± 0。8分，5分，但比用户间协议低得多，建议-训练视觉模型是必要的，为此，语义标注将是必要的。6592方法评分人类注释者89.1 ±4.6视觉基线：ResNet R-MAC64.0对象注释63.4中文字幕：METEOR72.1真人字幕：word2vec + FV70.1通常用于机器翻译，也被用作图像字幕的标准评估措施[11]。为了比较来自两幅图像的两组区域级字幕X和Y，我们使用以下形式的（非Mercer [441XX（1）A =（max M（x，y）+max M（x，y））。中文字幕：tf-idf 76.3生成的字幕：tf-idf 62.5|+的|Y|x ∈ X y ∈Y|x∈X y∈Yx∈Xy∈Y随机（x5）50.0 ±0.8表1.顶行，在图像排名任务上的人与人之间的注释一致。底部行：人类注释者提供的语义排名与基于Visual Genome注释的几种视觉基线和方法之间的比较。4. 语义相似性的代理度量为了学习保持图像之间语义相似性的视觉嵌入，需要大量的带注释的图像三元组。不幸的是，要求人类注释者为数百万个三元组提供排名是不可行的。相反，我们建议使用替代措施。理想情况下，这种替代度量应该是有效的计算，并与人类注释者给出的排名高度相关。为此，我们利用Visual Genome数据集的注释，并研究哪些措施与人类注释者具有高度相关性。我们的第一个表示利用了图像中包含的对象。我们考虑了Visual Genome数据集提供的地面实况对象注释[40]，它列出了一个图像中存在的所有对象，以及相关的WordNet [49]同义词集分配。我们建立一个直方图表示的每个图像，计数有多少对象的每个同义词集出现在该图像中，并加权直方图的tf-idf机制，其次是m22规范化。最终的表示与点积进行比较如表1所示，这种表示与用户的一致性比视觉一致性更差。这表明，从预定义的类别列表中计数对象并忽略它们的交互并不能提供语义相似性的良好代理，并且需要更多的信息。出于这一动机，我们认为人类字幕作为语义相似性的代理。我们的基本原理是，人类注释者将偏向于注释他们认为重要的图像部分，并且这些注释的部分将与他们用来决定图像是否语义相似的部分相同。VisualGenome数据集平均每个图像包含50个由不同用户标注的区域级标题因此，我们利用提供的区域级标题来构建图像的几个文本表示比较图像标题的一种直观方法是使用 METEOR[13]，这是文本句子类型之间的相似性请注意，这需要评估多达数千对比较两个图像可能需要几秒钟的时间，因为图像的标题超过一百因此，这种方法的可扩展性是有限的。为了避免可伸缩性问题，一种选择是将图像的所有标题的所有单词合并为单个单词集。这牺牲了句子的结构，但允许使用基于词袋的其他方法。我们用其中的两个做实验第一个遵循[30]并计算word2vec的Fisher向量[54]（FV）[48] 标题文字的表示。两幅字幕图像之间的语义相似度是两个FV表示之间的点积。第二个是词袋（BoW）的tf-idf加权，然后进行102归一化，也可以使用点积进行比较与METEOR度量相反，最后两种方法不仅产生相似性，而且还产生文本的矢量表示，可以在训练期间使用。所有学习都涉及这些表示（46881个单词的词汇表、idf权重、基于word2vec的Fisher向量的高斯混合模型等）。是在Visual Genome数据集的训练分区上完成的我们通过比较这些方法与用户的决定来我们观察到，由人类注释者提供的区域级标题是两幅图像之间语义相似性的非常好的预测器，比视觉基线好得多。其中，tf-idf BoW表示是最好的，在此任务上优于METEOR和word 2 vec。因此，这是我们在下一节中用来训练更好的视觉表示作为比较，我们还尝试了自动生成的字幕[1，67]，而不是用户生成的字幕。自动字幕的得分明显较低，突出了使用人工字幕进行训练的重要性5. 学习视觉表征在前一节中，我们已经展示了人类生成的字幕捕获了图像之间的语义相似性在这里，我们建议学习一个全局图像表示，保持这种语义相似性（第5.1节）。然后，我们扩展我们的方法，显式地嵌入视觉和文本表示联合（第5.2节）。6593d，dǁWTtǁ5.1. 视觉嵌入我们的底层可视化表示是第3节中讨论的ResNet-101R-MAC网络。该网络被设计用于检索[64]，并且可以以端到端的方式进行训练[25]。我们的目标是学习保持语义相似性的模型（R-MAC管道中的卷积层和投影作为真实语义相似性的代理，我们利用基于tf-idf的BoW表示图像标题。给定两个带有标题的图像，我们将它们的代理相似性定义为它们的tf-idf表示之间的点积为了训练我们的网络，我们建议最大限度地减少训练数据中视觉样本的经验损失。如果q表示查询图像，则d+语义上类似于注意，仅在训练时间需要人工字幕来选择图像三元组，而在测试时间不使用人工字幕。5.2. 视觉和文字的联合嵌入在前面的公式中，我们只使用了文本信息（即。人类字幕）作为语义相似性的代理，以便建立在损失函数中使用的图像三元组（查询、相关和不相关）。在本节中，我们建议在训练过程中以显式的方式利用文本信息。这是通过为视觉表示和文本表示构建联合嵌入空间来完成的。为此，我们定义了两个新的损失，它们对与图像相关联的文本表示进行操作：q和d−asemanticallydissimilarimage，我们定义L（q，d+，d−）=1max（0，m−φT θt1+φT θ），经验损失L=q+−Lv（q，d+，d−），其中2q+q−（二）1Lt2（q，d+，d−）=1max（0，m−θTφ++θT φ）的情况。（三）L（q，d+，d−）=max（0，m−φT φ+φT φ），（1）2qq−v2q+Q−m是边界，φ：I→RD是将图象嵌入向量空间的函数，即φ：I →RD是图象的边界。我们模型的输出我们稍微滥用了符号，记为φ（q），和前面一样，m是边距，φ：I→RD是图像的视觉嵌入，θ：T →RD是将与图像相关的文本嵌入到矢量中的函数。与视觉特征具有相同维度的空间。我们φ（d+）和φ（d−），作为φq、φ+和φ−。我们对此进行优化在[25]中，具有随机性的将文本嵌入定义为θ（t）=WTt2 ，其中t使用ADAM优化[37]。为了选择语义相似的d+和不相似的d-图像，我们评估了两种方法。在第一种方法中，我们直接对它们进行采样，例如s（q，d+）> s（q，d-），其中s是两个图像之间的语义相似度，计算为它们的tf-idf表示之间的点积，如上所述。然而，我们观察到这种采样策略并没有改善视觉表现。我们相信这是因为该策略一次性优化了整个排名，并且特别地尝试简单地基于视觉信息为所有非常相关的图像和所有不相关的图像产生正确的排名这是一个非常具有挑战性的任务，我们的模型无法正确学习。相反，对于第二种方法，我们采用硬分离策略。类似于其他检索作品，评估检索没有严格的标签（例如，[33]），我们根据相似性s将每个查询的k个最近邻居视为相关，而其余图像则视为不相关。这大大简化了问题，因为现在的目标是在给定查询的情况下将相关图像与不相关图像分开，而不是产生全局排名。尽管有硬阈值，我们观察到这种方法可以学习更好的表示。请注意，这个阈值只在训练时完成，而不是在测试时。在我们的实验中，我们使用k=32，尽管其他k值导致非常相似的结果。为了减少这种阈值化的影响，损失也可以通过涉及语义相似性的权重来缩放，类似于WARP损失[69]，尽管我们在这项工作中没有探索这个选项最后，是归一化的tf-idf向量，W是学习的ma。将t投影到与视觉表示相关联的空间中的投影。这两个文本损失的目的是明确地引导视觉表示向文本表示，我们知道这是更多的信息。特别是，在Eq中的损失。（2）强制文本表示可以使用视觉表示作为查询来检索，隐含地改进视觉表示，而Eq.（3）确保可以使用文本表示来检索图像表示，如果文本信息在查询时可用，所有三种损失（视觉损失和两种文本损失）都可以使用具有六个流的连体网络同时学习-三个视觉流和三个文本流。有趣的是，通过消除视觉损失（ Eq. （ 1 ）），仅保留接头损失（特别是等式（1））。（2）），人们恢复了类似于流行的联合嵌入方法，如WSABIE [69]或De- ViSE [20]的公式然而，在我们的情况下，保留视觉损失是至关重要的，因为我们的目标是按图像检索任务进行查询，而去除视觉损失会导致较差的结果。我们还注意到，我们的视觉损失与[68]的结构保留损失有一些相似之处，尽管它们解决了非常不同的跨模态搜索任务（即，句子到图像和图像到句子检索）。6. 实验本节验证了我们提出的语义嵌入在语义重构上产生的表示，65948075706560551248163264128R3530252015104 8 163264128R1.00.80.60.40.20.00.00.10.20.30.40.50.60.7 0.8语义相似度美国NDCG AUC PCC AUC文本神谕图2.左侧和中间：NDCG和PCC作为检索图像数量的函数由不同的模型实现R，其中地面真值由tf-idf相似性确定。右：基准和训练模型的地面实况tf-idf相似性与视觉相似性之间的相关性。trieval任务。我们定量评估他们在两个不同的情况下。在第一个中，我们评估了学习的嵌入能够在多大程度上再现基于人类字幕的语义相似性代理在第二种情况下，我们使用从用户那里获得的三元组排名注释来评估我们的模型（第3节），通过比较我们的视觉嵌入与人类对所有这些三元组的决定的一致性然后，我们提出了一个实验，显示图像的哪些部分导致匹配分数。最后，我们说明了如何利用联合嵌入，检索到的查询图像的结果可以使用文本修饰符进行修改或细化。6.1. 实验细节实作详细数据。我们的视觉模型基于ResNet-101架构[27]（在ImageNet上预训练），用于卷积层，然后是R-MAC池化，投影，聚合和归一化管道[64]。我们调整所有图像的大小，保持宽高比，例如最大边为576像素，并为R-MAC池使用两个尺度。为了提取文本特征，我们使用tf-idf对字幕进行我们使用NLTK [9]中的Snowball词干提取器提取单词的词干我们的模型是使用ADAM优化器以64个三元组（六元组取决于设置）的批量大小学习的，初始学习率为10−5，在8k次迭代后减少到10−6为了挖掘用于训练的三元组，我们遵循类似的方法[25，58]。我们首先随机抽取N=500张图像。对于这N个样本中的每一个，我们根据地面真实值对9个相关图像进行采样。这产生了5000个图像的池，其中至少500个图像在池中具有至少9个相关图像。然后我们使用模型的当前状态提取它们的特征，并准备涉及池中图像的查询图像、相关图像和不相关图像的所有可能三元组，并且其中查询仅从前N个图像中采样。最后，选择每个查询和正对损失最大的100个三元组作为待采样的潜在候选，并用于更新模型。在模型的t=64次更新之后重复该表2. 根据用户研究（US）一致性评分、NDCG和PCC曲线的AUC（即，NDCG AUC和PCC AUC）。指标. 我们用两个指标对我们提出的模型进行了基准测试，这两个指标评估了它们与tf-idf代理度量（这是我们优化的任务）以及第3节中提出的用户协议度量的相关性。尽管后者对应于我们想要解决的确切任务，但基于tf-idf相似性的度量提供了关于学习过程的额外见解，并允许交叉验证模型参数。我们评估我们的方法使用归一化贴现累积增益（NDCG）和皮尔逊这两种方法都是为了评估排名任务。PCC测量地面实况和预测排名分数之间的相关性，而NDCG可以被视为加权平均平均精度，其中每个项目具有不同的相关性-为了在验证或测试分割中评估我们的方法，我们从分割中选择1k个图像，用作查询，并使用它们对分割中的所有10k个图像进行排名。查询图像将从结果中移除最后，由于我们对最重要的结果特别感兴趣，因此我们不使用10k检索图像的完整列表报告结果相反，我们在检索前R结果后报告NDCG和PCC，对于不同的R值，并绘制结果。方法和基线。我们评估不同版本的嵌入。我们用一个形式为（{V，V+T}，{V，V+T}）的元组来表示我们的方法。第一个元素表示模型是否仅使用视觉嵌入进行训练dings（V），cf.当量（1），或联合视觉和文本嵌入（V+T），参见。当量（1）-（3）。第二个元素表示，在测试时，是否只查询图像，使用其视觉嵌入（V），或与图像和文本，使用其联合视觉和文本嵌入（V+T）。在所有情况下，数据库仅由用视觉嵌入表示的图像组成，没有文本信息。我们的方法与我们的ResNet-101 R-MAC基线进行了比较，在ImageNet上进行了预训练，没有进一步的训练，并且与WSABIE类似的模型进行了比较，该模型寻求联合嵌入V.基线（，V）WSABIE（V+T，V）Prop.（V，V）Prop.（V+T，V）比例（V+T，V+T）NDCGV.基线（，V）比例（V+T，V）PCC视觉相似性标题Tf-idf76.3100100按图片随机（x5）50.0 ±0.810.2 ±0.1-0.2 ±0.7视觉基线（，V）64.058.416.1WSABIE（V+T，V）67.861.015.7拟议数（五、五）76.970.120.7拟议（V+T，V）77.268.821.1图片+文字拟议（V+T，V+T）78.674.422.56595优化Eq.（2），但没有明确优化的视觉检索目标方程。（一）.6.2. 结果和讨论我们首先讨论了模拟语义相似性代理函数的任务中训练的效果图2给出了使用NDCG@R和PCC@R度量针对不同R值的结果我们的第一个观察结果是，所有形式的培训都比ResNet基线有所改善。其中，WSABIE是获得最小改进的一个所有优化最终目标的方法都能获得更高的精度。第二个观察结果是，当查询仅由一个图像组成时，训练我们的模型显式地利用文本嵌入-用（V+T，V）表示的模型然而，这种联合训练允许使用视觉和文本信息来查询数据集使用文本来补充查询的视觉信息会带来显著的改进。在表2中，我们根据人类一致性评分评估了这些方法。对于上下文，我们还报告了NDCG和PCC曲线的曲线下面积（AUC）。与NDCG和PCC一样，学习嵌入带来了用户一致性得分的实质性改善事实上，我们所有我们的模型在训练过程中利用了视觉特征和tf-idf相似性，因此，它能够利用它们提供的互补在测试过程中使用文本可以提高与用户的一致性，并显著改善NDCG和PCC指标。此外，即使定量结果没有改善，联合嵌入也是有用的，例如，用于细化查询，参见图5。决定的基础。我们利用最新的可视化技术来突出一对图像中对它们的相似性贡献最大我们遵循Grad- CAM[60]，它显示了最后一个卷积层的聚合激活，并使用目标类的损失梯度进行加权。在我们的例子中，我们使用的不是相对于特定类别的梯度，而是相对于最终签名的顶部k=5维的梯度，这些维度对它们的相似性贡献最大。图3显示了成对的图像，其中突出显示了对相似性贡献最大的关键区域。请注意，相同的图像如何突出显示不同的区域，这取决于它与哪个图像匹配。定性检索结果。图4比较了vi-图3. 决定的基础。对于每一对图像，我们突出显示对它们的视觉相似性贡献最大的部分。同一图像的不同部分根据其匹配的图像而突出显示。我们的训练方法（V+T，V），其中我们的方法检索更有语义意义的结果，如海滩上的马或新婚夫妇切婚礼蛋糕。图5显示了文本修饰符的效果。查询图像的嵌入被组合到文本项的嵌入（其可以被添加或减去到表示）以形成具有改变的含义的新查询，其能够检索不同的图像，并且这仅由于图像和文本的联合嵌入而成为可能。7. 结论在这项工作中，我们专注于语义图像检索的任务，其中，给定的查询图像，目标是检索图像，描绘了类似的场景。为此，我们进行了一项用户研究，结果表明：i）用户通常同意对图像进行语义排名的任务，ii）这些排名可以通过利用人工注释的标题来准确预测。我们利用这些注释来学习图像的视觉嵌入，并表明这种视觉嵌入可以很好地预测人类的排名偏好，甚至比我们训练的人类字幕代理更好。我们的模型还可以提供关于为什么一对图像相似的视觉解释。最后，我们的联合视觉和文本模型可以利用文本修饰符来细化查询图像的含义，为查询图像数据库提供了令人兴奋的新方法。致谢。我们要感谢Florent Per- ronnin富有成效的讨论和我们所有的35位注释者。6596图4. 定性结果。对于每个图像块，左：查询图像。top：top-7张图像，在ImageNet上预训练了表示，bottom：前7个图像与我们学习的表示（V+T，V）模型。图5. 对于一组查询图像，我们使用文本修饰符作为额外的查询信息（添加或删除概念）来偏向结果。请注意，第一个查询是图4中最后一个查询，它使用了额外的文本进行了细化。6597引用[1] http://t-satoshi.blogspot.fr/2015/12/image-caption-generation-by-cnn-and-lstm. HTML.4[2] J. Ah-Pine，M. Bressan，S. Clinchant，G. Csurka，Y.Hop-Penot和J.渲染。在不同的应用场景中交叉文本和视觉内容多媒体工具和应用，42（1）：31-56，2009年。2[3] J. Ah-Pine，G. Csurka和S.克林森特cbmir中基于图的无监督视觉和文本信息融合。 ACM Transactions onInformation Systems，33（2）：9：1-9：31，2015. 2[4] Z. Akata，M.马林诺夫斯基，M。Fritz和B.席勒多线索零射击学习与强监督。在CVPR，2016年。2[5] G.安德鲁河Arora，J. A. Bilmes和K. Livescu深度典型相关分析。2013年，《国际反洗钱法》。2[6] S. Antol，A. Agrawal，J. Lu，M.米切尔，D。巴特拉角L. zitnick和D.帕里克VQA：可视化问答。在ICCV，2015年。二、三[7] T. L. Berg，A. C. Berg和J.施噪声网络数据的属性自动描述与表征。ECCV，2010年。2[8] A.贝加莫湖Torresani和A.菲茨吉本Picodes：学习一个用于新类别识别的紧凑代码。在NIPS。2011. 一、二[9] S. Bird，E. Klein和E.洛珀用Python进行自然语言处理。2009. 6[10] M. Bucher，S. Herbin和F.朱丽通过度量学习提高零拍分类的语义嵌入一致性在ECCV，2016年。2[11] X. Chen，H. Fang，T. 林河，巴西-地 Vedantam，S. 古普塔山口Doll a'r和C. L.齐特尼克Microsoft COCO字幕：数据收集和评估服务器。 CoRR， abs/1504.00325 ，2015。4[12] M. J. Choi，J. J. Lim，台湾野牡丹A. Torralba和A. S.威尔斯基在对象类别的大型数据库上开发层次上下文。CVPR，2010。2[13] M. Denkowski和A.拉维流星通用：针对任何目标语言的特定语言翻译评估。EACL统计机器翻译研讨会，2014年。4[14] C. Desai，D. Ramanan和C. C.福克斯多类别物件布局的判别模型。IJCV，2011年。2[15] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期CVPR，2015。2[16] H. Fang，S.古普塔F. N.扬多拉河斯利瓦斯塔瓦湖邓小平说，P. 多尔，J。Gao、X. 他，M。妈的，J。C. 普拉特角L. Zit-nick和G.茨威格从标题到视觉概念再到后面。CVPR，2015。2[17] A. 法尔哈迪岛Endres、D.Hoiem和D.福赛斯按属性描述对象。CVPR，2009。2[18] A. 法哈迪 M. 海杰拉提 M. A. 沙代吉 P.杨，C. Rashtchian，J. Hockenmaier和D.福赛斯每一张照片都讲述了一个故事：从图像生成句子。ECCV，2010年。26598[19] V.Ferrari和A.齐瑟曼。学习视觉属性。在NIPS，2007年。2[20] A. 弗罗姆， G 。 S. Corrado ， J.Shlens ， S.Bengio ，J.Dean，M.A. Ranzato和T.米科洛夫DeViSE：一种深度视觉语义嵌入模型。在NIPS，2013年。二、五[21] L. Gomez，Y. Patel，M. Rus innanolol，D. Karatzas和C.V. 是的。视觉特征的自监督学习，通过将图像嵌入文本主题空间。在CVPR，2017年。2[22] Y. 贡角，澳-地克，M.Isard和S.Lazebnik 一个多视图嵌入空间，用于建模互联网图像、标签及其语义。IJCV，106（2）：210-233，2014年。一、二[23] Y.贡，S. Lazebnik，A. Gordo和F.佩罗宁迭代量化：学习二进制代码用于大规模图像检索的procrustean方法。TPAMI，35（12）：2916 1[24] Y. 龚， L. 小王， M. 霍多什， J. Hockenmaier，以及S. Lazebnik使用大型弱注释照片集改进图像-句子嵌入。2014年，在ECCV。2[25] A. Gordo，J. Almaz a'n，J. R ev aud和D. 拉勒斯深度图像检索：学习图像搜索的全局表示。在ECCV，2016年。一二三五六[26] D. R. Hardoon，S.Szedmak和J.肖-泰勒典型相关分析：学习方法的应用概述。神经计算，16（12）：26392[27] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。三、六[28] M. Hodosh，P. Young，and J.霍肯迈尔将图像描述成帧作为排名任务：数据、模型和评估指标。JAIR，47（1）：853-899，May 2013. 2[29] S. J.Hwang和K.格劳曼从标记的图像中学习对象的相对重要性，用于检索和跨模式搜索。IJCV，2012年。2[30] M. Jain ， J. van Gemert ， T. Mensink 和 C. 斯诺克 Ob-jects2action：分类和本地化的行动没有任何视频的例子。在ICCV，2015年。4[31] H. J e'gou和O. 好朋友图像检索中的证据和共现：PCA和白化的好处在ECCV。2012. 一、二[32] H. 我也是M. Douze和C. 施密特用于大规模图像搜索的汉明嵌入和弱几何一致性在ECCV。2008. 一、二[33] H. 我也是M. Douze和C. 施密特最近邻搜索的乘积量化TPAMI，2011年。5[34] J. Johnson，R. 克里希纳，M。斯塔克湖J. Li，D. 莎玛M. Bernstein 和 L. 飞飞使用场景图进行图像检索。CVPR，2015。2[35] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。 CVPR，2014。 2[36] A.卡帕西A. Joulin和L.飞飞用于双向图像句子映射的深度片段嵌入在NIPS，2014。2[37] D. P. Kingma和J. L. BA. Adam：随机最佳化的方法。2015年，国际会议。5[38] R.基罗斯河Salakhutdinov和R. S.泽梅尔统一视觉语义嵌入与多模态神经语言模型。CoRR，abs/1411.2539，2014。26599[39] B. Klein、G. Lev，G. Sadeh和L.狼使用Fisher向量将神经词嵌入与深度图像表示相关联。CVPR，2015。2[40] R. Krishna，Y.Zhu，O.Groth，J.约翰逊，K。Hata，J.克拉维茨S. Chen，Y.卡兰蒂迪斯湖J. Li，D. A. Shamma，M.Bernstein和L.飞飞可视化基因组：使用众包密集图像注释连接语言和视觉。IJCV，2016年。三、四[41] C. H. Lampert，H. Nickisch和S.伤害。基于属性的零拍视觉对象分类。TPAMI，36（3）：453-465，2014年。2[42] T.林，M。迈尔，S。贝隆吉湖D.布尔代夫河B. 格希克，J。海斯角Perona，D. 拉马南山口Dolla'r，C. L. 齐特尼克Microsoft COCO：上下文中的通用对象CoRR，abs/1405.0312，2014。3[43] C.卢河，巴西-地克里希纳，M。Bernstein和L.飞飞视觉关系检测与语言先验。在ECCV，2016年。2[44] S.吕Mercer核函数用于具有局部特征的物体识别。在CVPR，2005年。4[45] M.马林诺夫斯基，M。R

下载后可阅读完整内容，剩余1页未读，立即下载