图像检索：自然语言和鼠标轨迹的多模态查询

98 浏览量更新于2023-09-26 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12136指向哪里的同时告诉什么：图像检索Soravit Changpinyo Jordi Pont-Tuset Vittorio Ferrari Radu Soricut谷歌研究{schangpi，jponttuset，vittoferrari，rsoricut}@ google.com摘要大多数现有的图像检索系统使用文本查询作为一种方式，为用户表达他们正在寻找for. 然而，细粒度的图像检索通常还需要表达他们正在寻找的内容在图像中的位置的能力。文本模态只能繁琐地表达这样的本地化偏好，而指向是更自然的适合。在本文中，我们提出了一种新形式的多模态查询，其中用户同时使用口语的自然语言（什么）和鼠标轨迹在一个空的画布（在哪里），以表达所需的目标图像的特性的图像检索trieval设置。然后，我们描述了简单的修改现有的图像检索模型，使其能够在此设置中操作。定性和定量的实验表明，我们的模型有效地采取了这种空间的指导到帐户，并提供了显着更准确的检索结果相比，纯文本等效系统。1. 介绍每天都有大量的照片被拍摄和分享，而且速度还在不断加快。找到一张自己心中的照片应该比痛苦地在数码相机胶卷中滚动数百张照片建立有效的图像检索系统，在大的集合中找到特定的图像是，因此，至关重要的。为了加快搜索速度，图像检索系统通过自动分析其内容来构建表示图像集合的索引[83，53，21，66，43，62，70，71，17，37，44，39，12]。查询是对用户正在查找的内容的描述在图像中，将目标图像的心理模型转换成检索系统可以理解的具体形式。在粗略级别，查询可以是特定对象类的列表（例如，汽车、人），用户希望被目标图像包含[67]。在更细粒度的级别上是其内容的自然语言描述[70，71，17，37，44，39，12]。后者是最近文献中最常见的范式，部分原因是一匹马在城市里，挡住了自行车和汽车。一匹马在城市里，挡住了一辆自行车和一辆汽车。的b马在图像的左侧，在一个非常接近被射杀脖子以下被切开。一匹马在一座城市里c遮挡自行车和汽车。图1：不同类型的文本查询来表示目标图像中的内容和位置：（a）文本描述中通常缺乏空间信息，以及（b）以书面形式表达空间信息是繁琐的，而（c）使用与文本同步的鼠标轨迹是自然的。字幕数据集的可用性，可用作训练和测试数据[42，10，78，55]。这些类型的查询通常集中在图像中存在什么，但没有表达用户期望它在图像中的位置作为一个例子，考虑图1中的图像1.一、一个文本查询可以是“A horse in a city，occluding a bike and a car”（图1B）。1 a）。检索到的图像，虽然不是用户心目中的图像，但与此描述完美匹配：图像中的内容与预期目标相似使用文本查询来表达where部分不仅对于用户来说是繁琐的，而且对于检索系统来说也是难以处理的（图13）。（见第1段b）。在本文中，我们提出了一种新的查询方式，其中用户同时使用口语自然语言描述所需的目标图像的特性，什么，鼠标轨迹在一个空的画布上，在哪里（图1c）。粗略地指向对象当定位信息也在时间上与自然语言查询对齐时，它变成可以被利用来使检索更精确的自然基础我们提出了一个图像检索模型，这种新型的多模态查询作为输入。我们从一个图像开始一12137(a) 查询：标题+鼠标轨迹（我们的）在这张图片中，我们可以看到一个人戴着帽子，拿着网球拍。我们还能看到一个球。在后面我们可以看到网和墙。检索到的图像排序在这张图片中，我们可以看到一个人戴着帽子，拿着网球拍。我们还能看到一个球。在后面我们可以看到网和墙。(b) 查询：标题图2：定性结果：使用（a）文本和鼠标轨迹进行查询，与（b）仅使用文本进行查询。目标图像标记为绿色。添加鼠标轨迹来表达图像内容的空间位置，即使给定相同的文本查询，也可以获得更好的检索结果在这个特定的例子中，注意球拍和球的精确位置允许模型检测正确的目标图像。- 文本匹配模型，其通过根据它们的亲和力对图像-文本对进行排名而被重新用作图像检索器，如在先前的文献[32，17，37，80]中那样。然后，我们增加文本输入，以将每个单词在空白画布中的粗略位置考虑在内（图2）。4）.用于训练和评估这种模型的数据来自 LocalizedNarratives [56]，这是一个字幕数据集，注释者用他们的声音描述图像，同时将鼠标移动到他们正在描述的对象上。鼠标轨迹有效地将图像中标题的每个单词接地。为了在图像检索场景中使用这些数据，我们将标题和相应的鼠标轨迹作为输入查询，并将在其上生成注释的图像作为目标图像。我们的实验评估表明，与仅使用文本查询的模型相比，这种查询模态为顶部图像提供了+7%的绝对更好的召回率（43%的相对错误率降低）。如图所示。2，具有查询中提到的对象的粗略位置限制了似然图像的空间，从而允许更有效的检索结果。综上所述，我们的主要贡献包括：(a) 一种新的查询模式，细粒度的图像检索，允许更自然的规格定位的偏好。(b) 这个想法的一个具体实现是简单的，并且通过一个强大的基于Transformer的模型能够广泛地应用，该模型能够合并鼠标轨迹。(c) 实验设置表明，本地化叙述可以用来衡量这项任务的进展。(d) 实证图像检索结果表明，显着的准确性增益时，用户被赋予的能力指向哪里。2. 相关工作图像检索的查询模态。与我们的工作最接近的是基于文本的图像检索（下面将详细讨论），其中自然语言描述作为图像检索系统的输入。我们在空白画布上绘制鼠标轨迹来增强输入，以表达内容应该出现在图像中的位置。其他作品也增加了文本查询与一定的结构，表明在哪里，无论是限制到一个封闭的词汇表[28，48，25，19，61，30]或衍生的自动化。cally从自然语言描述[35，38，63，72]（本身具有挑战性[77，41，79]）。相比之下，我们的鼠标轨迹覆盖所有单词，并作为输入绘制。在空画布上绘制草图[62，66，43，2，81]也被用来表示对象类别的抽象。我们认为，用自然语言表达“什么”比画草图（例如，“什么”）要直观得多，也快得多比较使用在基于内容的图像检索中，查询是图像，并且目标图像描绘（i）相同对象[83，58，53，21]，通常从另一视点，在一天的另一时间等。（实例级）;或（ii）同一类别的另一个对象[5，64，52]（类别级）。还可以添加一些描述对输入图像的期望修改的自然语言文本[22，69，11]。然而，按图像查询是一种表达用户想法的相当不灵活的方式，因为它已经固定了内容（内容和位置）。我们相信，我们的查询模态最有效地利用了自然语言和鼠标轨迹：前者用于自然而快速地表达细粒度的what，后者用于有效而直观地指定where。12138一个女人坐在草地上旁边的植物与篮子。她戴着一顶帽子。在背景上我们可以看到许多树。这是天空中的乌云。本土化叙事一个女人坐在草地上旁边的植物与篮子。她戴着一顶帽子。在背景上我们可以看到许多树。而这天空中有厚厚的云。查询目标图像图3：本地化叙述注释（左）可以通过使用鼠标轨迹转换为图像检索的训练和测试数据（右），就像它们是在空白画布上绘制的一样，形成查询的一部分。一种基于字幕的图像检索方法。我们专注于最相关的作品，以我们的，鉴于大量的文献[84，9]。典型的方法学习图像和文本的深度表示，融合它们，并对融合的表示进行评分为此，各种因素对检索性能有贡献[3，7，24]研究这些因素的影响。具有后期融合的卷积和递归神经网络在早期的作品中很受欢迎[70，32，29，33，54，55]。47，17，26，82]，而最近的作品使用变压器[44，39，12，46，80，50，49]、图神经网络[40，73，15]或具有更复杂的交叉模态交互的架构[37，74，6]。后者经常利用基于区域的“bottom-up” visual features [此外，探索多个损失，通常需要图像-文本三元组和硬负挖掘[71，17，16，51，82，76，8]。最后，具有大规模图像-文本数据源的预训练图像检索系统已被证明是非常有益的[20，44，40，39，12，57，4，59，27]。我们的基础图像-文本匹配模型（Sec. 4）遵循最近的工作[44，39，12]，该工作使用具有基于区域的Faster R-CNN视觉特征[60]的变压器[68]，在VisualGenome [35]上训练。此外，我们探索了概念标题[65]，跟随[44]和本地化叙述[56]作为额外的预训练数据源的使用。最后，我们采用后期图像-文本融合[32，17]，这是由于其在使用大规模预训练数据和具有大批量大小的对比学习[4，59，27]的场景中的简单性，可扩展性和基于早期融合的方法的有效性。建立在我们强大的基于标题的图像检索系统之上，我们通过框表示连接文本标记和图像区域的方法（Sec.4、图中的橙色框。4）很大程度上受到位置/位置嵌入的启发，这些嵌入在计算机视觉和NLP社区的最近工作中得到了广泛的使用[68，14，44，56]。3. 新建查询模态说明. 我们提出了一种新的查询模式，图像检索中，用户提供了一个空白的画布上的鼠标轨迹和自然语言的描述，彼此同步。这允许用户无缝地指定他们想要什么（通过语言）和他们想要它的位置（通过鼠标轨迹，图2）。①的人。我们认为，指向是一个更自然的手段，考虑到用户的空间偏好比现有的2）的情况。What+Where图像检索设置。作为第二个贡献，我们构建了什么+哪里图像检索的设置，并利用最近的本地化叙事[56]数据集来实现此目的。它是图像-字幕对的集合，其中每个字幕词通过鼠标轨迹段在图像中接地（图1）。3左）。他们获得的注释者描述的图像与他们的声音，同时移动他们的鼠标在他们所描述的对象。我们通过如下为每个本地化叙述形成查询-图像对，将原始本地化叙述转换成用于图像检索的我们首先剥离图像，只保留标题和同步的鼠标轨迹，就好像它是在空画布上绘制的一样这就形成了我们的输入查询。然后，我们将底层图像放入数据库中，形成该查询的预期目标（图1）。3右）。在本文的其余部分中，我们描述了可以在此设置中操作的图像检索模型（第2节）。4），然后实验表明，这导致更准确的结果，相对于用户的意图（第4节）。（五）。4. 技术模型在本节中，我们描述了一种方法，该方法使强大的图像检索系统能够在what+where设置中操作（第（3）第三章。我们首先描述了我们的基础图像检索系统的基础上，图像-文本匹配（二。4.1）。然后我们12139Multi-Head Self Attention + FFNIREIRE IRE IRETTETTETTE TTE TTETTETTETBE TBETBETBE TBETBE[CLS]站在钟不是 t人没有站没有受到层规范FFN图像区域嵌入器IRE位置感知令牌嵌入转换后的令牌嵌入+工位埋共享查找表位置感知的语义特征FFN嵌入语义特征+嵌入式位置功能代币嵌入层规范FFN层规范文本令牌嵌入器TTE位置感知轨迹嵌入FFN转换后的轨迹嵌入+工位埋共享查找表语义特征全球ResNet-152或区域FRCNN位置特征FFN跟踪位置嵌入跟踪框嵌入器项目x最小项目x最大项目y最小投影最大投影面积投影x最小值投影x最大值项目最小值投影面积TBE线性线性y最小y最大区线性线性Xminx最小x最大XMaxy最小y最大值区域相似性分数融合合并+FFN合并+FFNL xM x图4：模型：我们的模型使用转换器执行文本标记表示（蓝色）和框表示（橙色）的早期融合。类似地，模型嵌入全局和区域图像嵌入（黄色）。在后期融合期间，该模型组合两个流，并计算图像嵌入和文本+痕迹嵌入之间的相似性得分。建议修改以边界框的形式纳入额外的输入（Sec.4.2），并显示我们如何从鼠标轨迹段（第二节）得到它们。4.3）。4.1. 基本图像检索模型在许多以前的工作（第二。2）将标准的基于文本的图像检索问题转化为学习图像-文本匹配问题。让我们用x=（x1，. . .，XN）表示图像的特征向量的集合（例如，的其中f、g和p分别是图像塔、文本塔和图像-文本融合器。每个塔将一组特征向量减少为固定长度的向量，并且融合器将它们组合以产生最终分数。在本文中，我们选择点积作为图像-文本融合器p，并使用对称批量对比度损失进行参数估计，将大小为B的批次内的所有其他图像-文本对作为反例：CNN的输出或在IM上运行的对象检测器。age）和y =（yi，. . . ，yK）特征向量的集合L=1（L2x→−y +Ly→−x ）（2）表示文本（例如，随机或预先训练的字符ΣBexp（s（a（i），b（i）ter/子字/字段/文本标记的字嵌入）。我们在实验中固定N和K，并使用填充La→−b=对数ΣBij=1（三）e×p（s（a（i），b（j）并根据需要进行掩蔽。我们的基础模型学习一个相似度函数在训练时，我们学习f，g和p从图像-文本对的集合中。在测试时，给定.Σ′s（x，y）=pf（x），g（y），（1）查询文本y，我们使用学习的p来计算相似度Multi-Head Self Attention + FFN12140y’与数据库中的每个图像x之间的得分然后，我们输出所有数据库图像的排名排序的分数，这代表我们的检索结果。图4（没有跟踪输入和跟踪框嵌入器，用橙色表示）说明了我们的基础模型。我们采用双流模型，其中图像塔F和文本塔G不共享权重。每个塔由三个组件组成：（i）嵌入器，（ii）上下文化器，和（iii）池化器。两个塔都使用6层Transformer架构[68]用于（ii）和平均池（iii）。我们使用香草架构，其中每个Transformer层由多头自关注和前馈全连接网络组成。我们建议读者参考[68]以了解有关Transformer架构的详细信息。下面，我们描述每个塔的第一个组件。图像区域嵌入器（IRE）。IRE的输入是表示整个图像（CNN输出）或图像的区域（对象检测器的区域输出之一）的固定长度特征向量。IRE将这些特征向量中的每一个变换成嵌入式语义特征向量，并且将框坐标（xmin，xmax，ymin，ymax）和框区域的它们对应的5D几何特征变换成嵌入式位置特征。将两者加在一起给出区域的位置感知语义特征向量，其在用作图像Transformer的输入之前经过2层多层感知器（MLP）。文本令牌嵌入器（TTE）。给定表示文本标记（字符、子字、单词等）的固定长度向量，TTE应用2层MLP，并将位置嵌入添加到输出，从而产生位置感知的令牌嵌入。除非另有说明，否则我们将在本文中使用这里描述的作为我们的基本图像检索模型第2节的结尾讨论了我们在先前工作中的建模选择。此外，我们验证了我们的实施是强有力的，实现了36个中的Recall@1。第9号对本Flickr30k上零拍摄图像检索任务[78，55]概念字幕[65]作为预训练数据，优于ViLBERT [44]，这是一种领先的早期融合，更大的模型。4.2. 合并鼠标痕迹我们的高级想法是通过引入跟踪框嵌入（TBE）模块将跟踪注入到我们的基础模型中，该模块的编码1D文本位置和2D图像位置充当文本标记和图像区域之间的粘合剂。给定鼠标轨迹t作为附加输入，我们修改通过将其注入到模型的文本流中，我们在（1与4.1节中的设置类似，在训练时，我们从一组正的图像-文本-轨迹三元组中学习f、h和p的参数。在测试时，给定查询文本y’及其对应的查询轨迹t’，我们使用学习的p来计算（y’，t’）与数据库中的每个图像之间的相似性得分，并输出图像的排名。请注意，我们的设置假设在训练和测试期间都存在痕迹，因为我们设想这些新的图4描述了我们的完整模型，其中4.1节中描述的组件没有改变。额外的分量，鼠标轨迹输入t，由轨迹框嵌入器（TBE，图1的右下4），如下所述，然后将其与文本查询融合。跟踪框嵌入器（TBE）。类似于IRE的位置输入，使用由坐标和面积（Xmin，X min）组成的5D向量来表示轨迹框中的每一个。xmax，ymin，ymax，area）。因为这些盒子对应于部分的文本查询，他们也有一维时间的概念在查询中定位“位置”。因此，我们将位置嵌入添加到经变换的迹线嵌入向量，从而产生位置感知（视觉上）和位置感知（文本上）两者的迹线嵌入向量。融合文本和痕迹。我们将TTE（Sec. 4.1）和TBE，并将结果用作文本跟踪Transformer的输入。我们相信这既简单又强大，因为Transformer自我关注层允许文本标记和跟踪框自由地相互关注。注意，正是文本和轨迹的这种早期融合能够对图像中期望查询的某些部分相关的地方进行建模。4.3. 从鼠标轨迹到边界框本地化叙述注释使字幕中的每个话语与鼠标轨迹段相关联，这将话语置于图像上。换句话说，它定义了图像中来自话语的语义内容（什么）所位于的粗略位置（哪里）。特定话语的鼠标轨迹段对应于鼠标遍历的图像点序列在注释者说出话语的时间间隔（t1，t2我们观察到，鼠标轨迹周围的时间，当一个话语被说出仍然可以指同一个话语，所以我们探讨添加时间填充tp以更好地定义轨迹段。也就是说，我们认为.时间间隔（t1− t p，t2+ t p）中的Σ跟踪段。s（x，y）=pf（x），h（y，t），⑷其中h是文本跟踪融合器/嵌入器，并且f和p与（1）中相同。当我们的模型输入定位查询的图像（图4），我们转换鼠标轨迹段，以框。我们从最紧的盒子开始（图）。5，yel-low），它完全包含由12141图片说明：[...]在冰箱后面，我们可以看到[…]鼠标轨迹：鼠标轨迹段：时间填充：空间填充：“冰箱”的最后一个盒子：图5：从鼠标轨迹段到它的框：我们首先沿着时间维度延长鼠标轨迹段（绿色），然后添加空间2D 填充（蓝色）。阶段数据集大小#Tok/cap主要Flickr30k LocNar31，783五十七1预训练预训练概念字幕（列车）Open Images LocNar（train）3 .第三章。3米小行星507K10个。3三十五5表1：我们实验中使用的主要数据集。LocNar是LocalizedNarratives的缩写。#tok/cap是每个标题的平均令牌数羊角面包vs. food），而OID LocNar中的描述风格更类似于我们的目标任务Flickr 30 k Loc- Nar。此外，OIDLocNar中存在的鼠标轨迹使我们能够在预训练期间探索合并轨迹（使用第二节中的模型）。4.2）。时间段（t1-tp，t2+tp），我们通过一定的空间填充sp在所有维度上放大它（图2）。5，蓝色）。5. 实验5.1. 设置概况.我们的实验的主要目标是测试是否将鼠标的痕迹到查询提高图像检索的准确性。我们将在多个场景中测试这一假设，包括几个视觉和语言预训练设置，灵感来自[44，45，39，12]。数据集。表1总结了我们实验中使用的主要数据集。我们使用一个数据集作为我们的主要任务，多个评估集和两个数据集作为预训练数据源。对于主要任务，我们使用 Flickr30k Localized Narratives （ Flickr30kLocNar）[75]。这与Flickr30k的31783张图片相同，但是我们使用了本地化的Narratives标题和它们的同步鼠标轨迹，而不是没有鼠标轨迹的原始标题我们在训练分割（29，783张图像）上训练或微调我们的模型，在验证分割（1，000张图像）上执行模型选择，并报告我们在测试分割（1，000张图像，第二节）上的定量结果。5.2）。我们进一步评估Flickr 30 k的不同分割和两个域外数据集： COCO 本地化叙述（ COCOLocNar ）和 ADE 20 K 本地化叙述（ ADE 20 K Loc-Nar）[75]，无需额外微调（第5.3）。对于预训练，我们使用概念字幕（CC）[65]和开放图像本地化叙事（OID LocNar）[75]的训练分割。前者包含3。从网络上收集了300万对（图像，替代文本）。后者是Open Images数据集[36，34]中900万张图像我们使用这些注释来预训练我们模型的图像和语言分支（图1）。4）. 我们探索了两个预训练数据源，因为它们具有互补的优势：CC具有语义上更具体的术语的规模更大（例如，设置.我们考虑从头开始（无预训练）设置和多个预训练设置：（i）仅在CC(ii)仅在OID LocNar上（具有和不具有鼠标轨迹），以及（iii）在CC上，随后是OID LocNar（具有和不具有鼠标轨迹）。设置（iii）基于我们的直觉（这将在实验中得到验证），OID LocNar的域更接近于Flickr30kLocNar的域。在这些设置中的每一个中，我们然后将模型的检索性能与纯文本查询进行比较（Sec. 4.1）与文本+跟踪查询的模型（第4.2）上的Flickr30k LocNar。请注意，当涉及到预训练时，我们使用所有可用的预训练权重并随机初始化其余的权重（例如：当在预训练期间不使用鼠标轨迹时的TBE权重评估指标。我们使用Recall@K（对于K= 1，5，10，表示为R@K）：当使用其对应的文本（+trace）作为输入查询时，测试集中目标图像落在模型输出排名的前K内的图像的百分比。我们还在主要实验中报告了平均精度（mAP）。由于我们观察到与R@K一致的趋势，因此我们在其他实验中关注R@K实作详细数据。我们使用子标记和随机嵌入来表示xt单元（例如我们使用的词汇量为10，000。我们用两种类型的特征表示图像：ResNet 152 [ 23 ]的2048 D全局特征向量和Faster-RCNN [60]在Visual Genome [ 35 ]上训练的前16个区域特征向量，具有ResNet 101骨干[23]。我们的框坐标和区域的面积用0和1之间的相对数表示，使得5D位置因此，整个图像的信息xmin，xmax，ymin，ymax，并且area为0。0，0。0，1。0，1。0，1。0，分别。我们将这两组特征连接起来，并对16个区域向量进行置换在训练期间。我们使用Adam [31]和对比学习将每批中的所有其他图像-文本对视为否定（Sec.4.1）。我们调整初始学习率，但始终使用20个epoch的线性预热，并将学习率乘以0。每25个纪元95次。12142场景回忆@K=1510地图预训练？查询文本63.5 87.4 92.874.0文本+跟踪68.2 88.8 94.477.7C文本83.4 97.6 98.589.7C文本+跟踪90.6 98.2 99.494.0表2：主要结果。在Flickr30k LocNar 1K测试集上的图像检索性能。表4：零发射图像检索性能的Flickr30k LocNar 1K测试集。最好与表3一起查看。评估数据查询回忆@K=1510地图ADE20K文本47.4 73.8 84.659.5文本+跟踪60.3 84.1 90.770.7Coco文本73.7 94.3 97.682.5文本+跟踪82.4 96.6 98.488.7表3：使用不同数据源和查询方式进行预训练会影响Flickr30k LocNar 1K测试集上的图像检索性能。5.2. 主要结果表2比较了使用纯文本查询和使用文本+跟踪查询的模型在Flickr30k LocNar上的图像检索性能，即我们的新what+where设置（第二节）（3）第三章。无论我们是否执行预训练，包含鼠标轨迹（“where”）都会导致绝对R@1的显著增益：+4。7%没有预先训练（第1行vs. 行2）和+7。2%（第3行vs.第4行）。总的来说，当我们预训练并将轨迹注入到我们的模型中时，获得了最好的结果;我们比基线模型提高了绝对值+27。1%，+10。8%，+6。在R@{1，5，10}中为6%，并且为+20。0%（第1行vs.第4行）。我们的研究结果表明，顶部检索的图像将更加准确，如果用户得到此外，预训练和我们的新查询模态是互补的：使用纯文本查询模态进行预训练的主要好处是改善5.3. 详细结果和消融研究预训练数据源。在表3中，我们观察到OID LocNar优于CC作为该任务的预训练数据源，支持我们的直觉，即OID LocNar的域更接近于Flickr30k LocNar的域。然而，当不涉及痕迹时，它们是互补的预训练查询模态。在表3中，当在预训练和最终阶段期间使用文本+轨迹时，观察到预训练的最大益处;在OIDLocNar的情况下，这导致90的最佳R@1。六、当这是不可能的（即预训练数据不附带表5：域外评估。ADE20K LocNar值（2K图像）和COCOLocNar值（5倍1K图像的平均值）的图像检索性能。尽管在CC中使用文本+跟踪），但当在最后阶段使用文本+跟踪时，我们仍然观察到R@1的显著改善。这表明，文本+跟踪查询通常更优越，在预训练场景中稳健地工作。零拍摄图像检索。我们测试我们的模型时，他们还没有看到任何图像的测试域（Flickr 30 k Loc- Nar），即。仅在预训练数据上进行训练，并在 Flickr30kLocNar测试集上进行评估（Tab.4）. 结合表3，我们可以看出，在所有情况下，对Flickr30k LocNar进行微调都是有益的值得注意的是，CC模型的零触发性能远低于在OID LocNar上微调的零触发性能，这表明概念字幕和本地化叙事风格数据集之间存在很大的领域差距。域外求值。我们采用最好的纯文本和文本+跟踪模型（ Tab.2 ）按原样并在两个额外的数据集 ADE20KLocNar和COCO LocNar上评估其性能（未对其训练集进行微调，Tab.（五）。文本+跟踪模态仍然远远优于纯文本模态（+12。ADE20K为 9%，+8。在COCO上的R@1中为7%）。我们强调，这些数据集与训练集（Open Images和Flickr30k）处于不同的领域。因此，我们的改进不能简单地通过在训练域上过拟合来实现。统计学显著性。我们重新分割Flickr30k LocNar的训练和测试子集的联合（保持val完整），然后重新训练和重新评估我们最好的文本+跟踪模型（选项卡中的最后一行）。2）的情况。在5次重新拆分后，R@1为90。6%±0. 9，这表明我们的增益+7。2%，在统计学上非常显著。仅跟踪查询模态。在选项卡中。6，我们的仅跟踪查询实现了14的R@1。5无预训练（行3）。与text+trace和纯文本查询预训练数据查询回忆@K=1510CCOIDLocNarCC−→OIDLocNar文本texttext21.0 42.2 54.079.0 95.7 98.379.1 95.7 97.9OID LocNarCC−→ OID LocNar文本+跟踪文本+跟踪88.0 97.7 99.186.7 98.0 98.8预训练最终查询回忆@K=1510数据查询CC文本文本74.293.996.2文本文本+跟踪79.595.197.8文本文本81.597.699.0OID LocNar文本文本+跟踪83.997.198.5文本+跟踪文本+跟踪90.698.299.4CC−→OID LocNar文本文本83.497.698.498.512143(a) 查询：标题+鼠标轨迹（我们的）在这张照片中，我们可以看到一个人骑着马。在背景中，我们可以看到围栏，广告，人，帐篷和树木。检索到的图像排序在这张照片中，我们可以看到一个人骑着马。在背景中，我们可以看到围栏，广告，人，帐篷和树木。(b) 查询：标题图6：定性结果：我们最好的方法（a）与没有跟踪监督的方法（b）之间的比较。绿色表示与左侧查询对应的目标图像。图像文本微量回忆@K=1510semlocTokPOSCCCCC68.288.894.4CCCC63.587.492.8CCC14.531.742.7CCCC66.889.494.5CCCC65.187.893.9表6：检索组件对Flickr30k LocNar 1K测试集上的图像检索性能的益处。图像特征由语义（sem）和2D位置（loc）嵌入组成文本特征由标记（tok）和1D位置（pos）嵌入组成。参见第关于这些部件的细节，参见图4和图4(Row 1-2），这表明虽然文本起着主要作用，但这两个元素对于实现强大的性能都很重要位置和位置嵌入。表 6 还 investi- gates 的 1D 字位置（TTE）和2D图像区域位置（IRE）嵌入，这两者都是连接到TBE图4的好处。我们发现它们是重要的，因为它们的缺失导致顶部检索图像的退化（第1行与第2行）。行4-5）。在空白的画布上画出痕迹。模拟所有现代文本到图像检索的作品，利用图像captioning数据集，我们的实验是有限的事实，我们的跟踪查询绘制，而注释者正在寻找在目标图像。如果这些痕迹是画在一张空白的画布上呢我们从Flickr 30 k Loc- Nar测试集中选择7个图像，在这些图像上，我们最好的文本+痕迹模型在最高排名中检索到然后我们让一个注释者简单地看一下这7张图片，然后在一个空画布上为每张图片画一条轨迹，同时阅读原始标题（没有看到图像）。在这种情况下，我们的文本+轨迹模型在7种情况中有6种情况下检索到正确的图像，这表明即使轨迹与图像区域不完全对齐，我们的模型也可以保持高精度架构在补充材料中（Sec. B），我们实验了文本（M）和图像的层数(L)我们的模型的Transformer编码器（图.4）. 我们发现，文本+跟踪查询模态的好处超过文本-只有一个概括到我们所有的消融研究。定性结果。图6显示了定性结果，比较了文本+跟踪查询的最佳模型和纯文本查询的最佳模型。注意，围栏和广告的确切位置允许模型区分具有非常相似内容的图像更多定性结果见图2和补充材料（第2节）。C）的范围内。6. 结论在本文中，我们提出了一种新的查询模式，基于内容的图像检索系统中，用户描述所需的目标图像的特性，同时使用口语的自然语言（“什么”）和鼠标轨迹在一个空的画布（“在哪里”）。我们提出了一个图像检索模型，这种新型的多模态查询作为输入。我们使用Localized Narratives训练和评估我们的模型，其中标题及其相应的鼠标轨迹用作输入查询，相应的图像作为目标。我们的实验评估表明，这种查询方式提供了一个43%的相对错误率下降的顶部图像相比，只使用基于文本的查询模型。12144引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。三个[2] 图比，莱昂纳多·里贝罗，莫阿西尔·庞蒂，约翰·科洛-莫斯.画出细节：使用具有多级回归的卷积神经网络的基于草图的图像检索。计算机图形，71：77-87，2018。二个[3] Andrea Burns、Reuben Tan、Kate Saenko、Stan Sclaroff和Bryan A.普卢默语言特征很重要：视觉语言任务的有效在ICCV，2019年。三个[4] Soravit Changpinyo、Piyush Sharma、Nan Ding和RaduSoricut。概念12 M：推动网络规模的图像-文本预训练，以识别长尾视觉概念。在CVPR，2021年。三个[5] Ken Chatfield，Karen Simonyan，and Andrew Zisserman.使用convnets和gpus进行有效的即时类别检索InACCV，2014. 二个[6] Hui Chen，Guiguang Ding，Xudong Liu，Zijia Lin，JiLiu，and Jungong Han. IMRAM：迭代匹配与复发注意记忆的跨模态图像-文本检索。在CVPR，2020年。三个[7] 陈嘉诚，胡鹤翔，吴昊，姜宇宁，王长虎。学习视觉语义嵌入的最佳池化策略。在CVPR，2021年。三个[8] 陈天朗，邓家军，罗杰波。用于图像-文本匹配的自适应在ECCV，2020年。三个[9] Wei Chen，Yu Liu，Weiping Wang，Erwin Bakker，Theodoros Georgiou，Paul Fieguth，Li Liu，and MichaelS.卢深度图像检索：一个调查。arXiv，2021。三个[10] 陈新蕾，方浩，林宗毅，罗摩克里希纳·韦丹坦，索拉布·古普塔，彼得·多尔，和C.劳伦斯· 齐特尼克。Microsoft COCO 字幕：数据收集和评估服务器。arXiv，2015. 一个[11] Yanbei Chen，Shaogang Gong，and Loris Bazzani.通过视觉语言注意学习的文本反馈的图像搜索。在CVPR，2020年。二个[12] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu. UNITER：统一图像-TEExt表示学习。在ECCV，2020年。一、三、六[13] 赫伯特·克拉克。在物质世界中相互协调。DiscourseStudies，7：507-525，10 2005. 一个[14] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在NAACL，2019年。三个[15] Haiwen Diao，Ying Zhang，Lin Ma，and Huchuan Lu.图文匹配的相似性推理与过滤。在AAAI，2021年。三个[16] 艾薇夫·艾森施塔特和里奥·沃尔夫。用双向网络链接图像和文本在CVPR，2017年。三个[17] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler 。 VSE++ ：用硬否定词改进视觉语义嵌入在BMVC，2017年。一、二、三[18] 作者声明：Brian J.肖尔“Please tap the shape, anywherePsychological science，25（2）：377-386，2014. 一个[19] Ryosuke Furuta，Naoto Inoue，and Toshihiko Yamasaki.高效的交互式空间语义图像检索。Multimedia Tools andApplications，78（13）：187132[20] Yunchao Gong ， Liwei Wang ， Micah Hodosh ， JuliaHocken-maier，and Svetlana Lazebnik.使用大型弱注释照片集改进图像-句子嵌入2014年，在ECCV。三个[21] 阿尔伯特·戈多、乔恩·阿尔玛·赞、杰罗姆·雷沃德和黛安·拉鲁斯。深度图像检索：学习图像搜索的全局表示。在ECCV，2016年。一、二[22] Xiaoxiao Guo，Hui Wu，Yu Cheng，Steven Rennie，Gerald Tesauro，and Rogerio Schmidt Feris.基于对话框的交互式图像检索。NeurIPS，2018。二个[23] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。六个[24] Lisa Anne Hendricks，John Mellor，Rosalia Schneider，Jean- Baptiste Alayrac，and Aida Nematzadeh.解耦的作用，数据，注意力和损失的多模态变换器。arXiv，2021。三个[25] Ryota Hinami，Yusuke Matsui，and Shin再谈基于区域的图像检索。ACM Multimedia，2017年。2[26] J. Huang，V.拉托德

下载后可阅读完整内容，剩余1页未读，立即下载