没有合适的资源?快使用搜索试试~ 我知道了~
21250使用预训练的视觉和语言模型对现实生活图像进行图像检索0Zheyuan Liu 1 Cristian Rodriguez-Opazo 2 Damien Teney 2 , 3 Stephen Gould 101 澳大利亚国立大学 2 阿德莱德大学机器学习澳大利亚研究所 3 Idiap研究所0{ zheyuan.liu, stephen.gould } @anu.edu.au0cristian.rodriguezopazo@adelaide.edu.au, damien.teney@idiap.ch0摘要0我们扩展了组合图像检索的任务,其中输入查询由图像和如何修改图像的简短文本描述组成。现有的方法只适用于非复杂图像,限于狭窄的领域,如时尚产品,从而限制了对丰富图像和语言环境中深入视觉推理的研究范围。为了解决这个问题,我们收集了Compose Image Retrieval on Real-lifeimages(CIRR)数据集,该数据集包含超过36,000对众包、开放领域图像和人工生成的修改文本。为了将当前方法扩展到开放领域,我们提出了基于transformer的CIRPLANT模型,该模型利用丰富的预训练视觉和语言(V&L)知识,根据自然语言调整视觉特征。然后通过修改后的特征进行最近邻查找来进行检索。我们证明,通过相对简单的架构,CIRPLANT在开放领域图像上优于现有方法,同时在时尚等现有狭窄数据集上达到了最先进的准确性。随着CIRR的发布,我们相信这项工作将激发对组合图像检索的进一步研究。我们的数据集、代码和预训练模型可在https://cuberick-orion.github.io/CIRR/上获得。01. 引言0我们研究了组合图像检索的任务,即从大型语料库中找到与用户提供的图像-语言对最匹配的图像。与传统的基于内容[38]或基于文本[24,42]的图像检索不同,组合图像检索涉及到视觉和文本两种模态来指定用户的意图。对于人类来说,双模态查询的优势是明显的:一些概念和属性在视觉上更简洁地描述,而其他概念和属性则更适合在文本中描述。0参考图像 目标图像 #1 目标图像 #20修改文本1:“成为一只与它的小狗一样的品种狗奔跑”修改文本2:“地板上有两只相同品种的狗”0图1.从提出的CIRR数据集中进行组合图像检索的示例。输入由参考图像和修改文本组成,模型必须找到一个接近的匹配。一个主要的挑战是视觉方面的内在歧义和不完全规定性。我们的数据集包括具有丰富上下文的开放领域图像,以便促进对这种挑战的研究。0通过语言。通过交叉参考这两种模态,参考图像可以捕捉场景的大致意思,而文本可以指定更细节的细节。挑战在于知道哪些信息是重要的(通常是场景中的一个感兴趣的对象)以及可以忽略哪些信息(例如,背景和其他无关的对象)。然而,现有的数据集在充分研究这个问题方面还不够。考虑图1中的例子。现实生活中的图像通常包含各种尺度上的丰富对象交互。在每种情况下,为了能够快速识别出要保留或更改的相关方面,并在其他地方付出较少的注意力(例如,狗毛的颜色和背景对象),模型必须发展出深入的视觉推理能力,并推断出视觉和语言上的隐含人类协议。然而,现有的数据集仅限于诸如时尚产品[4, 12,13]或合成对象[40]等相对简单的图像内容的领域。我们认为当前的数据集不足以探索上述独特的研究机会。受到这个问题的启发,我们收集了Compose Im-21260基于现实生活图像的组合图像检索(CIRR)数据集。它基于来自NLVR 2[35]的开放领域真实图像集合,我们收集了丰富、高质量的注释,旨在揭示给定查询的参考图像和文本描述的重要方面。与现有数据集相比,CIRR更加强调区分视觉上相似的图像,这提供了更大的挑战,也为研究组合图像检索中的细粒度视觉-语言(V&L)推理提供了机会。我们的数据集还允许对完全标记的子集进行评估,这解决了现有数据集的一个缺点,即它们没有完全标记,因此包含多个假阴性(未标记的图像被认为是负面的)。同时,我们提出了使用预训练语言转换器(CIRPLANT)的组合图像检索,通过利用大规模V&L预训练(VLP)模型[25]的知识将当前方法扩展到开放领域图像。尽管这种预训练模型的优势在许多视觉语言任务中得到了验证[6,25,28],但据我们所知,尚未将其应用于组合图像检索。我们推测其中一个原因是现有的领域特定数据集无法从预训练中获益,预训练使用更复杂、开放世界的图像。此外,为了采用VLP模型进行微调,大多数下游任务被制定为分类任务[6,25]。对于组合图像检索,它需要同时输入参考图像和目标图像。然而,这极大地增加了检索的计算开销,因为模型需要详尽评估每个输入查询与每个候选目标配对,然后才能产生预测分数最高的结果。相反,我们提出保留传统的度量学习流程,其中使用VLP模型共同嵌入输入查询,然后通过ℓ2范数距离与候选图像的特征进行比较。具体而言,我们的设计保持了先前工作[5,8,40]的“以语言为条件的图像特征修改”的目标,同时成功利用了大规模模型中的预训练V&L知识。我们证明了我们提出的模型在现有时尚数据集上达到了最先进的水平,同时在CIRR上优于当前方法。02. 相关工作0图像检索。使用深度学习进行图像检索的现有工作可以根据所考虑的查询类型进行分类。基于内容的图像检索(CBIR)是指仅使用图像查询进行产品搜索[26]、人脸识别[29,34]等。这种设置几乎没有空间进行迭代用户反馈或改进。形成查询的其他可能模态包括属性[13]、自然语言[24,42]和草图[31]。这些都是受到以下因素的启发0更自然的用户体验,但需要更高级的检索机制。Vo等人[40]提出了一种组合图像检索方法,结合了视觉和文本模态。查询由参考图像和描述与该图像的差异的短文本组成。Guo等人[12]展示了这种设置在时尚推荐的狭领域中的潜力。我们的工作侧重于在开放领域中进行组合图像检索,即不仅限于时尚产品。我们特别解决了区分视觉上相似图像的情况,这需要对视觉和语言模态进行更深入、细粒度的推理能力。0组合学习。组合学习的主题在V&L任务中得到了广泛研究,包括视觉问答(VQA)[3]、图像字幕[1,2]和视频检索[41]。目标是产生学习的联合嵌入特征,捕捉视觉和文本模态以及它们之间的相互作用中的显著信息。对于组合图像检索,Vo等人[40]首次提出了一种通过文本控制输入图像特征变化的残差门控机制。Hosseinzadeh和Wang[17]使用来自R-CNN模型[10,32]的基于区域的视觉特征,这些模型最初用于图像字幕[1]和VQA[37]。最近,Chen等人[5]使用了基于Transformer的模型[39],并在图像模型的不同深度注入文本模态。Dodds等人[8]引入了模态不可知标记的概念,他们从“分割”的空间卷积特征和LSTM隐藏状态中获得这些标记。在这项工作中,我们提出了一种利用VLP模型中丰富知识的方法。我们的方法可以基于自然语言修改输入图像特征,而无需在特定任务上开发单体架构。0视觉语言预训练。BERT[7]的成功启发了许多VLP模型的尝试,包括[6, 23, 25, 28,36]。其目标是开发基于大规模图像-文本三元组训练的基于Transformer[39]的模型,以产生适用于各种任务的V&L表示。优势是明显的,不再需要从零开始在特定任务数据集上训练单一模型,不同的V&L任务可以从(通常是)更大规模的图像-文本语料库中学习到的表示开始,并在特定任务上进行微调。受到其他V&L任务的成功启发,我们提议在组合图像检索中采用VLP模型。关键障碍是设计架构以鼓励对图像特征进行受控修改,这与这类模型的传统用法有很大不同。0用于组合图像检索的数据集。大多数现有适用于组合图像检索的数据集是从其他任务中重新利用的[13, 18,40]。图像是成对的21270在类别内部生成文本描述其差异的数据集是通过现有标签自动生成的。这些数据集在视觉上相对简单,只包含简单语言的短描述。CSS [40]使用CLEVR[20]中的几何3D形状的合成图像,配对生成根据对象外观差异的描述。Fashion200k[13]包含约20万张带有属性标签的图像,可以用来组合图像之间的差异文本描述。MIT-States[18]包含不同状态下的实体图像,每个图像都有一个名词和一个形容词标签。形容词可以描述图像之间的有限差异。较新的作品引入了人工生成的描述。Guo等人[11]为Shoes[4]提供了注释,这是一个包含1万个鞋类图像的数据集。Fashion-IQ[12]包含了众包生成的时尚产品图像差异描述。Dodds等人[8]为Birds-to-Words [9]和Spot-the-Diff[19]数据集引入了基准。在本文中,我们介绍了一个解决当前不足的新数据集。我们的数据集是开放领域的,不受限于时尚产品等特定领域[4, 12,13]。我们通过仅将视觉上和语义上相关的图像配对来设计了一个谨慎的收集过程,以从我们的多样图像集合中产生高质量的图像对。我们还解决了虚假负目标的问题,即对于某个输入查询有效但未标记的候选目标图像。以前的数据集由于对每个可能的查询进行详尽标记的成本而未能解决这个问题,而我们的数据收集策略可以缓解这个问题。虽然我们目前的工作中没有使用,但数据集还包含了一组丰富的辅助注释,以澄清在文本查询中未解决的歧义。03. 提出的模型0在本节中,我们首先简要介绍视觉语言预训练(VLP)模型,然后讨论我们对其在组合图像检索任务中的应用。03.1. 视觉语言预训练模型0当代VLP模型受到BERT[7]的启发,BERT是由多层transformer[39]构建而成的。该模型接受可变长度的顺序输入iVLP,其中包括文本序列中的单词w = {w1, ...,wT}、图像中的区域特征v = {v1, ...,vK}以及其他可选的标记。例如,在OSCAR[25]中,每个区域特征后附加了一个与之关联的对象标签l ={l1, ...,lK}。在每个transformer层内,设计了一个多头自注意机制来捕捉顺序标记之间的依赖关系。层级堆叠以关注前一层的输出。在大语料库上进行预训练后,最终的输出表示可以用于任意下游微调任务。0任务,其使用方式因任务而异。尽管如此,下游任务有一些共同的方面。通常,在输入文本序列的开头插入一个分类标记 [CLS] ,它汇总了来自各种模态的信息。然后使用最终的[CLS] 输出进行预测,例如图像分类。03.2. 适应组合图像检索0组合图像检索的任务可以形式化地描述为在一个包含大量图像的语料库 I T ∈ D 中找到与参考图像-文本对 q = � I R ,t �最匹配的目标图像。我们的目标是学习一个文本-图像组合模块,将给定的 � I R , t � 映射到与对应的 I T相同且接近的嵌入空间中。直观地说,这要求组合模块在给定 t 的条件下修改 I R。在这项工作中,我们采用了最近提出的具有最先进性能的OSCAR模型[25]作为组合模块,执行以下映射。0输入序列。我们将OSCAR的输入序列表示为 i VLP = { w ,v },其中我们初始化OSCAR时没有使用可选的对象标签输入 l。然后,我们按照Li等人的方法[25]处理文本序列,但对图像表示进行了以下调整。我们不再包括一组区域特征,而是通过一个在ImageNet上预训练的ResNet[14]模型对图像进行预处理,并从最后的全连接层之前提取特征。然后,我们通过一个(新学习的)全连接层和ℓ2归一化处理这些特征,得到一个单一的图像特征 v = { v 1 }作为OSCAR的输入。这个相同的特征表示也用于候选目标图像的语料库 I ′ T ∈ D,如图2所示。我们选择这种相对简单的设计有两个原因。首先,最近的研究(例如[16])表明VLP模型与图像的非区域特征是兼容的。其次,我们假设使用全局图像特征更容易实现我们的目标,即在给定 t 的条件下修改 I R ,使其与 I T接近。0输出标记。如图2所示,与典型的下游任务不同,我们不使用 [CLS]标记的最终表示作为文本-图像联合嵌入。相反,我们提取与图像特征标记相对应的表示,并将其视为组合的图像-文本特征。这类似于REF[23]的微调,以及VLN-BERT[16]。在这两种情况下,除了 [CLS]之外的标记被用于预测。对于组合图像检索,我们的设计是有意义的,因为transformer模型在输入和输出标记之间包含残差连接。直观地说,参考图像特征通过聚合来自其他单词标记的信息来修改,以产生目标图像特征。 𝑣𝟏 𝑤𝟐 𝑤𝟑 𝑤𝟒… 𝑤𝑻�𝟏 𝑤𝑻 𝑤𝟏 𝜙𝒊�Reference image 𝑰𝐑 𝑣𝟏 𝑤𝟐 𝑤𝟑 𝑤𝟒… 𝑤𝑻�𝟏 𝑤𝑻 𝑤𝟏…Target image 𝑰𝐓Target image 𝑰𝐓… 𝑰𝟏 𝑰𝟐… 𝑰𝟔xx… 𝑰𝒏x21280文本 � -“一个更大的酒吧,里面有更多的人。”0FC + 归一化的ResNet0共享权重0FC + 归一化的ResNet0分词0VLP多层transformer0� � ...0�0� ...0�0图2.(左)我们模型的示意图。给定一对参考图像和文本作为输入,我们的目标是学习一个在文本条件下修改的参考图像特征,使其与目标图像的特征匹配。为了比较参考图像和候选目标图像的图像特征,我们提取ResNet特征,并使用一个共享的全连接层(带有归一化)将它们投影到相同的域中。(右)使用视觉和语言预训练(VLP)多层transformer的图像-文本组合模块的概述。虚线(未完全绘制)表示通过注意力进行特征聚合,学习一个以语言为条件的图像特征修改。0� �0� �0� ��0相似性排序0子集�6图像0(a)形成图像子集(b)形成图像对09对/子集0(c)收集(主要)注释�0“具有更大视野的相似角度照片,描述卧室的装饰”0注释对于给定的子集中的一对是唯一的0图3. 数据收集过程概述。 (a)我们演示了图像子集的构建过程。(b)我们说明了如何在一个子集中选择和形成9个图像对,其中每个箭头都建议从参考图像到目标图像的方向。(c)†表示AMT工人的人类任务。 �表示缓解误报问题的指令。0度量学习。我们使用Vo等人的软三元组损失和ℓ2-范数距离[40],将组合的图像-文本特征与目标图像的特征(正样本)靠近,同时拉开负样本的特征。实质上,给定第i个正样本对�φi,ϕ+i�和所有负样本ϕ−i中的任意负样本ϕ−i,损失计算如下:0L = log[1 + exp(κ(φi,ϕ−i,j) - κ(φi,ϕ+i))],(1)0其中κ是ℓ2-范数距离。在训练中,我们随机采样每对的负样本,并在所有采样的三元组�φi,ϕ+i,ϕ−i,j�上平均损失。04. CIRR数据集0现有的用于组合图像检索的数据集[12,40]包含训练和测试示例,其中q =�IR,t�形成查询,IT是来自大型图像语料库D的(示例)。然而,这些现有数据集有两个主要缺点。首先,它们缺乏足够的视觉复杂性,以便研究组合图像检索中的一个主要挑战,即对重要方面和应该忽略的方面进行微妙的推理。其次,由于无法为每个�IR,t�对的候选图像进行广泛标记,现有数据集包含许多误报。也就是说,对于查询而言,图像I∈D是有效匹配但未标记为地面真实目标IT。实际上,D\{IR,IT}中的所有图像都被视为负面。为了规避这个问题0缺点是,现有的作品选择使用Recall @K来评估模型,并将K设置为较大的值(例如10, 50[12]),从而考虑了误报的存在。然而,这个问题在训练过程中仍然存在。此外,通过设置较大的K值,这些方法实际上是在交换学习详细的文本-图像修改能力。为了缓解这些问题,我们引入了基于真实图像的组合图像检索(CIRR)数据集,其中包括超过36,000个注释的查询-目标对�q =�IR,t�,IT�。与现有数据集不同,我们收集修改文本以区分目标与一组相似图像(解决误报问题),并创建需要仔细考虑视觉和文本线索的具有挑战性的示例。详细信息如下。04.1. 数据收集0我们首先形成图像对,然后通过众包收集相关注释。这些对来自图像子集,如下所述。这种策略在缓解误报问题中起着重要作用(见第5节)。图3概述了我们的数据收集过程。0图像来源。我们使用流行的NLVR2数据集作为自然语言视觉推理的来源[35]。我们选择NLVR2有几个原因。首先,它包含了ImageNet类型[22]中具有合理复杂性的真实世界实体的图像。其次,我们任务的设置要求图像对足够相似,而NLVR2被设计为具有相似图像的集合,涉及1,000个图像。2https://github.com/google/tirg, https://github.com/yahoo/maaf21290同义词集(例如橡子、海堤)。此外,Suhr等人[35]还采用了额外的步骤手动删除非有趣的图像,以确保内容质量。0图像子集构建。我们的任务性质要求具有高视觉相似性的负样本图像集合,否则很容易区分参考图像和目标图像。因此,在形成参考-目标图像对之前,我们构建了多个包含六个语义和视觉相似的图像的子集,记为S = {I1, ...,I6},如图3(a)所示。在这里,为了构建一个子集,我们随机从大型语料库中选择一张图像I1 ∈D。然后,我们使用在ImageNet[22]上预训练的ResNet152[14]图像特征向量,根据它们与I1的余弦相似度将D中的其余图像进行排序。记κi为图像Ii的余弦相似度。然后,我们选择五个附加图像以产生一个相似但多样化的子集,具体步骤如下:首先,我们过滤掉κi ≥0.94的图像,以避免与I1几乎相同的图像。然后对于排名靠前的下一个20个图像,我们贪婪地依次添加每个图像,如果其余弦相似度与上一个添加的图像相差不超过0.002,则跳过该图像。如果无法创建大小为六的子集,则丢弃整个集合。构建完成后,我们进一步过滤收集到的子集,以避免重叠。我们总共从NLVR2中获得了52,732个子集,从中随机选择4,351个用于构建CIRR。0图像配对。在每个构建的图像子集S中,我们抽取出九对图像,如图3(b)所示。我们选择这些图像对具有(1)连续的修改,以便将来训练对话系统;(2)来自同一参考图像的多个结果。0注释。我们使用亚马逊众包平台(AMT)为每对参考-目标图像收集一句修改句子。为了确保在从中选择图像对的同一图像子集中不存在假阴性,如图3(c)所示,我们向AMT工作者展示了该子集中的其余图像,并明确要求他们编写只能导致真实目标图像的句子。我们要求AMT工作者避免主观描述、文本提及、简单的并列比较或仅涉及目标图像的简单描述。在为每对图像收集修改句子后,我们还收集了一些辅助注释,更明确地解决了隐含的人类一致性问题。虽然我们相信这些辅助注释对未来的研究将会有用,但在当前的工作中我们没有使用它们。0数据划分。按照惯例,我们随机分配80%的数据用于训练,10%用于验证,10%用于测试。详细的统计数据见表2。0请参阅补充材料和我们的项目网站,了解有关辅助注释的详细信息。04.2. CIRR分析0我们遵循Suhr等人[35]的方法,通过关键词和句子模式分析各种语义概念的覆盖范围(见表1)。在这里,我们与Fashion-IQ[12]进行比较,这是最受欢迎的、可比较的人工标注数据集。我们观察到CIRR中的句子具有更大的多样性和平均长度,表明广泛的覆盖范围和语言多样性。超过40%的注释是组合性的,这表明句子的复杂性相当高。有趣的是,我们的注释还应该鼓励模型同时关注参考图像和目标图像,通过隐式(行1-4)或显式(行5-6)地提及两个图像的视觉内容。05. 实验0数据集。为了展示模型在利用预训练的视觉与语言知识方面的能力,以及对不同领域图像的泛化能力,我们在两个数据集上评估了我们提出的模型与基线模型和最先进方法的性能。这两个数据集分别是:(1)CIRR,我们提出的用于开放领域组合图像检索的数据集;(2)Fashion-IQ[12],其中包含三个子类型(Dress、Shirt、Toptee)的时尚产品图像,并带有人工生成的注释。我们没有在第2节讨论的其他数据集上进行评估,因为它们要么包含合成图像/注释,要么与Fashion-IQ(例如Fashion200k[13])在领域上相似。0对比方法。对于CIRR,我们使用公开可用的实现2评估以下方法:0• TIRG [ 40]是一种用于组合图像检索的图像-文本组合模型,在多个数据集上证明了其有效性[ 12 , 13 , 18 , 40]。该方法使用门控和残差设计来促进跨模态特征的学习。TIRG有两种设置,一种是在最后的FC层(默认)注入文本特征,另一种是在最后的卷积层(LastConv)注入文0• MAAF [ 8]是专门为组合图像检索设计的具有最先进性能的方法。默认情况下,它将卷积空间图像特征和学习的文本嵌入(使用LSTM [ 15]随机初始化)视为模态不可知的标记,这些标记传递给Transformer [ 39]。我们评估了三种最初报告的设计选择,具有可比较的结果:(+BERT)使用BERT [ 7]预训练的上下文感知词表示,(-IT)在最后的汇聚层中去除文本标记的输出,(-RP)用平均汇聚替换最终的分辨率汇聚。12345678921300语义方面覆盖率(%)示例(这里添加了加粗以示强调)CIRR Fashion-IQ01 基数 29.3 – 只有一只野猪和地面是棕色的。2 加法 15.2 15.7 添加人的脚和一个领子。3 否定 11.9 4.0 †移除椅子,让狗坐在一个开放的盒子里。04 直接寻址 57.4 49.0 † 展示一些柠檬和一杯柠檬水。5 比较和变化 31.7 3.0 相同的计算机,但是不同的饰面和黑色背景。6 比较语句 51.7 32.0 †一个更大的酒吧,上面有更多的人。7 带有连词的陈述句 43.7 19.0 † 移除除了一只鸟之外的所有鸟,并使其面向右边并将食物放在嘴里。08 空间关系和背景 61.4 – 将天空变为蓝色。9 视点 12.7 – 广泛关注所有可用的饼干包。0平均句子长度(单词数)11.3 5.30表1. CIRR和Fashion-IQ [ 12 ]注释涵盖的语义方面的分析。我们还显示平均句子长度(单词数)。† 来自[ 12]。每个示例的图像对显示在下方,带有行号(从左到右:参考-目标)。0图像子集数 图像对数 每个子集的图像对数 图像数0训练集 3,345 28,225 7.54 16,939 验证集 503 4,184 8.32 2,297 测试集 5034,148 8.25 2,3160总计 4,351 36,554 8.40 21,5520表2. CIRR的统计数据。每个参考-目标图像对应一个注释。0为了比较,我们还评估了Vo等人[ 40 ]实现的以下基线:0• 随机(理论):理论上的随机猜测。• 随机(init.ResNet):预训练的ImageNet [ 22]特征,但其他参数的权重随机选择。0• 仅图像和文本:用参考图像或文本特征替换组合图像-文本特征。0•随机图像与文本:在训练和验证期间随机选择图像与文本配对。0•连接:用特征的简单连接替换图像-文本组合层,然后使用带有ReLU的2层感知器。0对于Fashion-IQ,我们还包括以下方法的已发布结果:0• MRN [ 21]使用堆叠的元素逐元素乘积块和残差学习来联合嵌入V&L。0• FiLM [ 30]在CNN的层之后,根据文本特征调节图像特征图。0• Relationship [ 33]通过连接图像和文本特征并在FC层之后构建关系特征来学习联合嵌入。0• VAL [ 5]是专门为组合图像检索而设计的,它采用Transformer来组合多层次的视觉和语言联合表示。对于具有文本描述作为辅助信息的图像,还应用了额外的视觉-语义损失来对齐视觉特征和相应的文本特征。0度量。我们遵循先前的工作,在top-K(Recall @K)中报告检索性能。对于CIRR,我们还报告了召回子集,这是对标准(全局)召回的扩展,得益于我们数据集的独特设计。如前所述,我们的输入查询q =�IR,t�和目标图像IT在数据集中构造,使得IR和IT都从同一图像集S中采样(第4.1节)。我们通过根据模型分数对S\{IR}中的图像进行排名来制定召回子集任务。我们将Recallsubset定义为(测试)示例中目标图像IT在其子集的前K个图像中排名的比例。从概念上讲,Recallsubset可以被视为只考虑同一子集中的图像的召回。其好处有两个:首先,Recallsubset不受假阴性样本的影响,这要归功于我们在数据收集过程中的精心设计。其次,通过选择具有高视觉相似性的负样本批次,Recallsubset可以促进对方法捕捉细粒度图像-文本修改能力的分析。0实现细节。所有实验都在一台配备PyTorch的NVIDIARTX3090上进行。SoTA模型使用其作者提出的默认配置。有关基准训练的更多详细信息,请参阅补充材料和我们的项目网站。对于我们提出的模型,我们使用ResNet152进行图像特征提取。模型使用AdamW [ 27]进行优化,初始学习率为10^-5。我们设置了一个线性递减的训练计划,没有预热。批量大小设置为32,网络训练300个epochs。其他设置保持为OSCAR的默认设置。05.1. 结果0CIRR上的基准比较。表3(行1-13)比较了基准方法和SoTA方法在CIRR上的检索性能,包括召回率和召回子集@K。对于全局召回率,我们注意到TIRG的表现类似TIRG𝑰𝐑𝑰𝐓CIRPLANT𝑰𝐑𝑰𝐓𝑰𝐓𝑰𝐑𝑰𝐓21310Recall @ K 召回子集 @ K (R @5 + R Subset @1) / 20方法 K = 1 K = 5 K = 10 K = 50 K = 1 K = 2 K = 30基准01 随机(理论)0.02 0.12 0.24 1.20 20.00 40.00 60.00 10.06 2 随机(使用ResNet初始化)7.18 25.74 36.91 66.68 20.84 41.02 61.6523.2903 仅图像 13.73 48.46 65.81 89.94 20.93 42.15 63.26 34.70 4 仅文本 3.90 13.17 20.43 49.16 39.69 62.23 78.52 26.43 5 随机图像 +文本 2.99 11.91 19.85 46.97 39.41 62.33 78.71 25.66 6 图像+文本拼接 12.44 40.24 57.52 87.29 23.74 45.12 65.50 31.9907 人类表现† – – – – 86.09 – – –0SoTA08 TIRG [ 40 ] 14.61 48.37 64.08 90.03 22.67 44.97 65.14 35.52 9 TIRG + LastConv [ 40 ] 11.04 35.68 51.27 83.29 23.82 45.6564.55 29.75010 MAAF [ 8 ] 10.31 33.03 48.30 80.06 21.05 41.81 61.60 27.04 11 MAAF + BERT [ 8 ] 10.12 33.10 48.01 80.57 22.04 42.4162.14 27.57 12 MAAF − IT [ 8 ] 9.90 32.86 48.83 80.27 21.17 42.04 60.91 27.02 13 MAAF − RP [ 8 ] 10.22 33.32 48.68 81.8421.41 42.17 61.60 27.37014 我们的模型(无初始化)15.18 43.36 60.48 87.64 33.81 56.99 75.40 38.59015 我们的模型(使用OSCAR初始化)19.55 52.55 68.39 92.38 39.20 63.03 79.49 45.880表3. CIRR上的检索性能。最佳(第二最佳)数字以粗黑色(蓝色)显示。†请参阅我们的补充材料,了解有关人类表现的详细信息。我们还报告了R@5和R Subset @1的平均分数,这更好地展示了模型的整体性能(在第5.1节中讨论)。请注意,R @5考虑了整个图像库中可能的假阴性。由于RSubset不受此类问题的影响(第5节),我们认为R Subset @1更能说明方法的细粒度推理能力。0连衣裙 衬衫 Toptee 平均(R @10 + R @50)/ 20方法 R @10 R @50 R @10 R @50 R @10 R @50 R @10 R @5001 仅图像 4.20 13.29 4.51 14.47 4.13 14.30 4.28 14.20 9.15 2 图像+文本拼接 10.52 28.98 13.44 34.60 11.36 30.42 11.77 31.3321.55 3 TIRG [40] 8.10 23.27 11.06 28.08 7.71 23.44 8.96 24.93 16.95 4 TIRG+辅助信息 [12] 11.24 32.39 13.73 37.03 13.52 34.7312.82 34.72 23.7705 MRN [21] 12.32 32.18 15.88 34.33 18.11 36.33 15.44 34.28 24.8606 FiLM [30] 14.23 33.34 15.04 34.09 17.30 37.68 15.52 35.04 25.2807 TIRG [40] 14.87 34.66 18.26 37.89 19.08 39.62 17.40 37.39 27.4008 Relationship [33] 15.44 38.08 18.33 38.63 21.10 44.77 18.29 40.49 29.3909 VAL(初始GloVe)[5] 22.53 44.00 22.38 44.15 27.53 51.68 24.15 46.61 35.40 10 MAAF [8] 23.8 48.6 21.3 44.2 27.9 53.6 24.348.8 36.6013 我们的方法(无初始化)14.38 34.66 13.64 33.56 16.44 38.34 14.82 35.52 25.17 14 我们的方法(初始化OSCAR)17.45 40.4117.53 38.81 21.64 45.38 18.87 41.53 30.200表4. Fashion-IQ上的检索性能,我们按照[12]的方法报告R @10和R@50的平均分数。SoTA模型的最佳分数以黑体显示。行1-4由[12]报告,行5-9(阴影部分)由[5]报告。行9-10是为组合图像检索开发的SoTA方法,我们报告了其最佳配置的原始发布数字。请注意,我们在Fashion-IQ上看到了TIRG的多个得分报告,这里我们只显示了上述两个来源的发布结果。不包括涉及模型集成或数据增强的其他非同行评审方法。0“棕色的狗坐在绿草地上” “马车在人行道上载着人们穿过城市”0CIRPLANT0图4.CIRR上图像检索的定性结果,红色/绿色框:参考/目标图像。预测按从左到右的顺序排列。我们展示了子集内的排名图像,详见第5节有关指标的详细信息。(左)我们比较了TIRG和CIRPLANT在相同查询上的检索结果。(右)我们展示了数据集中的隐含模糊性(在这种情况下,通过保留狗的品种在图像之间进行选择最合适的候选项的困难,这需要识别细微的特征,例如尖耳朵)。0相对于仅图像的基线,这表明它的多模态组合层通常无法从文本中提取信息。相反,它主要依赖于视觉内容。我们推测CIRR更加关注难以跨模态捕捉和关联的细粒度变化。0因此,需要更强的图像-文本组合层。此外,我们注意到MAAF(第10-13行)在我们的数据集上泛化能力不强,即使在现有数据集上它的性能超过了TIRG和其他方法[8]。我们认为形成图像标记的选择空间特征的选择是原因之一。21320在我们的数据集中,地图不能很好地泛化,因为修改的概念更加多样且存在多个层次。同时,添加上下文感知的BERT预训练权重几乎没有效果,这表明仅包含经过验证的预训练语言信息的词嵌入的普通初始化可能不会帮助组合层。召回子集结果也表明了类似的情况。在这里,所有SoTA模型的性能接近理论上的随机猜测,这表明当前模型无法捕捉到相似图像之间的细粒度修改。有趣的是,我们发现仅包含文本和随机图像+文本的基线(第4行,第5行)明显优于SoTA模型。我们认为这是因为修改句子通常包含对目标图像独特的视觉内容的描述,而这些内容在较小的检索集中是唯一的(例如,“给狗加上一条绳子”,只有目标图像包含绳子)。然而,正如低召回率性能所示,这些描述并不足以在整个图像语料库中单独找出目标图像。这种情况进一步证明了召回子集可以揭示模型在不同方面的行为,并可用于更详细的分析。简而言之,相对较低的检索性能表明我们的数据集对于已经在狭窄领域数据集上开发和测试的现有方法构成了挑战。0CIRPLANT在CIRR上的性能。表3(第14、15行)比较了我们提出的模型与CIRR上的SoTA方法。我们注意到,在CIRR上,没有初始化的CIRPLANT(第14行)在召回率上的表现与TIRG相似,同时超过了所有其他SoTA方法。这验证了我们使用非区域图像特征通过Transformer架构组合图像和文本的设计选择的优势。与使用LSTM生成整个句子的单一语言嵌入的SoTA方法相比,我们认为关键差异在于Transformer接受单词标记作为输入,可以逐个进行关注。我们的模型通过OSCAR初始化(第15行)显著优于所有其他方法,证明了VLP知识在开放领域图像上的好处。0CIRPLANT在Fashion-IQ上的性能。表40将我们的模型与SoTA方法进行比较。我们注意到,我们的模型在使用OSCAR初始化(第14行)时优于大多数方法,包括通用的多模态学习方法和TIRG。这进一步证明了利用VLP模型的Transformer架构的好处。此外,我们注意到,即使在Fashion-IQ上,我们的模型仍然从OSCAR中受益匪浅。0预训练初始化(第13、14行)。鉴于Fashion-IQ中的图像与OSCAR预训练[25]使用的数据差异很大,我们认为这进一步证明了预训练模型可以传递学到的V&L知识并适应各种上下文。我们注意到,最近两种用于组合图像检索的SoTA方法(VAL和MAAF,第9、10行)的表现优于我们的模型。尽管OSCAR初始化带来了明显的改进,但我们假设我们的模型在图像中明显的领域转移方面仍然表现不佳,因为VLP模型是在通用的ImageNet类型数据上进行预训练的。同时,MAAF在CIRR上的低泛化能力(表3第10-13行)暗示了当前在现有数据集上开发和测试的SoTA方法可能过于适应低复杂度的特定领域图像。因此,像CIRR这样的额外开放领域数据集可能对未来的研究有益。05.2. 定性结果0图4(左)展示了TIRG和CIRPLANT在图像子集(见第5节)上相同查询的检索排名。具体而言,我们展示了CIRPLANT在遇到训练数据中较少出现的视觉语言概念(例如,路面)时,预训练的有效性。此外,由于Transformer架构接受并关注每个单词标记,CIRPLANT更好地捕捉了语言中的细粒度线索(例如,“带人们四处走”暗示着“马车后面必须有人”)。我们在图4(右)中展示了CIRPLANT在CIRR上的一个失败案例。请注意,这需要模型识别细粒度的视觉语言线索(例如,这个样本中的尖耳朵)并检索出最合适的图像,给任务带来更多挑战。06. 结论0这项工作将组合图像检索的任务扩展到更复杂的开放领域图像。我们收集了CIRR数据集,该数据集通过更加强调区分开放领域的视觉相似图像来解决现有数据集的不足之处。我们的公开可用数据集旨在促进对视觉语言概念的微妙推理以及对话式迭代检索的未来研究。我们还引入了CIRPLANT,这是一个利用V&L预训练来组合图像和文本特征的基于Transformer的模型。我们在CIRR和现有的时尚数据集上验证了CIRPL
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功