没有合适的资源?快使用搜索试试~ 我知道了~
带有视觉语言注意学习的图像搜索
1我想要一个类似的,但是把黑色改成粉红色。我想把它做成浅色的花卉图案。基于视觉语言注意学习的文本反馈图像搜索陈延北*伦敦玛丽女王大学yanbei. qmul.ac.uk龚绍刚伦敦玛丽女王大学s. qmul.ac.uk洛里斯·巴扎尼亚马逊bazzanil@amazon.com摘要带有文本反馈的图像搜索在电子商务和互联网搜索等实际应用中具有广阔的给定参考图像和来自用户的文本反馈,目标是检索图像,其不仅恢复输入图像,而且根据给定的文本改变某些方面。这是一项具有挑战性的任务,因为它需要对图像和文本的协同理解。在这项工作中,我们通过一个新的视觉语言注意学习(VAL)框架来解决这个问题。具体来说,我们提出了一个复合Transformer,可以无缝地插入CNN中,以选择性地保留和转换以语言语义为条件的视觉特征。通过在不同的深度插入多个复合变换器,VAL是激励封装多粒度的语义信息,从而产生有效的图像搜索的表达表示。我们对三个数据集进行了深入评估:Fashion200k,鞋和FashionIQ。大量的实验表明,我们的模型在所有数据集上都超过了现有的方法,在处理各种文本反馈方面表现出了持续的优势,包括属性和自然语言描述。1. 介绍图像搜索是计算机视觉中的一项基本任务。它已经成为广泛应用领域的基石,例如互联网搜索[42],时尚检索[34],人脸识别[57]和产品识别[44]。图像搜索中最流行的范例将图像或文本作为输入查询来搜索感兴趣的项目,通常称为图像到图像[15]和文本到图像匹配[12]。然而,这些范例的固有缺点在于,无法根据用户的意图来细化检索到的项目为了克服上述限制,在过去的二十年中已经探索了不同的用户交互信号[61]。其基本思想是将用户反馈*部分工作在亚马逊实习期间完成。(a)…(b)...图1. 给定一个参考图像和用户文本作为输入,我们考虑sider检索新的图像,类似于参考图像,同时改变某些方面的文本指定的文本通常描述参考图像中要细化的视觉内容,例如(a)具体属性或(b)更抽象的属性。改进或发现系统检索的图像项[52,81,70,11,45,28,27,18,79,2,39,16,48,75,17]。大多数这些交互都以文本的形式提供,描述某些属性[18,79,2]或相对属性[45,28,75]以改进或修改参考图像。最近,自然语言反馈[17]被引入作为一种更灵活的方式来传达交互式图像搜索的用户尽管在实践中有很大的潜在价值,结合各种类型的文本反馈的图像搜索仍然是研究不足。在这项工作中,我们调查的任务,图像搜索与文本反馈,这使得用户与系统进行交互,通过选择一个参考图像,并提供额外的文本来完善或修改检索结果。不同于以往的作品,主要集中在一种类型的文本反馈,我们认为更一般的文本形式,这可以是属性的描述,或自然语言表达。这提出了一个更具挑战性的多模态学习问题,需要以不同的粒度对视觉和语言内容进行协同理解-1)。作为视觉和语言交叉的任务,具有文本反馈的图像搜索与其他任务不同30013002大大不同于其他广泛研究的视觉和语言任务,例如图像-文本匹配[12,73,67],图像captioning [24,60]和视觉问题回答[4,60]。这是因为,它独特地需要学习可以联合捕获视觉线索和语言信息以匹配感兴趣的目标图像的复合表示。一个内在的挑战是难以根据给定的文本同时保存和转换视觉内容。例如,当一个文本snip- pet指定的颜色修改(图。1(a)),这意味着其他视觉线索,如轮廓,模式,修剪应该都被保留在检索的项目,只有颜色转换为所需的一个。另一个挑战是学习一种复合表示,这种复合表示可以将视觉和语言内容从粗粒度到细粒度联合起来。由于文本反馈可以传达多层次的语义(图。1),复合表示也被期望捕获多粒度的多语言信息。为了在统一的解决方案中解决这些挑战,我们提出了一种新的视觉语言注意力学习(VAL)框架,该框架通过不同表示深度的注意力学习来融合视觉和语言特征。简单地说,VAL的特点是在CNN内部插入多个复合变换器,以组成视觉特征和语言语义。我们的核心思想是同时学习注意的转换和保存,使得复合特征不仅保存图像中未改变的视觉内容,而且转换为文本所指定的某些内容为了训练我们的VAL,我们设计了一个分层的匹配目标,它激励了对所需的视觉和语义特征的排他性对齐,以进行区分性特征学习。总而言之,我们的贡献有两个方面:• 我们通过一个新颖的视觉语言注意学习(VAL)框架来解决具有挑战性的文本反馈图像搜索任务。VAL的特点是多个复合变压器,组成多层次的视觉特征和语言语义通过注意学习。通过一个层次化的匹配目标,VAL将视觉和语言内容封装为有效的图像搜索的复合表示。• 我们在三个数据集上设置了一个新的最新技术水平:Fash-ion200k、Shoes和FashionIQ。值得注意的是,VAL在处理各种类型的文本反馈方面表现良好,在实际应用中表现出更大的潜力。我们还提出了一个有见地的消融研究,以分析潜在的注意力学到的VAL。2. 相关工作交互式图像搜索旨在将用户反馈作为交互信号来导航视觉搜索。通常,用户交互可以以各种格式给出,包括相对属性[45,28,75],属性[79,18,2],类似属性的修改文本[66],自然语言[16,17],空间布局[37]和草图[76,74,14]。 在现代搜索引擎中,文本是人与计算机之间最普遍的交互,它自然地用来传达具体的信息,阐述用户在这项工作中,我们调查各种文本反馈的图像搜索。由于最近在几个时尚基准数据集上发布了丰富的注释[18,17],我们首次尝试在单轮交互式搜索中考虑更丰富的文本反馈形式,包括属性和自然语言表达。注意机制被广泛采用作为各种视觉和语言任务的重要组成部分,其目的是模仿人类为了引导在图像中注视哪里,空间注意力通常用于在图像区域上分配重要性权重。这有助于为字幕选择信息区域[65,3],或为问答定位相关视觉内容[72,82]。对于视觉和语言领域的注意力学习,通常采用共同注意力[36,41]通过在图像区域和问题词上生成注意力权重来融合视觉和文本内容最近,为VQA提出了几种自我注意力机制[77,13,23,35],其建立在Transformer [64]上以学习模态间或模态内潜在注意力。受此启发,我们提出了一个通用的语义注意学习方案,该方案基于语义特征学习注意交互。与之前严重依赖现成的Faster R-CNN [51]来提取图像区域特征的工作不同,我们的方法避免了对预先训练的对象检测器的依赖,因此可以很好地推广到细粒度的视觉搜索,特别是当图像数据不共享对象检测数据集中的公共对象时。组合学习被认为是构建智能机器的基本功能[29,30]。总体目标是学习包含多个基元的特征编码[38,40,62,49,69]。虽然卷积神经网络(CNN)固有地学习视觉部分的组成[78,5,31],但它们并没有以组合的方式明确地将视觉表示和语言语义联系起来。最近,一些并行的工作[59,56,35]扩展了BERT [9]的预训练策略,以学习潜在的组成表示,这些表示共同表示图像和描述性文本,用于解决VQA,字幕或图像-文本匹配。然而,这些工作主要是修复从检测[51]或识别[71]模型中预提取的图像表示。这不仅限制了它们在某些图像领域的应用,而且导致了整体复杂、繁重的建模框架。我们提出了一种补救措施,通过在CNN内部不同深度注入语言语义。这有效地产生了一个更强大的复合表示与更简单,更轻的建模。3003RRsa我SPchVL有一个肩带和灰色LSTM FC(b)文本编码器转置AiK语义学1×1×`不softmaxQhi wi×hi wio我低层中层高层FCxiFViA我hi×wi×1sa科沃岛我参考图像(d)分层配对vlspxihi×wi×ciFOjaⓈAi Ⓢ低层中层R高层jachA我1×1×ci目标图像(a)图像编码器(c)复合Transformer图2.本文概述了我们的视觉语言学注意力学习(VAL)框架。给定一对参考图像和文本作为输入,我们的目标是学习它们的复合表示,该复合表示专门与目标图像表示对齐。VAL包含三个主要组件:(a)图像编码器和(b)文本编码器(Sec. (3)变压器(第3.1节); 3.2)插入不同的卷积层,组成视觉和语言内容。所有组件都通过(d)分层匹配(第二节)进行协同优化3.3)。符号、、分别代表阿达玛积、矩阵乘法和元素加法。3. 视觉语言注意学习图2呈现了我们的V语言注意力学习(VAL)框架的概述。给定一个参考图像和用户文本作为输入查询,VAL的最终目标是学习一个专门与目标图像表示对齐的复合表示 VAL包含三个组件:(a)图像编码器,(b)用于视觉和语言表示学习的文本编码器;以及(c)多个复合变换器,其以不同的深度将语言语义吸收到视觉特征图中。所有组件都通过分层匹配目标以端到端的方式进行联合优化我们首先概述第二节中的两个3.1,然后在第二节中详细阐述我们的关键成分和模型优化。第3.2节三点三3.1. 表示图像和文本图像表示。为了将视觉内容封装成有区别的表示,我们采用图像编码器,即。一个标准的CNN,用于图像表示学习。由于CNN固有地学习以组成的层次顺序增加抽象的视觉概念[5,31,78],我们推测来自单个卷积层的图像特征不会捕获不同粒度的视觉信息。因此,我们从多个卷积层中提取特征图,以构建一个内置的特征金字塔[33],以实现更具表现力的表示学习。具体地,特征金字塔F由下式获得:包含从低、中、高级卷积层1提取的多级特征图xL、xM、xH。文本表示。为了表示文本的语义,我们利用文本编码器将用户文本T映射到矢量化的文本表示中。形式上,文本编码器被实现为LSTM,然后是最大池化和线性投影层。简而言之,我们首先对文本应用基本的tokenising,然后将token序列输入文本编码器以获得最终的文本表示:t ∈R。3.2. 复合Transformer为了联合表示图像和文本,我们建议转换和保存的视觉特征的语言语义的条件。受transformer [64]在多模态学习[23,35]中的优越性的启发,我们设计了一个复合Transformer,插入CNN内部的多个级别我们的核心思想是通过注意力转换和基于语言学特征的学习来学习图像和文本的复合表示(图2(c)),最终目标是为视觉搜索封装基本的视觉和语言内容,我们将在下面描述。视觉语言表征为了消化来自视觉和语言领域的信息流,首先融合参考图像特征Fr和文本特征t,得到语义语言表示。形式上,对于特征图xi(其中i=L,M,H是特征金字塔中的级别),多CNNθ中的三个不同层次CNN:模态融合是通过与文本的连接来实现的特征t,然后是复合函数Fc,以学习Fr={xL,xM,xH}=θCNN(Ir)融合的多语言特征xi:r r r vlFt={xL,xM,xH}=θCNN(It)t t tXi =Fc([xi,t])(1)这里,Ir、It是指参考图像和目标图像;Fr、Ft是其对应的特征金字塔,每个1参考补充材料了解更多架构细节。我3004VLRRhi×wi×ciVLRVLCVL=⊙SP∈R,A∈R,A∈R;我我VLSP.SPRjasasajasan×nsasaVLRVLVLVLjajaR不nch×chjasasarvlE∈RAi1i∈其中,[·,·]表示连接,其广播在非语言学特征xi上学习的文本以重新校准特征t在空间上匹配图像特征xi的形状;对xi的保留强度。这是有动机的,我我Fc是MLP。这里,输入xr、输出xvl保持为3D特征张量(即,xi,xi∈ R),以确保空间不同的特征图编码不同的语义,例如,col或材料、零件[80]。因此,为了选择性地抑制和突出I中的视觉内容,注意力保留是由于全局池化,信息不会折叠空间矢量在概念上对应于图像部分表示。本质上,这种复合过程与关系网络[53]具有相似的精神,因为参考图像和输入文本之间的成对视觉语言关系在输出xi中空间地形成。在融合图像和文本特征后,R引入以选择性地重用参考图像特征Xi.形式上,一个轻量级的联合注意力是在R语言学特征x以一种挤压和激发方式出现ner [22]以获得对xi的选择性激活:我Σsp=sigmoid(Fsp(cixvl(:,:,j)featurexi,we feedxi 到一个双流模块学习ji ivl vl1小时Σw注意力的转移和保存。自我意识的转变为了自我发现学习转换所必需的潜在区域到区域的关系,我们将语言学特征x iAi=sigmoid(Fch(AiAiAi雅士志我我hi wi Jxi(j,k,:)))VLK我我我通过多头Transformer2.关键在于其中A是高×宽 ×1ich1×1×c i h ×w ×cja通过非本地自我捕捉重要的非本地语言线索Fsp,Fch被实现为h×w,1×1卷积,注意学习这是通过首先投影xi学习空间、通道注意力AiAiAi齐贾是作为查询、键、值(即,Q、K、V):由Ai的联合注意矩阵一个i,哪个dy-Qi=F(xi),Ki=F(xi),Vi=F(xi)动态调节强度以保留参考图像特征xi:其中,FQ、FK、FV被实现为1×1卷积;我我 我oi=Ai阿斯克斯岛(三)Qi,Ki,Vi∈Rh×w×c<$是潜在空间的输出ihi×wi×ci然后,通过将Qi,Ki重塑为其中o ∈R.合成的最终输出Rn×c<$i(n=h×w),然后进行矩阵乘法:QiK iTTransformer是输出的加权和,两个互补的注意力流:oi从Ai=softmax((c)oi=wsaoi+wjaoi(四)其中AiR是自我注意力矩阵,每个元素表示学习转换时的关注强度。该流的输出通过聚集来自潜在表示V的基本信息来更新,随后是线性变换层Fsa:其中,Wsa、Wja是用于控制两个流的相对重要性的可学习标量VAL的复合输出表示为Fo=oL,oM,oH用于图像检索的最终复合特征是在平均池化之后简单o我 =Fsa(Ai(2)3.3. 分层匹配我在哪里hi×wi×ci. 从本质上讲,这种自我关注由于我们的最终目标是使复合输出Fstream学习在xi中形成的成对非本地语言关系之间的非本地交互[68,50]。根据视觉语言学关系,它生成一个注意力掩模来突出对于学习特征变换至关重要的空间长程相互依赖性。共同注意保护。虽然自注意捕获了用于特征变换的非局部相关性,但它没有指定应该如何保留参考图像特征xi以类似于输入图像Ir。为了在IR中保留不变的视觉内容,我们在自我注意流旁边引入了联合注意流。具体来说,这个流包含空间通道注意力和目标图像表示Ft排他地,我们为-模拟一个分层匹配目标,在两级层次结构中形成两个损失,以匹配所需的视觉和语义特征(图1)。(3)详细内容如下。主要视觉视觉匹配。我们引入视觉-视觉匹配作为我们的主要目标,以确保复合特征匹配目标特征具有较高的相似度。形式上,通过L2距离d测量的相似性,施加双向三元组排名损失[10]以在两个特征金字塔Fo,Ft中对齐多级特征图:L、M、HLvv=Li(<$oi,x<$i)+Li(x<$i,o<$i)2我们省略了张量分裂和连接的多头公式[64]“不,不,”irankx<$、、、QKV3005--不`˛t¸X排名(五)国家避免混乱。详情见补充材料。其中Li(<$o,x<$i)=max(0,d(o<$i,x<$i)−d(o<$i,x<$i)+m)3006不nv(a) 初级视觉-视觉匹配(b) 辅助视觉语义匹配通过另一个MLP来获得最终输出。• Film [47]:一种智能线性调制组件。它包含在CNN之后级联的三个Film层的堆栈。文本信息由从RNN中提取的文本特征来表示,以调制每个特征。图3. 两级层次空间中的特征匹配。这里,<$oi,x<$i是特征金字塔F o,F t中i层的平均池特征; m是距离裕度。 我们采用半半哈希挖掘[54]来选择n g ativ e对xi。 Lvv在多层次上约束注意力学习,以激励网络中的多粒度对齐。每级,Li鼓励合成特征i与目标图像特征xi匹配,其距离小于n g at iv e对xi。仿射变换• MRN [25]:多模态残差学习组件。它通过融合CNN和RNN的视觉和文本特征来学习多模态表示。跨模态特征通过三个模块的逐元素乘法和残差学习来获得• TIRG [66]:一种用于图像检索的图像-文本合成方法。它通过以下方式组成视觉和文本特征:t n串联,然后学习门控连接辅助视觉语义匹配。 为了进一步将学习表示与所需的语义,我们介绍视觉语义匹配作为辅助正则化器。当图像被标记有描述性文本(例如,产品描述),以作为培训期间的辅助信息[55,32]。形式上,施加双向三元组排名损失以在共享嵌入空间中对齐投影的视觉特征及其对应的文本特征(图11)。3(b):L、M、H以及用于跨模态融合的剩余连接。讨论在上述方法中,TIRG被提出用于具有类似属性的文本反馈的图像搜索;而其他的则最初用于VQA。然而,与现有的在CNN之后堆叠变换层的方法不同,VAL独特地将复合变换器以多级插入CNN内部以捕获多粒度的多语言信息。此外,VAL还特别具有两个注意流,这两个注意流对语义语言特征进行操作,以选择性地转换和保留视觉信息。Lvs=Li(xi,tp)+Li(tp,xi)以语言语义为条件的特征。 争取公平`吉夫茨 X我秩t`俄罗斯x秩x比较,我们使用相同的方法实现现有的方法。其中L(xi,t)=max(0,d(xi,t)−d(xi,t)+m)CNN,RNN通过双向排名损失训练。Ivpvpvn(六)消融基线。 除了与现有的冰毒相比,在这里,xi∈R是从映射的投影视觉特征,ods,我们对我们的模型进行了几次烧蚀测试通过线性投影Wvs 将 视 觉 空 间 映 射 到 语 义 空 间;tp,tn是双线性的,n例如是双线性的。 Lv本质上通过对齐投影特征及其文本特征来充当正则化器,这可以通过预训练或与Eq. 5以有意义的方式将视觉表示与相应的语义联系起来。4. 实验4.1. 实验装置数据集。为了验证模型(1)Fashion200k使用类属性描述,(2)Shoes和FashionIQ使用自然语言表达。我们在第二节中详细介绍了这些数据集。第4.2节4.3和Sec. 4.4比较方法。为了验证我们的方法在带有文本反馈的图像搜索中的有效性,我们比较了四种代表性的多模态学习方法:• Relationship [53]:一个关系推理模块。它接收从CNN的最后一层提取的特征映射和来自RNN的文本特征,然后是级联和MLP来学习跨模态关系。成对关系被简单地求和和处理• VAL(Lvv):使用主要目标优化的VAL(等式。5),即辅助正则化器(Eq. (6)不使用。• VAL(Lvv+Lvs):通过分层匹配训练的VAL,通过联合训练或预训练使用边信息。• VAL(GloVe):它与VAL(Lvv+)共享相同的结构Lvs),词向量从GloVe初始化[46]。后两个测试赋予我们的VAL模型从边信息和GloVe的先验语言知识。实施详情。我们在Tensorflow中进行所有实验[1]。我们初始化从ImageNet [8]预训练的CNN,并将复合变压器 集 成 到 Shoes 上 的 ResNet-50 [19] , FashionIQ 和Fashion 200 k上的MobileNet [21在自我注意流中,我们将正面的数量设置为2。LSTM [20]是一个具有1024个隐藏单元的层,后面是一个线性投影层,将最大池化的LSTM特征映射到512维的文本特征。我们使用Adam[26]优化器,其恒定学习率为2×10−4,α,β为0.999,1×10−8。批量大小设置为32。等式中的裕度m5,等式。6设置为0.2。由于篇幅所限,更多的网络架构和培训细节在补充材料评估指标。检索时采用标准的评价方法,即:调用@K,简称为R@K。W与把黑色变成粉红色LvvLvs岛x¯i不Xi v粉红不对称tp覆盖敷料3007LLLLL变红为绿将网格更改为亮片把夹克换成背心图4. 在Fashion200k上使用类似属性的蓝/绿框:参考/目标图像。方法R@1R@10R@50膜10.1938.8968.30MRN11.7441.7067.01关系12.3145.1071.45TIRG12.6045.4569.39VAL(Lvv)16.4949.1273.53VAL(Lvv+Lvs)16.9849.8373.91VAL(手套)17.1851.5275.83表1. Fashion200k上带有文本反馈的图像搜索的定量结果。用颜色表示的是用同样的网络和数据得到的结果。总的来说,红/蓝是第一/第二好的。4.2. 时尚200kFashion200k [18]是一个从多个在线购物网站抓取的大规模时尚数据集它包含超过200k时尚图像收集基于属性的产品检索。它还涵盖了各种时尚概念,总词汇量为5,590。每个图像都标记有描述性文本作为产品描述,例如在[66]之后,我们使用大约172k图像的训练分割进行训练,并使用33,480个测试查询的测试集进行评估。在训练过程中,通过比较产品描述(参见补充材料),生成具有类似属性的修改文本的成对图像表1显示了我们与现有方法的比较。我们用相同的网络和优化器复制最好的竞争对手,以进行公平的比较。可以看出,与所有其他替代方案相比,我们的模型展示了令人信服的结果,例如。VAL(vv)优于最佳竞争对手TIRG,R@1的利润率提高了6.4%。我们还观察到(1)VAL(Lvv+Lvs)比VAL(vv)表现得更好,这表明了引入辅助监督以匹配广告语义的优势;(2)VAL(GloVe)的性能与VAL(Lvv+Lvs)相当,这表明使用GloVe词向量是可行的。表2.图像搜索的定量结果与鞋的文本反馈。彩色部分表示使用相同网络和数据获得的结果。总的来说,红/蓝是第一/第二好的。在使用类似属性的文本反馈时并不重要。图4显示了我们在Fashion200k上的定性结果我们注意到我们的模型能够检索类似于参考图像的新图像,同时根据文本反馈改变某些属性,例如。颜色、材质和装饰。4.3. 鞋Shoes [6]是最初从like.com抓取的数据集。它进一步用自然语言标记,以进行基于对话的交互式检索[16]。在[16]之后,我们使用10,000个训练样本进行训练,并使用4,658个测试样本进行评估。除了相关的标题外,还有3,000张带有描述性文本的图像,例如6)用于VAL(vv+vs)中的预训练。由于在合成图像和文本以进行图像搜索时缺少最先进的方法的结果,我们通过在相同的网络和优化器下进行实验来提供该数据集的新基准,以进行全面的比较。表4显示了我们的模型比较器相对于其他替代品的明显优越性。例如,VAL(vv)在R@1中超过最佳竞争对手TIRG 3.89%。我们还注意到在VAL(Lvv+Lvs)和VAL(GloVe)中利用先验语言知识的明显优势,这与VAL(Lvv)中不使用此类知识是一致的。图5进一步显示了我们对鞋子的定性结果。这表明我们的模型能够在自然语言文本反馈中嵌入多个视觉属性和属性来搜索所需的目标图像。更多的定性结果在补充材料中给出。方法R@1R@10R@50Han等人[18个国家]6.319.938.3[65]第六十五话12.340.261.8[43]第四十三话12.240.061.7电影[47]12.939.561.9关系[53]13.040.562.4MRN [25]13.440.061.9TIRG [66]14.142.563.8MRN14.243.663.8TIRG14.843.764.1VAL(Lvv)21.249.068.8VAL(Lvv+Lvs)21.553.873.3VAL(手套)22.950.872.73008LLLL是红色的,顶部有编织图案没有带扣或楔形鞋跟外面有毛图5. 图像搜索的定性结果与自然语言文本反馈的鞋。蓝/绿框:参考/目标图像。方法裙子衬衫托普蒂AvgR@10R@50R@10R@50R@10R@50R@10R@50TIRG8.1023.2711.0628.087.7123.448.9624.93图像+文本拼接10.5228.9813.4434.6011.3630.4211.7731.33[17]第十七话11.2432.3913.7337.0313.5234.7312.8234.72MRN12.3232.1815.8834.3318.1136.3315.4434.28膜14.2333.3415.0434.0917.3037.6815.5235.04TIRG14.8734.6618.2637.8919.0839.6217.4037.39关系15.4438.0818.3338.6321.1044.7718.2940.49VAL(Lvv)21.1242.1921.0343.4425.6449.4922.6045.04VAL(Lvv+Lvs)21.4743.8321.0342.7526.7151.8123.0746.13VAL(手套)22.5344.0022.3844.1527.5351.6824.1546.61表3. FashionIQ上带有文本反馈的图像搜索的定量结果。平均值:在三个类别上计算的平均R@10/50。彩色图表示使用相同主干网络(即CNN,LSTM)和数据。总的来说,红/蓝是第一/第二好的。深颈豹纹紫色,带有扑克牌图案是黄色的,有流苏图6.在FashionIQ上使用自然语言文本反馈的图像搜索的定性结果蓝/绿框:参考/目标图像。4.4. FashionIQFashionIQ [17]是一个基于自然语言的交互式时尚产品检索数据集。它包含从www.example.com抓取的77,684张图像Amazon.com,涵盖三个类别:连衣裙,上衣T&恤和衬衫。在46,609个训练图像中,有18,000个图像对,每一对都伴随着大约两个自然语言句子,描述了参考图像中要修改的一个或多个视觉属性,例如我们使用来自Fashion200k的侧信息作为VAL(vv+vs)中预训练的辅助监督。遵循相同的合成图像和文本以进行检索的评估协议[17],我们使用相同的训练分割并对验证进行评估设置3. 我们报告单个类别的结果,以及三个类别的平均结果4。表3显示我们的模型大大优于其他竞争对手,例如。VAL(vv)超过关系,在R@10中的总体裕度为4.31% 。 我 们 还 注 意 到 VAL ( Lvv+Lvs ) 和 VAL(GloVe)与VAL(vv)相比的性能提升。这再次表明当使用自然语言文本反馈时使用来自辅助语义学和GloVe的图6展示了我们在FashionIQ上的定性结果。它表明,给定句子片段中的多个语义概念,我们的模型可以捕获具体和抽象语义,包括各种时尚元素[63]3FashionIQ中测试集的groundtruth尚未发布。4未发表的最新技术水平使用了各种不同的模型。3009开叉到大腿的不太丰满的裙子是闭合脚趾的蓝绿色麂皮(a) 示例配对低级中级高级(b) 共同关注平均低级中级高级(c) Self-attention图7.注意力可视化。(a)参考图像、作为输入查询的用户文本和期望的目标图像输出的示例对。(b)参加的区域(即沿河道尺度的最大震级),通过多层次的联合关注选择保存;以及所有级别的平均出席区域。(c)中央查询点的自我关注,箭头指示关注的区域。时尚200k605040302010R@1R@10鞋605040302010R@1R@10时尚智商(平均值)6050403020R@10 R@50表4. 注意学习效应的消融研究。比如颜色、轮廓、印花等。我们还观察到,我们的模型可以共同理解全局外观(例如,整体颜色、图案),以及局部细粒度细节(例如,特定的徽标和装饰)用于图像搜索。4.5. 消融研究在本节中,我们进行分析,以了解VAL中的关键成分(即,复合变压器)。我们进行实验的主要目标(方程。5)排除辅助正则化器的影响。自我注意效应和共同关注。到分析了自我注意转换(SA)和联合注意保持(JA)的协同效应,我们将我们的复合Transformer与两个基线进行了比较:(a)除去SA流(即,(b)除去JA流(即,“w/oJA”)-参见补充材料中的图示。对于每个基线,我们删除一个注意流来研究其效果。表4显示了Fash-ionIQ和Shoes的比较。可以看出,我们的VAL确实从SA和JA的互补优势中获益匪浅。这验证了我们的理论基础,即通过对语言特征的注意转换和保留来构成视觉注意力可视化。为了进一步解释VAL在不同的表征深度(即,低,中,高水平),我们在图中通过联合注意和自我注意来可视化被关注的区域。7 .第一次会议。从图7(b),我们注意到,在空间上关注的区域在不同的水平上是不同的这表明联合注意流拾取不同的视觉线索以在不同的深度上保持。从图7(c),我们观察到,多层次的自我注意力的不同关注区域的学习转换,例如,在服装的例子中,低水平的自我关注突出了整体轮廓,而中,高水平的自我关注,图8. 多层次的构图效果注意力集中在大腿部位。总的来说,图。图7显示了我们的模型以不同的粒度捕获视觉线索,以根据语言语义选择性地保留和转换参考图像特征。这表明VAL学习捕捉图像搜索的基本多粒度语言内容。多层次的构图效果。我们通过将VAL(高+中+低)与两个基线进行比较来测试多层次的合成如何帮助表征学习:(a)高,(b)高+中,在高或高+中水平上进行合成。图8显示多层次的合成提高了整体性能。这验证了在不同深度使用复合变换器来捕获多粒度信息的有效性,这也符合CNN学习从较低层到较高层增加抽象的视觉特征的事实[58]。在专注于多模态表征学习的同时,我们的模型也可以与对话管理器集成[16]以进行交互式搜索。5. 结论我们介绍了VAL,一种新颖的方法来解决文本反馈图像搜索的挑战任务。VAL具有多个复合转换器,这些转换器选择性地保留和转换以语义为条件的多层次视觉特征,以获得富有表现力的复合表示。我们在三个数据集上验证了VAL的有效性,并证明了它在处理各种文本反馈方面的一贯优势,包括属性描述和自然语言表达。我们还探索了辅助语义,以进一步提高模型性能。总的来说,这项工作提供了一种新的方法,以及全面的评估,共同推进了使用文本反馈的交互式视觉搜索的研究。鸣谢:我们要感谢Maksim Lapin、Michael Donoser、Bojan Pepik和Sabine Sternig进行了有益的讨论。高高+中44.7947.04高+中+低21.19415.9918.648.9746.6547.25816.4914.2014.949.12高+中高+中+低%高+中高+中+低42.5744.48420.53 22.365.04%%方法时尚200k时尚智商(平均值)鞋R@1R@10R@10R@50R@1R@10不含SA16.346.921.9444.567.8542.33不含JA19.948.821.3143.7413.4342.01Val21.249.022.6045.0416.4950.093010引用[1] Mart´ın Abadi, Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat,Geoffrey Irving,Michael Isard,etal. Tensorflow:一个大规模机器学习系统。第十二届{USENIX}操作系统设计与实现研讨会-第16章,2016年。5[2] Kenan E Ak,Ashraf A Kassim,Joo Hwee Lim,and JoYew Tham.学习属性表示与本地化灵活的时尚搜索。在IEEE计算机视觉和模式识别会议上,2018。一、二[3] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议上,2018。2[4] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。IEEE计算机视觉和模式识别会议,2015。2[5] Yoonge Bengio 等 , 《 Learning Deep Architectures forAI》。Foundations and trends® in Machine Learning ,2009 。二、三[6] Tamara L Berg,Alexander C Berg,and Jonathan Shih.从噪声网络数据中发现黄金属性及其特征. 2010年欧洲计算机视觉会议。6[7] Maurizio Corbetta和Gordon L Shulman。控制大脑中目标导向和刺激驱动的注意力。自然评论神经科学,2002。2[8] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别上,2009年。5[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。在计算语言学协会,2019年。2[10] Fartash Faghri,David J Fleet,Jamie Ryan Kiros和SanjaFidler。Vse++:用硬否定词改进视觉语义嵌入。2018年英国机器视觉会议4[11] Marin Ferecatu和Donald Geman通过心理匹配进行图像类别IEEEInternational Conference on Computer Vision,2007。1[12] Andrea Frome , Greg S Corrado , Jon Shlens , SamyBengio,Jeff Dean,Tomas Mikolov,et al. Devise:一个深度视觉语义嵌入模型。在神经信息处理系统的进展,2013年。一、二[13] Peng Gao , Zhengkai Jiang , Huxuan You , Pan Lu ,Steven CH Hoi,Xiaogang Wang,and Hongsheng Li.动态融合与内部和跨模态注意流的视觉问答。在IEEE计算机视觉和模式识别会议,2019。2[14] Arnab Ghosh 、 Richard Zhang 、 Puneet K Dokania 、Oliver Wang 、 Alexei A Efros 、 Philip HS Torr 和 EliShechtman。交互式草图填充:多类草图到图像转换第 IEEEInternational Conference on Computer Vision ,2019。2[15] AlbertGordo , JonAlmazan'n , JeromeRevaud ,andDianeLar-lus.深度图像检索:学习图像搜索的全局表示。在2016年欧洲计算机视觉会议上。1[16] Xiaoxiao Guo,Hui Wu,Yu Cheng,Steven Rennie,Gerald Tesauro,and Rogerio Feris.基于对话框的交互式图像检索。在神经信息处理系统的进展,2018年。一、二、六、八[17] Xiaoxiao Guo,Hui Wu,Yupeng Gao,Steven Rennie,and Rogerio Feris. Fashion IQ数据集:结合边信息和相对自然语言反馈进行图像检索。arXiv预印本arXiv:1905.12794,2019。一、二、七[18] Xintong Han , Zuxuan Wu , Phoenix X Huang , XiaoZhang , Menglong Zhu , Yuan Li , Yang Zhao , andLarry S
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功