没有合适的资源?快使用搜索试试~ 我知道了~
1011基于附加注意组合学习Yuxin Tian1,Shawn Newsam1,Kofi Boakye21加州大学默塞德分校2Pinterest{ytian8,snewsam} @ ucmerced.edu,kofi@pinterest.com摘要具有文本反馈的有效时尚图像检索将影响一系列现实世界的应用,例如电子商务。给定源图像和描述对该图像的期望修改的文本反馈,目标是通过构成多模态(图像-文本)查询来检索与源相似但满足给定修改的目标图像 我们提出了一个新的解决方案,针对这个问题,使用基于多模态变换器的体系结构并有效地对图像-文本上下文进行建模的附加注意组合学习(AACL)。具体来说,我们提出了一种基于附加注意力的新型图像-文本合成模块,可以无缝插入深度神经网络。我们还介绍了一个新的具有挑战性的基准来自Shopping100k 数 据 集 。 AACL 在 三 个 大 规 模 数 据 集(FashionIQ,Fashion200k和Shopping100k)上进行了评估,每个数据集都有很强的基线。大量的实验表明,AACL在所有三个数据集上都取得了新的最先进的结果1. 介绍图像检索是计算机视觉中的一项基本任务,是时尚检索[41,53]、地理定位[40,58]和人脸识别[56]等有几种方法可以制定搜索查询,例如关键字[2,69],查询图像[64,62],甚至草图[21,34,67,8,9,51]。然而,在传统的图像检索的一个核心挑战是,它是很难为用户细化检索项目的基础上,他们的意图。一系列的方法,在企业用户反馈,以完善检索到的图像进行了探讨.将自然语言反馈与查询图像相结合是一个特别有前途的框架,因为它为用户提供了一种自然和灵活的方式来传达他们心目中的图像修改。在这项工作中,我们研究了图像检索与文本图像检索文本反馈连衣裙是蓝色的,领口更高交互式检索图1:我们考虑检索类似于参考图像的新图像的任务,同时更改文本指定的某些方面。最好用彩色观看。反馈,其中目标是检索与查询图像相似但合并了由文本描述的修改的图像。这种多模态和互补输入为用户提供了强大且直观的视觉搜索体验。然而,作为一个多模态学习问题,它需要视觉和语言内容的协同理解,这可能是一个挑战。虽然带有文本反馈的图像搜索位于视觉和语言分析的交叉点,但它不同于其他广泛研究的视觉和语言任务,例如图像-文本匹配[38,36,70,28],图像字幕[50,47,16] 和视觉问题回答[22,30,12,10]。这种差异源于学习复合表示的重大挑战,该复合表示联合捕获查询图像的视觉内容和伴随文本中的语言信息以匹配感兴趣的目标图像图像-文本组合学习的一个基本挑战是同时从查询图像和文本表示中表征全局概念。例如,当文本描述对查询图像中的衣服的颜色和领口的修改时,合成模块应该捕获转换颜色和领口的概念,但它也应该保留其他视觉概念,例如衣服的装饰和材料(图1)。1012另一个挑战是如何使用捕获的上下文信息选择性地修改查询图像表示,使得其接近潜在空间中的目标图像表示。我们提出了一种新的基于transformer的加法注意组合学习(AACL)模型来解决这些挑战。关键的思想是,我们从联合语言表示中学习上下文向量。AACL然后使用全局上下文向量选择性地修改查询图像标记,使得复合特征保留图像的视觉内容,该视觉内容在根据所附文本变换相关内容时不应被改变。我们在三个大规模时尚数据集上将我们的AACL方法与最先进的(SOTA)视觉搜索方法进行了经验比较,并提供了文本反馈:Fash-ionIQ [23]、Fashion 200k [24]以及源自Shopping 100 k [3]的新挑战性基准。我们表明,我们提出的组合学习方法在所有三个数据集上都优于现有方法。我们作出以下基本贡献:• 我们提出了一种新的多模态添加剂注意层能够学习一个全局上下文向量,用于选择性地修改图像表示在一个有效的方式。• 我们开发了一个完全基于transformer的模型,用于具有文本反馈的视觉搜索的挑战性任务,并通过在几个大规模时尚数据集上的广泛实验证明它实现了最先进的性能• 我们从Shopping 100 k中创建了一个新的图像-文本检索数据集。这个新的数据集具有更广泛的时尚类别和属性,为研究界带来了额外的挑战性基准。2. 相关工作2.1. 基于文本反馈的图像检索具有文本反馈的图像检索已经引起计算机视觉研究界的兴趣一段时间并且进行了许多努力(例如,[5,45,60,7])研究了将图像和文本表示相结合的有效方法可以以各种方式提供文本反馈,包括绝对属性(例如,“red”)[2,69,24],简单的相对属性(例如,“更红”)[48,35,65]或完整的自然语言短语[60,4,29,14,20,55,31]。自然语言是现代搜索引擎中人机交互的首选方法。特别是对于图像搜索,它允许用户以非常自然的方式传达详细和精确的规范或修改。因此,我们专注于基于查询的图像搜索与伴随的自然语言短语。先前用于具有文本反馈的图像检索的方法[4,13,31,20,55]严重依赖于卷积来聚集特征。相比之下,我们是第一种通过注意力有效地学习全局特征以前的工作也依赖于复杂的分层特征聚合[14,29],多种形式的文本反馈[14,4]或多个损失函数[14,29,4]。FashionIQ 2020挑战赛(一项交互式图像检索挑战赛)的获胜解决方案[31,32,54]采用了常见的性能提升技术,如仔细的超级参数调整和模型集成来改善结果。相比之下,AACL专注于图文合成模块的设计,通过特征融合一步实现了最先进的性能,效率更高,更容易适应其他框架。2.2. 图文合成虽然已经有很多的努力和不同种类的方法,提出了实现最高分数的基准标记涉及图像和文本,相对较少的集中在图像-文本组成模块本身。在[33]中,作者提出了一种多模态残差网络(MRN),它通过元素乘法和残差学习融合视觉和文本特征来学习表示。Film [49]利用线性调制成分,其中文本信息通过特征仿射变换修改图像表示。Vo等人提出了TIRG [60],它使用门控机制来确定应通过调节文本修改的图像表示的通道在ComposeAE [4]中,设计了一个复杂的嵌入空间,该空间在语义上将来自文本和图像模态的表示联系起来。最近,MAAF [20]通过模态不可知注意力融合模型改进了多模态图像搜索该模型使用了标准Transformer架构中的点积注意机制。此外,提出了分辨率池化来聚合来自ResNet [25] CNN的细粒度特征。RTIC [55]由一个残差文本和图像合成器组成,用于对潜在空间中源图像和目标图像之间的错误进行编码,并包括一个用于正则化的图卷积网络。我们的工作与这些组成模块的不同之处在于,我们利用一种新的图像和文本组成模块,通过添加注意力[6,46]来建模全局上下文。此外,我们使用元素级产品来建模全局上下文和每个输入令牌之间的交互,这既大大降低了计算成本,又有效地捕获了上下文信息[33,31,63]。2.3. 注意机制注意力的概念最近在神经网络中越来越流行,因为它允许模型从不同的模态中学习表示[33,27,20,14,5,18]。两种最常用的注意力功能是加法[6]和点积(乘法)注意力[59]。1013”P目标图像query image衣服比较少没有侧面开叉,而且裙子更宽图像编码器图像编码器文本编码器池损失加法注意力合成模块添加规范前馈添加规范线性加性自注意图2:我们的加法注意组合学习框架概述。给定一对查询图像和文本作为输入,我们的目标是学习与目标图像表示对齐的复合表示。AACL包含三个主要组件:图像编码器(Sec. 3.1),文本编码器(第3.1节)。3.1),以及一个附加注意力组成模块(第3.2节),可以插入不同的模型进行特征融合。“然而,点积注意力有一个缺点,即它必须注意每个目标令牌的源侧上的所有令牌,这是昂贵的,并且对于较长的序列可能是不实际的。实验表明,在某些情况下,加法注意比乘法注意实现更高的准确性受此启发,我们提出了一个附加的注意力合成模块的特征融合。2.4. 视觉语言(VL)预培训虽然带有文本反馈的图像检索与VL预训练有一些相似之处[57,15,39,68,66,37],但我们工作的重点是不同的。VL预训练的目标是学习跨模态表示,可以通过微调来适应各种下游任务[39]。然而,我们的工作集中在图像-文本合成模块本身,它执行单阶段后期特征融合与图像和文本嵌入从单独的transformer编码器。3. 方法图2展示了我们的附加注意组合学习(AACL)框架的整体架构。给定源图像x和文本反馈t作为输入查询,AACL的目标是学习可用于从图像和文本编码器的输出。在下文中,我们首先在第3.1节中提供两个编码器的概述然后,我们在第3.2节中详细介绍了我们的新组合模块,并在第3.3节中详细介绍了我们的模型优化。3.1. 图像和文本表示图像表示:我们采用Swin变换器[44]来导出图像的视觉内容的判别表示。作为一个Transformer固有地学习视觉概念,增加抽象的组成,层次顺序,我们推测,图像的功能,从最后一层可能无法完全捕获的视觉信息较低的水平。因此,我们将从Swin Transformer的最后(阶段4)和倒数第二(阶段3)层除非另有指定,我们的模型使用这些4998个图像标记,用于多层次图像理解。学习的线性投影将每个图像标记映射到d维,使得最终的图像表示是10xR98d。文本表示:DistilBERT语言表示模型[52]用于编码伴随文本的语义。DistilBERT自然会为输入单词生成m个标记,即模型最后一层的隐藏状态。我们将这些标记连接起来,形成最终的文本表示形式。目标数据库。AACL包含三个关键组件:(1)用于视觉语义表示学习的图像编码器,(2)用于自然语言表示学习的文本编码器,以及(3)根据文本表示修改源图像表示的附加注意力合成模块。与使用多个阶段的特征合成和匹配的其他方法(例如,[14]),AACL在一个阶段中使用最终的3.2. 加法注意力合成模块为了联合表示查询的图像和文本成分,我们寻求转换以语言语义为条件的视觉特征。为了实现这一点,我们提出了一个添加剂的注意力组合模块的特征融合。该模块由多个合成块组成,每个合成块采用附加自注意力来学习上下文向量,然后上下文向量选择性地修改1014P“ř“ÿPHF“L“日志��联合语言表征。这些块的最终输出产生修改后的图像表示,其意图是忠实地捕获输入图像和文本信息。视觉语言表征:为了获得我们的第一个合成块的输入表示,将图像标记x和文本标记t连接起来以获得非语言学表示x,t。最终的表示形式表示为xtRNd,其中N是图像和文本标记的组合计数。加法自我注意层:为了发现学习转换所必需的我们使用附加注意力机制来学习上下文向量c,然后选择性地抑制和突出表示,3.3. 深度度量学习我们在训练过程中的目标是将使用[60]中的基于批次的分类损失来训练模型,因为早期实验表明,三重损失对于Re-call @k度量表现更差。每个批次由N对查询(图像和文本)及其对应的目标图像构成。1个B#exptκ py,oxtqu+iBj屈 Exptκpy,o XT每一个token。 与[63]类似,我们首先使用线性变换层,用于将输入序列变换为隐藏状态:H胡伊岛N. 背景被学习以修改每个标记的向量c被生成为这些标记hi的加权和:Nc“α i h i.(一)其中B是批量大小,κ是相似性核,在我们的实验中实现为点积。4. 实验4.1. 实验装置数据集:我们在三个数据集上评估我们的模型-FashionIQ,Fashion 200 k和我们的修改版本重量i每个令牌hi的αi计算如下:你知道吗?d¯Shopping 100 k-为了验证其泛化到各种自然语言表达的能力。我们在第4.2、4.3和4.4节分别提供了这些数据集的详细信息,αihi是吗?¯,(二)活泼地实施详情:我们使用PyTorch深度学习-其中whRd是在训练过程中学习的,wThj对每个输入标记对全局上下文的贡献进行评分。接下来,为了选择性地抑制和突出h中的视觉内容,引入Hadamard乘积以重用全局上下文信息,这是由其在对两个向量之间的非线性关系进行建模方面的有效性所激励的[61,63,26]。其公式为vic hi。将另一线性变换层o应用于每个令牌vi以学习其隐藏表示。为了形成附加注意力层的最终输出,我们将捕获相关源侧信息的隐藏状态hi添加到变换的潜在特征。加性自注意层的最终输出是:o我hiochi(3)组合块:遵循标准Transformer架构[59],附加注意力组合模块由具有多个头部的L个相同块的堆栈组成。不同的注意头使用相同的公式,但不同的参数,这允许模型共同关注来自不同位置处的不同表示子空间的信息每个块都有一个附加的自我注意层,然后是线性层和前馈神经网络。在这些线性和前馈分量之后,我们还采用了残差连接和层归一化来获得xt的合成图像-文本表示。Transformer [44] 被 用 作 图 像 编 码 器 的 主 干 。Transformer模型使用首先在ImageNet-22 K上预训练的权重进行初始化,然后在ImageNet-1 K上进行微调[17]。我们从模型的第3阶段和第4阶段中提取1024维的令牌序列,然后将令牌投影到d维,对于我们的实验来说是768。我们使用预训练的DistilBERT模型[52]来学习文本嵌入最初的BERT模型是在BooksCorpus(8亿单词)和英语维基百科(25亿单词)上进行预训练的。我们采用3个附加的注意组合块和8个平行的注意头为每个块。对于训练,我们使用SGD优化,学习率为0.035。我们使用4个GPU训练对于FashionIQ,我们采用每10个epoch为0.1的学习率衰减,对于Fashion200k和我们修改后的Shopping100k,我们使用相同的衰减值,但每30个epoch一次,总共100个epoch。我们报告了所有实验的五次试验的平均值和标准差,以获得更有意义的结果。评价指标:在[60,55,20]之后,我们采用了Re-call@K(简称R@K)进行评价,这是检索中的一个标准度量。相对差值表示绝对变化,以基线值的百分比表示。比较方法:我们将AACL的结果与几种方法进行比较,即:Film,MRN,TIRG,Com-(四)jD来进行我们所有的实验。Swin1015表1:FashionIQ上图像搜索与文本反馈的比较。计算所有三个类别的平均R@10/50。* 表示使用与AACL相同的图像编码器和文本编码器获得的结果。衬衫连衣裙上衣连衣裙是深紫色的肩带,它是较长的衣服是更多的黑色设计,它有一个油漆模式衣服是明亮的蓝色,它是无袖的图3:定性结果FashionIQ上的AACL通过比较,我们也复制了最好的竞争对手,只关注合成模块本身。也就是说,我们使用了相同的图像和文本编码器-即Swin Transformer和DistilBERT-以及相同的优化器。在这种情况下,AACL超过了TIRG、RTIC和MAAF,总利润率为3。42%,2. 88%,1。平均R@10分和R@50分分别占41%。 图3展示了我们在FashionIQ上的定性结果。我们为每个查询图像-文本对显示前5个重新检查的图像这些结果表明,我们的模型可以处理复杂的和真实的文本描述。我们还观察到,我们的模型可以共同理解全局外观(例如,颜色伙计数据集。蓝/绿框:查询/目标图像。poseAE、MAAF和RTIC。我们在第2.2节中简要地解释了它们。4.2. FashionIQFashionIQ是一个基于自然语言的交互式时尚产品检索数据集。它包含从Amazon.com抓取的77,684个图像,涵盖三个类别:连衣裙,上衣T恤和衬衫。在46,609张训练图像中,有18,000张图像对。每一对由平均两个自然语言句子组成,所述自然语言句子描述在参考图像中要修改的一个或多个视觉属性,诸如我们遵循与[23]相同的我们报告各个类别的结果,以及所有三个类别的平均结果。表1比较了AACL和其他方法在FashionIQ上的性能。我们观察到,AACL是优于所有报告的结果,由一个大的利润率(上半部分)。AACL甚至优于包括除合成模块本身之外的因素的方法,例如目标图像标题、模型集合和附加联合损失函数[4]。我们进一步注意到,AACL实际上是这些方法中的一些方法的复合体,实际上可以用作它们的复合模块。为了一个同类的交易会里亚尔),以及局部细粒度细节(例如,肩带和领口,袖子的长度),用于图像搜索。4.3. 时尚200kFashion200k是一个从多个在线购物网站抓取的大规模时尚数据集它包含了超过20万的时尚图像收集的基于属性的产品检索,涵盖五大类,即,连衣裙,夹克,裤子,skeleton,上衣。它还涵盖了各种时尚概念,总词汇量为5,590。每张图片都标有与产品描述相对应的描述性文字,如在[60]之后,我们使用172,049张图像的训练分割进行训练,并使用33,480个测试查询的测试集进行评估。在训练期间,通过在运行中比较它们的产品描述来生成具有类似属性的修改文本的成对图像“replace black with blue”表2显示,与其他方法相比,我们的模型取得了令人信服的结果,最值得注意的是R@1,其中AACL以9的相对优势优于最佳竞争对手MAAF。百分之四我们还观察到基于令牌的方法,即MAAF和AACL,比基于残差的方法性能更好。这表明令牌中包含的丰富信息对特征组合是有益的。图4显示了我们在Fashion200k上的定性结果我们的模型能够检索类似于参考图像的新图像,同时改变某些条件属性模型平均R@10R@50R@10R@50R@10R@50(R@10 +R@50)/2MRN [33]15.8834.3312.3232.1818.1136.3324.86电影[49]15.0434.0914.2333.3417.3037.6825.28TIRG [60]16.1237.6919.1543.0121.2147.0830.71ComposeAE [4]9.9625.1410.7728.2912.7430.7919.61MAAF [20]21.3044.2023.8048.6027.9053.6036.57RTIC [55]22.0345.2927.3752.9527.3353.6038.10TIRGx21.38±0.5446.28±0.7825.82±0.3953.21±0.3326.73±0.7253.17±0.2937.77±0.21MAAFx23.55±0.3146.38±1.3428.75±0.6354.48±0.4929.70±0.4555.84±0.8739.78±0.68RTICx23.03±0.6346.68±0.5226.86±0.7452.80±0.6127.21±0.8953.24±0.6638.31±0.67评值24.82±0.6248.85±0.7729.89±0.6555.85±0.8730.88±1.256.85±1.1641.19±0.881016表2:Fashion200k数据集上图像检索与文本反馈的比较* 表示使用与AACL相同的图像编码器和文本编码器获得的实现结果。模型R@1 R@10R@50电影[49]12.9 39.561.9MRN [33]40.061.9TIRG [60]14.1 42.563.8ComposeAE [4]16.5 45.463.1DCNet [31]–67.6MAAF [20]18.94–TIRGx17.22±0.39 56.52±1.8575.60±0.09MAAFx17.79±0.98 57.57±0.9877.51±0.63RTICx17.05±0.96 54.65±0.7975.54±1.63评值19.64±1.66 58.85±1.0178.86±0.43用粉红色代替灰色将刺绣替换为裁剪取代宽腿喇叭腿图4:AACL在Fashion200k数据集上的定性结果。蓝/绿框:查询/目标图像。表3:Shopping100k数据集中选定类别(计数2k)中的图像数量。夹克衫T恤跳线短裤裤子牛仔裤游泳裤1裙连衣裙7,528 14,853 22,071 11,797 5,099 4,630 六二二九五四九七3,7262,528 12119在文本反馈上-例如,颜色,长度。我们还观察到,所有检索到的图像共享相同的语义,并在视觉上类似于目标图像,这表明定量性能可能被低估。4.4. 购物100kShopping100k [3]是从不同电子商务提供商提取的单个服装项目的大规模时尚数据集它包含101,021张12种时尚属性的图像,涵盖以下类别:“衣领”、“颜色”、“织物”、“扣紧”、“合身”、“性别”、“长度”、“领口”、“图案”、“口袋”、“袖长”和“运动”。总共有151个不同的标签是由不同的属性和相应的属性值的组合产生的。与FashionIQ和Fashion200k相比,Shopping100k数据集更加多样化,仅包含孤立的服装。此外,FashionIQ和Fashion200k仅包含3个和5个服装类别。Shopping 100 k中的每个图像都标记了at-1“Bottoms”类别的全称属性:领口:露背袖:3/4颜色:海军蓝;面料:泽西;图案:印花;类别:衬衫;适合:大;性别:女性领口:方形袖子:短查询文本:衬衫,更换露背领口与方形领口,并取代3/4袖短袖”描述:“衬衫是海军颜色和泽西面料和大适合和广场领口和打印模式和短袖”图5:Shopping100k数据集的图像对和生成的文本查询示例。灰色单词表示共享属性。贡品和属性值,如“领口:露背,袖子:3/4,颜色:海军蓝,面料:泽西,花纹:打印,类别:衬衫,合身:大号,性别:女性”。有15个高级服装类别。为了生成带有文本反馈的图像检索数据集,我们删除了包含少于2,000个图像的类别,即表3中列出了最终的11个类别以及每个类别中的图像数量。具有76,867个图像的训练分割和具有19,210个图像的验证分割从这些剩余类别中随机抽样。为了生成训练图像对和修改文本,我们首先通过将类别与“is”连接起来,然后是由“and”连接的属性,使用其标记的属性值来导出每个图像的描述性标题-例如,“Shirt is Navy color and Jersey fabric and Large fitand Backless neckline and Print pattern and 3/4 sleeve”通过选择描述中两个属性不同的图像对来创建位图。请注意,我们将图像对约束为来自相同的服装类别和性别。修改文本是用服装类别加上属性修改按照“用xx替换xx”模式创建的,即。衬衫,方领取代露背领,短袖取代3/4袖. (见图5)。在训练过程中,根据我们指定的属性数量动态选择查询和目标图像对。在我们的实验中,从验证集生成了16,237个固定测试查询对,用于性能评估。表4将我们的方法与Shopping100k上的其他方法进行了比较。我们的模型显示出明显优于SOTA基线。图6给出了一些定性示例。这些例子产生了三个观察结果。首先,我们的模型能够理解丰富的图像-文本表示,包括全局属性,如颜色,模式,和适合,以及局部属性,如衣领,领口,和袖子。其次,我们的模型能够使用文本信息来选择性地修改查询图像。例如,对于第一个查询,即使在查询中没有请求,检索到的图像也会保留条纹图案。描述:“衬衫是海军色和泽西面料和大适合和露背领口印花图案和3/4袖”ą1017ÑÑp q p q方法加性点积产品中心评值召回@10召回@5048.37 80.1448.56 80.4549.20 81.29表4:在我们修改后的Shopping100k数据集上,图像搜索与文本反馈的比较。计算所有类别的平均值。* 表示使用与AACL相同的图像编码器和文本编码器获得的实现结果模特连衣裙夹克牛仔裤跳线衬衫短裤裙子游泳T恤裤子平均召回率@1召回@10TIRGx34.22±0.5349.86±0.4729.23±0.4851.08±0.8950.22±0.7250.43±0.5255.85±0.5851.86±1.4947.19±1.0441.69±0.5951.06±1.2846.61±0.35MAAFx35.01±1.8551.48±1.6731.78±1.1251.70±2.4552.15±1.9650.64±1.3054.70±3.3654.74±2.4649.31±1.7944.00±2.8752.08±0.6347.96±0.65RTICx33.17±1.9250.51±2.1129.21±4.3648.92±3.3950.90±2.8950.29±0.7451.96±2.0951.62±2.0246.71±2.4142.24±1.3151.46±1.2546.09±1.03评值35.16±0.5451.63±1.3330.80±1.7952.31±0.8952.52±1.3254.63±1.6657.54±0.9556.13±2.1349.18±1.4046.69±1.0654.63±1.7249.20±0.46召回@50TIRGx66.15± 0.8081.50±0.3862.47±0.1980.74±2.4082.43±0.2881.36±0.9585.57±1.6683.91±1.2079.32±1.8177.94±1.1885.02±1.3578.76± 0.69MAAFx68.42±1.4282.73±2.2963.24±2.9482.28±1.3684.41±1.9082.06±1.6688.19±0.7885.32±2.2781.07±1.3481.17±0.6786.75±0.8280.51±0.56RTICx67.30±2.1281.92± 2.4264.30±5.3180.27±2.3783.45±1.5882.22±1.8884.71±1.5784.15±2.4678.87±1.9579.47±0.8885.37±1.9279.27±1.12评值69.21±0.3783.30±1.7763.92±3.5982.30±0.3684.75±1.2185.50±1.3088.94±0.7885.31±1.5280.54±1.1882.83±0.8887.61±0.7681.29±1.11表6:我们修改的Shop-ping 100 k数据集上的自我注意层的消融。我们分别考察了用标准点积代替加法自注意和将Hadamard积改为加法。图6:AACL在Shopping100k数据集上的定性结果。蓝/绿框:查询/目标图像。表5:在我们修改后的Shopping100k数据集上使用来自不同Swin Transformer阶段的阶段召回@1召回@10召回@50第2 + 3 + 411.9248.7880.74第3 + 412.2649.2081.29阶段412.0148.5681.25文本反馈。前5名的候选人中有5名符合“长袖”要求,4名候选人有“低v领”。第三,该模型能够捕获较小的修改,如4.5. 消融研究图像表示:表5比较了在我们修改的Shopping100k数据集上使用Swin Transformer的不同图像表示时AACL的性能。实验表明,使用来自阶段3和4的图像标记对于该任务是最有效的。来自编码器的两个级的级联考虑了更丰富的图像表示形式。有点令人惊讶的是,连接来自阶段2的表示似乎对任务没有好处。这可能表明,在某些时候,较低级别的信息可能会分散模型捕获有意义的全局上下文信息的注意力。加法注意力:为了评估加法注意力的重要性,我们用点-产品关注表6“Additive Dot-Product”显示了我们修改后的Shopping 100 k数据集的比较。从这些结果中,我们认为AACL确实持续受益此外,点积注意力比加法注意力在计算上更昂贵(O n2vs.O n),因此加法注意力的好处超出了评估性能的提高。互动功能:我们研究了使用不同的功能,即加法和Hadamard产品,来模拟上下文向量和单个令牌之间的相互作用的效果。我们在Shopping100k上比较了标准AACL和这个变体。结果示于表6“产物添加”中。Hadamard乘积的表现始终优于加法,表明这种形式的非线性建模是有益的。4.6. 其他定性结果图7定性地比较了我们的AACL模型与FashionIQ数据集上的TIRG、RTIC和MAAF。请注意,FashionIQ的查询文本最接近自然语言,因为查询由来自英语国家的注释者提供即使对于每个查询图像定义了单个目标图像,也可以存在多个“感知上可接受的”图像。这是因为数据库中可能存在多个相似的项目并满足查询的修改文本分量。例如,在图7a中,在检索到的物品中,存在多于一个的带有灰色和白色条纹的短袖上衣,但是只有目标图像被认为是正确的匹配。与考虑的其他模型相比,我们的AACL模型倾向于找到满足查询中所有条件的最佳匹配图像在TIRGx6.81±0.5810.46±0.974.83±1.4311.87±1.2613.15±1.2512.38±1.1610.92±1.2213.51±1.4911.87±0.808.32±0.6013.03±1.7710.65±0.37MAAFx7.05±0.8612.43±0.765.79±1.3413.19±0.8814.44±1.2813.21±1.6812.11±0.7712.41±0.7112.89±1.1610.28±1.3512.89±0.8711.52±0.39RTICx6.80±0.0911.70±0.905.27±0.9012.08±1.3913.93±1.3311.83±0.9710.96±1.4413.18±0.9912.60±0.998.49±0.6511.70±1.7010.78±0.44评值7.70±0.6712.63±0.937.27±0.9613.30±0.3114.21±0.5214.38±1.1414.55±1.2216.22±1.0213.66±0.2810.00±0.5314.14±0.6312.55±0.321018ˆ查询文本:衬衫有一个明亮的颜色和艺术,它有标志和浅黄色。TIRGRTICMAAF评值(a) 成功的例子(b)失败的例子图7:FashionIQ数据集的定性比较我们在第一行中显示查询图像和查询文本,然后在后续行中显示从各种模型中检索到的前5个图像。蓝/绿框:查询/目标图像。查询图像衬衫有更长的袖子衬衫有不同的图案裙子更长裙子袖子更长如果不存在这样的目标图像,则检索到的图像可能不能完全满足由文本修饰符描述的期望的改变,同时保持查询图像的其余部分相同。另一个限制是注意力可视化。作为一个积极的研究课题,目前的注意可视化方法主要集中在点积注意[1,11]。这些被广泛采用的方法与我们的附加注意力模块不兼容,因此我们采用了一种更简单但可能不太精确的可视化方法。如何获得图8:Fash上AACL模型的注意力可视化-ionIQ数据集。关注度最高的单词用红色表示。相反,图7b示出了故障情况。在这里,我们的AACL检索几个为了解释AACL学习到的注意力,我们在图8中可视化了被关注的区域。我们将基于注意流的掩码应用于输入查询图像。注意流的生成如下:我们首先将公式2中的αi乘以所有块,以获得每个令牌的总注意力流。随后,将最小单词令牌流分数映射为零,并将最大值映射为一。请注意,由于我们使用Swin Transformer作为图像编码器,因此编码的特征图为7 × 7,因此可视化分辨率似乎低于其他模型。然而,给定相同的查询图像,我们确实观察到空间上关注的区域随不同的查询文本而变化。这表明,附加性自我注意选择不同的视觉内容来转换的文本查询的条件。4.7. 限制检索到的图像在某种程度上受到目标数据集中存在哪些图像的限制我们注意到准确的标记数据对于训练模型的成功至关重要[42,43]。然而,基于模板的相对注释生成方法虽然被广泛使用,但并不像人工注释那样准确和多样。5. 结论和今后的工作我们提出了AACL,一种新颖的和通用的解决方案,具有挑战性的任务,图像搜索与文本反馈。该框架具有一个附加的自我注意层,该层选择性地保留和转换以文本语义为条件的多层次视觉特征,以获得表达性的复合表示。我们在三个数据集上验证了AACL的有效性,并证明了它在处理自然语言表达的各种文本反馈方面的一贯优势。总体而言,我们的工作提供了一个新的方法,以及全面的评价,这共同推进了交互式视觉搜索使用文本反馈的研究。除了解决上面提到的一些局限性之外,还有许多可能的未来研究方向。首先,我们计划利用图像生成方面的最新进展第二,自动相对字幕可以应用于生成更好地类似于自然语言的文本修饰符,并减少嘈杂的查询文本。查询文本:Toptee是一种带有灰色和白色条纹的短袖,它是浅灰色和白色条纹。TIRGRTICMAAF评值1019引用[1] Samira Abnar和Willem Zuidema。量化变压器中的注意力流。第58届计算语言学协会年会论文集,2020年。[2] 凯南E.阿什拉夫·阿克Kassim、Joo Hwee Lim和Jo YewTham。通过本地化学习属性表示,实现灵活的时尚搜索。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2018年。[3] 凯南E. Ak,Joo Hwee Lim,Jo Yew Tham和Ashraf A.卡西姆高效的多属性相似性学习,以实现基于属性的时尚搜索。IEEE/CVF计算机视觉应用冬季会议(WACV),2018年。[4] 穆罕默德·乌默·安瓦尔,叶戈尔·拉宾采夫,马丁·克莱斯 特 伯 。 用 于 图 像 检 索 的 图 文 查 询 组 合 学 习 。IEEE/CVF计算机视觉应用冬季会议(WACV),2021年。[5] Srikar Appalaraju , Bhavan Jasani , Bhargava UralaKota,Yusshen Xie,and R.曼玛塔Docformer:用于文档理解的端到端Transformer。在IEEE/CVF计算机视觉国际会议(ICCV)的论文集,2021。[6] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。InarXiv,2014.[7] 阿尔贝托·巴尔德拉蒂,马尔科·贝尔蒂尼,提贝里奥·乌里奇奥,还有阿尔-贝托·德尔·宾博.条件和合成图像检索结合和部分微调剪辑为基础的功能。IEEE/CVF计算机视觉和模式识别会议论文集,2022年。[8] Ayan Kumar Bhunia,Pinaki Nath Chowdhury,AneeshanSain,Yongxin Yang,Tao Xiang,and Yi-Zhe Song.更多照片是你所需要的:基于半监督学习的细粒度草图图像 检 索 。IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2021年。[9] 杨永新,杨伟华,杨伟华. Hospedales,Tao Xiang,andYi-Zhe Song. 少画多画:基于草图的动态细粒度图像检索。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年。[10] Remi Cadene,Hedi Ben-Younes,Nicolas Thome,andMatthieu Cord. Murel:Multimodal Relational Reasoningfor Visual Question Questioning。在CVPR,2019年。[11] 希拉·切佛希尔·古尔和里奥·沃尔夫Transformer的可解释性超出了注意力可视化。在IEEE/CVF计算机视觉和模式识别会议论文集,2021。[12] 陈龙,辛燕,肖军,张汉王,蒲世良,庄月婷。用于鲁棒视觉问答的反事实样本合成。IEEE/CVF计算机视觉和模式识别会议(CVPR),2020年。[13] 陈延北和洛里斯·巴扎尼。学习联合视觉语义匹配嵌入语言引导检索。欧洲计算机视觉会议(ECCV),2020年。[14] Yanbei Chen,Shaogang Gong,and Lori
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功