没有合适的资源?快使用搜索试试~ 我知道了~
我想买一件像这样的外套,但是要有蓝色和长毛绒的领子。1交互式时尚搜索中的记忆增强属性操作网络赵波1、2贾世峰2小吴1水城岩3、21西南交通大学2新加坡国立大学3360 AI研究院zhaobo@my.swjtu.edu.cn,elezhf@nus.edu.sg,wuxiaohk@swjtu.edu.cn,yanshuicheng@360.cn摘要我们介绍了一种新的时尚搜索协议,其中在用户和搜索引擎之间的交互中允许属性操作,例如。将衣服的颜色属性从红色操纵到蓝色。当查询图像不能完全匹配用户对所需产品的期望时,它对于基于图像的搜索为了建立这样一个搜索引擎,我们提出了一种新的内存增强属性操作网络(AMNet),它可以在属性级别上操作图像表示。给定一个查询图像和一些需要修改的属性,AMNet可以操纵中间表示编码不需要的属性,并通过以下四个新组件将它们更改为所需的属性:(1)用于区分性深度属性表示学习的双路径CNN架构;(2)具有用于原型属性表示学习和托管的内部存储器和神经控制器的存储器块;(3)属性操纵网络,用于利用从存储器块检索的原型特征来修改查询图像的表示;(4)损失层,其联合地优化三重图像上的属性分类损失和三重排序损失,以便于精确的属性操作和图像检索。在两个大规模时尚搜索数据集上进行了大量的实验,即。DARN和DeepFashion已经证明,AMNet能够在属性管理和搜索准确性的有效性方面实现与精心设计的基线相比非常好的性能。1. 介绍基于图像的时尚搜索是基于反映用户需求的查询图像基于图像的检索为用户提供了一种方便的方式来搜索那些细节丰富、难以用语言全面描述的产品然而,在许多情况下,用户可能还希望图1. 属性操作的时尚搜索。用户提供具有关于想要的属性的附加描述的服装图像,但是该属性未被包括在图像中搜索引擎操纵查询图像的表示以并入用户交互地改变可用的查询图像,以便更好地匹配其特定的心理模型。Wit- tleSearch [18]通过以迭代的方式提供额外的相对属性描述(例如“颜色更亮”),部分解决了这个问题。该方法的一个缺点是用户不能容易地将属性从一个属性改变为另一个属性。最近,生成视觉操作模型[36]通过使用几个预定义的操作编辑查询图像来执行属性操作,即:着色、素描和变形,这需要与搜索引擎进行更多的交互。为了建立一个更精确、更方便的时尚搜索引擎,我们考虑了一种新的搜索协议,该协议利用文本描述和视觉编辑,即通过利用查询图像加上关于如何改变查询图像的某些视觉属性的描述来检索时尚产品。更具体地,利用该搜索引擎,除了查询图像之外,还允许用户提供额外的关键字来描述查询图像中不存在的期望的产品属性。图1中提供了一个使用案例。基于查询图像(具有圆形衣领的粉红色连衣裙),女孩还告诉搜索引擎她期望的颜色(一种类型的属性)是“蓝色”而不是“粉红色”,并且期望的衣领类型是“毛绒”(另一种超越-15201521由于能够计算视觉相似性,搜索引擎还可以理解应当在检索到的产品中改变颜色和衣领类型属性的请求我们称这种新的搜索问题为带有属性操作.这一新的搜索问题带来的最大挑战是如何在不修改其他属性的情况下将查询图像的特定属性更改为所需属性。直觉上,关于所需属性的先验知识可以为这种修改提供强有力的指导。受长短期记忆[13]和神经图灵机[11]工作的启发,这两种机器都有存储信息的记忆,并保持输入序列中元素之间的长/短期依赖性,我们提出了一种新的记忆增强属性操作网络(AMNet),它能够在属性级操作图像表示。AMNet学习图像表示,这是区别的属性,并引入了一个内部存储器块来记忆然后,给定查询图像和属性操作请求,AMNet通过将特定的属性表示“替换”为可以从其属性库中读取的所需属性表示来更新查询表示。然后,恢复变得容易:通过在更新的查询表示和图库图像表示之间进行比较,可以找到具有期望属性的产品。为了确保AMNet能够精确地操作图像表示,新的网络架构和训练方案都经过了精心设计,如下所述给定一个查询图像和用户想要操作的目标属性,所提出的AMNet首先学习查询图像的表示,该表示对于属性预测是有区别的。同时,从存储器中检索指定属性的原型表示,该存储器动态地存储所有属性的学习的原型属性表示。AMNet通过一个神经控制器访问这个属性记忆块,该神经控制器负责检索特定的原型表示并在训练过程中更新记忆。然后,AMNet修改中间表示,将指定的属性嵌入到所需的属性中,而不改变其他属性。为了使AMNet能够精确地操作属性表示,除了内存块之外,我们还引入了多分支架构和三元组排名目标,以更好地进行检索表示学习。最后利用修改后的表示方法计算其与图库中所有图像的相似度,得到具有期望属性的返回图像。大量的实验验证了我们提出的方法的有效性。主要贡献概述如下:(1) 提出了一种新的用于交互式时尚搜索的记忆增强属性操作网络,实验证明该网络是有效的。很有效率该模型综合了属性表示学习、操作和视觉相似性约束,统一学习检索特征(2) 我们设计了一个记忆块,包括一个记忆和神经网络控制器。存储器存储不同属性的原型属性表示,并且控制器具有与存储器的良好设计的交互机制以促进属性操纵。(3) 我们开发了一个联合优化方法的属性表示和检索特征学习。在模型中加入多个全连接层同时,三元组损失目标指导网络学习更好的检索表示。2. 相关工作属性识别。属性是可视化数据的信息性和紧凑的表示近年来,属性相关的研究在许多计算机视觉任务中越来越受欢迎,从零拍摄学习[21,26,27],图像检索[17,18,29]到细粒度承认[8,20,35]。属性建模的早期工作依赖于手工制作的功能,如SIFT [25]和HOG [37],最近深度卷积网络用于学习属性表示并实现卓越的性能[7,9,28,35]。在服装属性方面,Chenet al.[4]提出了一种全自动系统,以生成人体服装的可命名属性列表; Vittayakorn等人。[33]提出了从网络上的服装图像及其文本描述的嘈杂集合中自动发现属性与可以存在或不存在的二元属性与[31]相似,Liuet al. [24]提出了FashionNet来联合预测服装图像的属性和地标通过将属性识别集成到AMNet中,它可以更好地学习在属性级操作表示。服装检索。 已经提出了许多服装检索方法[2,4,6,14,16,23,24近年来,大多数研究都是从跨领域的角度来考虑这个问题。在一些基于属性的时尚搜索的作品中[2,4,14,24],允许用户基于细粒度的描述搜索视觉内容,例如虽然已有很多研究成果,但对属性操作的检索研究较 少.Kovashka等人开发了WhittleSearch [18],它允许用户上传查询图像并给出诸如“给我看这样的鞋图像,但更运动”的描述来搜索所需的图像。他们使用了Parikh和Grauman提出的相对属性的概念[27]。152212因此,对于相关性反馈,只有属性的相对描述可以用于“削去”视觉特征空间的不相关部分。但是,将属性从一个属性更改为另一个属性是困难的或需要更多的迭代。最近,Zhuet al.提出了生成视觉操作(GVM)模型[36]来编辑自然图像流形上的图像,并使用生成对抗网[10]生成新的查询图像进行搜索。几个编辑操作,包括着色,素描和扭曲,被定义为转移的原始图像不同的外观。一般来说,服装类别:FRDW服装颜色:粉红色袖子长度:长领型:圆服装形状:苗条…基于属性操作的时尚搜索服装类别:FRDW服装颜色:蓝色袖子长度:长衣领类型:毛绒服装形状:苗条…GVM的检索结果在很大程度上取决于生成图像的质量。此外,一些属性,例如,风格或模式,很难描述,这限制了它的使用。我们不需要对图片进行编辑,而是采用额外的属性描述来与搜索引擎进行通信,并细化搜索结果,这更加方便和高效。3. 属性操纵网络3.1. 问题设置视觉属性提供了中间层次的描述(例如颜色、样式),这些产品具有特定的特性,并且具有丰富的语义含义,并且不像类别标签那样抽象。因此,属性通常是首选的时尚产品搜索。在这项工作中,我们还考虑建立一个基于属性描述的时尚搜索引擎。不同于其他基于属性的搜索引擎[18,36],我们希望我们的能够执行属性操作,并为用户提供更好的交互体验。我们在这里提供了一个正式的描述与属性操作的时尚搜索假设我们有一个预定义的属性集,由M个不同的属性组成。查询服装图像Iq可以由其相关联的属性(a1,···,am1,···,am2,···,aM)来描述。用户期望从图库中找到另一个服装图像It,该服装图像I t与Iq共享除了某些属性之外的所有属性。以这里的属性am1和am2为例。目标图像It仅在属性am1和am2的值处不同于Iq,并且It的期望属性描述被表示为(a1,···,am1,···,am2,···,aM)。仅仅使用Iq来检索视觉上相似的图像将不会给出期望的It。因此,在搜索过程中,需要对I q的属性级表示进行进一步操作:应适当地操纵I q的表示,以便将其属性am1和am2更改为所需的am1和am2,同时保留其他属性图2. 属性操作的时尚搜索。通过manipu-在查询图像的后期表示中,两个不需要的属性“pink”color和“round”collar被所需的属性替换。然后,操作表示被用来检索匹配的图像从画廊,更好地满足用户同时学习该表示以从图库中检索具有期望属性的图像3.2. AMNet架构概述AMNet的整体架构如图3所示。它由以下四个部分组成。(1)一个图像表示学习器,它是一个双路径CNN,像暹罗网络一样彼此共享参数[3]。(2)一种存储块,其中包括一个存储器和一个控制器.存储器存储不同属性的所有原型表示,而控制器与存储器的内容进行交互。(3)一种属性操纵器,它根据从记忆中检索到的原型表征,修改表征学习器所执行的原始表征。(4)损失层计算两种类型的损失函数来训练AM网络。一种是属性分类损失,以鼓励学习的表示对属性是有区别的,并确保学习的属性操作是正确的;另一个是用于学习更好的检索表示的三元组排序损失。每个组件的详细信息如下所示。3.3. 属性表示学习为了学习有利于属性级操作的区分属性表示,AM-Net选择了深层CNN架构,例如。Alex [19]或VGGNet[30]作为基础网络。在表示学习器中包含两条所选CNN的路径,这两条路径彼此共享参数,一条用于提取参考图像的属性表示,查询图像,用于以后的操作,另一个用于训练时的正图像和负图像的三元组积极的形象是其属性完全符合1 2不变我们在图2中给出了一个示例。为此,我们提出了AMNet,它能够对查询图像的特定属性进行处理,用户与参考图像不同的采样图像这种三重图像的示例可以在图3中看到。1523排序损失∇i=1三重图像表征学习者损失层图3. AMNet的架构。三重图像(即ref、pos和neg图像)通过具有共享参数的双重表示学习器。然后,根据需要改变的属性,基于从存储器块检索的原型表示来操纵参考图像的表示。属性分类损失和三元组排名损失,然后计算的基础上操纵的表示参考图像和那些的阳性和阴性图像。3.4. 用于属性操作的内存块AMNet有一个内存块,其中包含一个内部存储器和一个神经控制器,用于促进属性特定的表示操作。存储器存储学习到的不同属性的原型表示,控制器对该模型执行两个操作:检索特定的原型属性表示,并在训练阶段更新存储器的内容,以学习更好的属性表示。选择前馈网络作为AMNet的控制器。我们现在正式介绍控制器的两个操作,随后是原型属性表示生成。内存寻址。 设M是其中的内容,由C×Q记忆矩阵描述的随机数,其中M操纵指示符h ′内的较大值使控制器更多地关注对应的存储器位置,而零值意味着存储器中的对应原型表示应被忽略。 这种注意力机制使AMNet能够高效地检索内存中的特定信息。存储器内的行向量的组合被输出为检索到的原型属性表示,用于稍后的属性操作。图4说明了内容寻址和原型属性representation和灰生成的内部存储器。内存更新。可以容易地证明等式(1)中的t关于存储器是可微的M. 因此,记忆是端到端可训练的,C=m=1 Cm是内存位置的数量。这里经过适当训练后的典型属性表示的M是属性数,Cm计算第m个属性可以取多少不同的值,Q是维度存储器中的内容在训练期间通过反向传播和链式法则。梯度是COM-每个属性的表示。M的每一行都是原型属性表示.设h是长度为C的二进制向量,指示需要操纵哪个(哪些)属性假定为切特M =·、(二)晚了例如,如果i对应于“红色”的属性红色属性操作指示器h正常-其中t表示由属性传递回的梯度操纵国请注意,内存块将被更新。 更新内存-被化为有效概率向量h′=h/C′ ′Chisuch随着网络训练的进行,最具代表性的属性表示-i=1h(i)=1,0≤h(i)≤1,n∈i. 然后,目标这对下面的属性操作是有益的。因此,长度为Q的原型属性表示t可以是通过检索ΣCt =i=1h′(i)<$M(i,:).(一)第内存初始化。 原型属性是关键的属性操作在拟议的AMNet。它亲-存储区M已验证的属性规范表示…属性操纵器hh'检索更新蓝色毛绒领不控制器W,b类别RR…分类损失+的ref图案共享参数排序损失pn…POSneg……⊤1524+H'正常化我··分类损失计算。 几个全连接层被添加到属性manipulator的顶部,以预测图像的属性。最后,将M个全连接层(等于属性的数量)添加到AMNet。这样的多分支结构并没有过多增加模型复杂度,反而让AMNet更好地学习语义属性表示t和属性操作。AMNet中采用softmax损耗,定义为图4.原型属性检索过程。 一个属性可以-根据由用户提供的附加属性描述来生成迭代指示符。标准化后,指示器将内存中的内容相乘。仅关注指标中具有相应非零值的位置并加权汇总以形成最终原型表示。为属性操纵器提供了有用的指导,以消除不需要的属性并插入新的属性信息。训练具有多个全连接层的CNN(与表示学习器中选择的CNN相同)然后,所有具有相同属性值的训练图像的表示,例如,所有具有红色属性的图像被平均作为特定属性值的原型表示。这些原型表示最初存储在存储器中。3.5. 属性操纵器属性操作的目的是更改表示ΣN ΣMLa=−log(p(aim|参考(i)),(4)i=1m =1其中,N表示训练样本的数量,aim表示第i个参考图像的第m个属性的基础真值,并且p(aim|ref i)对图像ref i被分类为属性标签aim的后验概率进行编码。注意,可以根据属性操纵指示符来改变im我们为每个训练图像累积M个属性分类分支的损失排名损失计算。 除了分类损失之外,我们还施加了一个排序损失,根据它们的属性相关性来学习三重图像的检索表示。具体而言,基于三元组的排序损失用于约束三元组中三元组排序损失的目标函数定义为:N′′原始图像的一些不希望的属性。更具体地说,它改变了与tar相关的表示,Lt=i=1max{0,d(ri,pi)-d(ri,ni)+m},(5)获取属性。这可以通过融合从存储器中检索的表示和当前图像表示来实现。融合是通过AMNet中的全连接层学习的。 它吸收了原始图像代表-从存储器M中检索到的原型属性表示t,并将这两个表示变换为具有与原始表示和原型属性表示。在形式上,属性操作定义为r′= W·(r,t)+b,(3)其中(r,t)表示连接两个特征向量,并且W和b是将连接的特征变换为原始大小的参数,如r和t。3.6. 损失层两种类型的损失用于训练AMNet:分类损失用于训练AMNet以预测属性,排名损失用于学习检索表示。下面分别介绍这两个损失的细节以及如何使用它们来联合训练AMNet其中d(i)表示两个特征之间的距离,e.G. Euclidean距离,并且r′,pi, ni表示三元组中的ref,pos和neg图像的(操纵的)表示。理想情况下,我们期望从ref图像到具有不同属性的任何neg图像的距离比到具有相同属性的pos图像的距离大一定的余量m>0。网络优化。我们通过加权组合来整合两种类型的损失,即属性损失和三重损失:L=λLa+(1−λ)Lt,(6)其中λ是控制两种损失之间的权衡的权重。我们使用带动量的标准随机梯度下降法优化方程(64. 基于属性操作的时尚搜索我们现在描述的实现细节,我们提出的服装图像与属性manipulation搜索引擎。1525⟨⟩培训阶段。选择具有多个全连接层的AlexNet [19]来预测属性,以学习原型属性表示。最后,从具有相同属性值的训练图像中提取的fc 7特征(4,096-D)被平均作为特定属性值的原型表示。它们最初存储在AMNet的内存中。我们还采用AlexNet在AMNet中进行表示学习。然后,我们生成训练三元组ref、pos、neg和属性操作指示符。在每个三元组中,第一图像是参考图像,其属性中的一些第二种形象是正面形象,其属性完全符合用户最后的图像是从训练图像集中随机采样的不相似的图像。在训练期间,每个小批包含多个这样的三元组和对应的属性操作指示符。然后,我们计算每个损失函数(交叉熵损失和三重排序损失)的梯度w.r.t.输液袋的来自分类损失和排序损失的梯度被反向传播到每个单独的子网络。在内存块中的原型属性表示也更新的反向传播的错误。关于超参数,我们经验性地将三元组损失目标中的裕度m设置为0.5并且将等式(6)中的权重λ设置为0.2。服装搜索给定一个查询图像和需要改变的属性,我们的模型根据从内存中检索到的原型表示来操纵表示学习器的输出。对于图库图像,直接存储表示学习器的输出而不进行操作。计算查询图像和图库图像的表示之间的欧几里德距离以对图像进行排名。5. 实验5.1. 实验设置数据集。尽管提出了几个现有的服装数据集[1,4,5,12,14,23,24],但大多数数据集仅包含有限数量的图像或缺乏属性注释。为了进行属性操作,使用了两个具有足够注释属性的服装数据集,DARN [14]和DeepFash-ion [24]被选择用于我们的检索实验,它们分别包含大约320,000和290,000个衣服图像DARN有9个属性,总共179个可能的值,而DeepFashion有6个属性(包括服装类别)和1,050个不同的属性值。表1中列出了一些示例服装属性和属性值。可以看出,DARN中定义的大多数属性都处于中间级别,例如:衣服颜色或袖子长度,这是描述性的,方便衣服表1.DARN和DeepFashion数据集的服装属性和值属性值总该死服装色彩黑色,白色,红色,蓝色,···修身,直筒,斗篷,· · ·长,短,无袖,···圆,翻领,V领,···· ··56服装造型10袖长7领型25· ··DeepFashion纹理抽象,动物,巴洛克···卡米,高乔,延绳钓,· · ·运动,涂鸦,自由,· · ·· ··156形状180风格230· ··搜索我们使用所有这些属性的属性manip- ulation搜索。与DARN不同的是,DeepFashion中定义的大多数属性都更抽象,比如具有相同高级属性的衣服可以具有不同的中级属性,诸如颜色、袖长等。DeepFashion中没有包含这些有用的中级属性,这增加了属性操作的难度。由于AMNet专注于操纵描述视觉模式的属性,在我们对DeepFashion的实验中,只有纹理属性用于操纵评估,更多的属性留待将来研究。从每个数据集中,我们首先为每个属性值采样200张图像,以训练属性表示学习网络,如第4节所述。我们还从每个数据集中保留了使用每个数据集的剩余图像,我们分别生成训练三元组和属性操作指示符来训练AMNet。基线。由于属性操作搜索是一个新的问题,目前还没有针对该问题的研究。一些相关的工作包括Whittle搜索[18]和最近的生成视觉操纵(GVM)模型[36]。但WhittleSearch只支持相对属性描述,不支持属性替换,不适合属性操作搜索。至于GVM,人们期望通过交互使用一些预定义的操作来“编辑”图像。人工编辑查询图像耗时长且主观性强,且纹理等属性不易刻画。因此,在实验中没有选择它们。相反,我们开发了三种不同的模型作为我们的基线。(1)基于属性的检索模型,它使用相同的CNN选择AMNet,即。AlexNet,预测查询图像的属性并替换不需要的属性。1526Zj=1log(j+1)0.80.70.60.50.40.30.20.10基于属性(0.340)AMNet(不含内存)(0.230)AMNet(无等级)(0.316)1102030405060708090100K(a) 该死0.60.50.40.30.20.10基于属性(0.185)AMNet(不含内存)(0.208)AMNet(无等级)(0.266)1102030405060708090100K(b) DeepFashion0.80.70.60.50.40.30.20.1020万10万5万 25,00012,5006,250检索库大小(a) 该死0.60.50.40.30.20.10基于属性的AMNet(w/oMem)AMNet(w/oRank)AMNet20万10万5万 25,00012,5006,250检索库大小(b) DeepFashion图5. 一个属性操作在两个200,000张图片的图库上搜索的前k括号中的数字是前20名的检索准确率。与所欲之人。然后使用fc7功能从图库中检索具有所需属性的特征空间中最相似的图像(2)AMNet without- out内存块,它直接连接属性操作指示符h和r来操作属性表示。(3)AMNet没有排名损失。为了证明所提出的网络的泛化能力,我们进一步评估AMNet的有效性w.r.t.不同数量的检索结果和不同的图库大小。评估指标。两个指标被用来衡量检索模型的性能。(1)top-k检索精度。如果该方法在前k个结果中找到一个具有与查询所指示的属性完全相同的属性的服装图像,则我们表示命中;否则存在未命中。(2)归一化贴现累积增益(NDCG@k)[15]罚款1克朗2rel(j)−1,其中rel(j)是属性rel-查询图像和第j个排名图像之间的事件得分,Z是归一化常数,以确保正确的排名结果具有得分1。相关性得分rel(j)被定义为期望属性与第j个排序图像之间的匹配属性数。查询属性的总数。5.2. 单属性操纵搜索分析我们在图5中报告了不同方法在操纵服装的一个属性时的top-k检索准确性结果,其中k值不同。我们还在括号中列出了每个模型的前20所提出的AMNet与内存增强和排名损失实现了最佳性能,提供54.5%和33.8%的前20名的准确率DARN和Deep-Fashion,分别。去除AMNet的记忆后,前20名的检索准确率分别下降到23.0%和我们还观察到,去除训练AMNet的排名损失会导致前20名检索准确率下降22.9%和7.2%。这表明,无论是在AMNet的操纵能力的由于属性分类CNN的良好性能,基于属性的检索方法的性能优于DARN中没有记忆然而,我们没有观察到图6.在两个不同大小的图库中,一个属性操作搜索的前20名准确度在DeepFashion上。这是因为DeepFashion上的属性分类比DARN更困难。基于属性的检索方法,因此,工作不那么好,由于不准确的属性预测。我们在图7的左栏中给出了AMNet及其变体的一个检索示例。具有绿色边界的图像表示包含具有所需属性的匹配服装。可以看出,在没有存储器块的情况下,模型难以生成用于检索期望图像的适当表示。检索到的图像中,排名较高的位置仍然包含不需要的毛绒衣领,这表明属性操作失败。同时,排名损失有助于学习更好的检索表示,AMNet检索到的匹配图像在图7的右列中可以看到更多的属性操作搜索示例。5.3. 属性感知服装搜索评估属性操作搜索的一个重要部分是保持属性的相关性。用户期望通过操作检索到的图像包含所需的属性,同时其他属性保持不变。通过AMNet的属性表示学习,学习到的特征具有较强的语义意义。当使用这些表示检索在特征空间中接近的图像时,检索结果也表现出很强的属性级匹配。我们使用NDCG来衡量属性级匹配性能。当具有更多匹配属性的图像排名更高时,分数更大。我们在表2中报告了前20个检索图像的NDCG分数。一表2. NDCG@20结果的一个属性操作搜索两个画廊与200,000图像。模型记忆秩该死DF基于属性的AMNet(w/oMem)AMNet(w/o Rank)AMNet√√√√0.330.230.320.460.210.230.280.39基于属性的AMNet(w/oMem)AMNet(w/oRank)AMNetTop-k检索精度Top-k检索精度检索准确率前20名检索准确率前20名1527+定制领+定制领AMNet(Z/R 0HPRU\)AMNet(Z/R 5DQN)+长袖+抽象纹理AMNetAMNet+定制领AMNet+红色+超薄型AMNet图7. DARN和DeepFashion检索结果前4名具有属性操作描述的查询图像在第一列中,后面是从相应的200,000个图像库中检索的图像。可以观察到,添加内存块将两个数据集上的NDCG得分分别从0.23增加到0.46和0.23增加到0.39而排名损失将值从0.32提高到0.46和从0.28提高到0.39,这比内存块的贡献小。与top-k精度的性能类似,基于属性的检索方法可以在DARN中检索到更多的相关图像,但在Deep-Fashion上失败。虽然DeepFash-ion的属性预测具有挑战性,但AMNet仍然达到0.39 NDCG得分。5.4. 不同画廊尺寸的性能为了进一步证明AMNet学习鲁棒特征的能力,我们在图6中给出了具有不同图库大小的不同检索模型的前20名检索准确度。通过计算特征提取的准确率随图库尺寸的减小而增加的比率来评价特征提取的鲁棒性。实际上,较小的增加比率表明对图库大小减小的鲁棒性更强,因此所学习的特征更鲁棒。具体而言,在DARN上,基于属性 的 检 索 方 法 、 无 记 忆 AMNet 、 无 排 名 AMNet 和AMNet的前20名检索准确率从最大检索图库到最小图库分别提高了33.0%、58.9%、99.4%和37.4%。虽然基于属性的方法实现了最小的增长率,其检索精度远低于AMNet。AMNet的增长率远低于无记忆和无排序的AM-Net。在DeepFashion上,AMNet的增长率甚至略低于基于属性的方法,为55.0%vs.百分之五十五点八。无记忆和无排序AMNet的增长率这一观察验证了AMNet可以学习比基线更鲁棒和有效的特征。5.5. 除了单个属性操作,AMNet还可以同时操作多个属性。为了证明这一点,我们进行了两个属性操作检索实验的DARN由于其适当的属性设置。在20万幅图库中,前20名的正确率为46.4%,NDCG值为0.41,表明了双属性操作搜索的有效性。我们在图7中右列的最后一行给出了一个两个属性操作搜索的例子,它成功地检索了红色和细长形状的图像两个或更多属性操作搜索的另一种方式是迭代地进行一个属性操作搜索。每次操作查询图像的一个属性。用户从返回的图像中选择部分匹配的图像,并进一步操作剩余的不需要的属性。5.6. 系统运行时间我们的检索系统运行在一个服务器上,英特尔i7-4939 KCPU ( @3.4 GHz ) 和 64 GB RAM 内 存 , 双NVIDIA TITAN X GPU。平均而言,每1,000张图像的特征在给定一个查询和需要操作的属性的情况下,在我们的检索实验中,属性操作和服装检索的时间约为0.2秒6. 结论提出了一种用于交互式时尚搜索的记忆增强属性操纵网络。与以前的方法不同,我们的方法可以操作图像的一些不需要的属性,并在图库中检索所需的图像。我们在一个实际的服装检索应用中展示了我们的方法,显示出比其他基线有很大的改进。鸣谢本工作得到了国家自然科学基金61373121、四川省杰出青年科学基金13 QNJJ 0149、新加坡国立大学启动基金R-263-000-C 08 -133的部分资助,新加坡教育部AcRF一级拨款 R-263- 000-C21-112 , 中 国 国 家 留 学 基 金 委 拨 款201507000032。1528引用[1] L. Bossard,M.丹通角莱斯特纳角Wengert,T. Quack和L.范古尔服装分类与风格。在ACCV,第321-335页6[2] L. Bourdev,S. Maji和J.马利克描述人物:一种基于poselet的属性分类方法。在ICCV,第1543-1550页,2011年。2[3] J. Bromley,J. W.本茨湖博图岛Guyon,Y. LeCun,C. Moore ,E. Sa?ckinge r和R. Shah. 利用一个连体时延神经网络进行签名验证International Journal of PatternRecognition and Artificial Intelligence,7(04):669-688,1993. 3[4] H. Chen,中国山核桃A.Gallagher,and B.吉罗德用语义属性描述服装ECCV,第609-623页,2012年。二、六[5] Q. Chen,J. Huang,R.费里斯湖M.布朗,J.董,和S. 燕. 基于细粒度服装属性描述人物的深度领域自适应在CVPR中,第5315- 5324页6[6] Z.- Q.郑,Y. Liu,X.吴和X。S.华视频ecom- merce:在线视频广告。2016年ACM多媒体会议,第1365-1374页,2016年2[7] J. Chung,D.李,Y。Seo和C. D.你。深度属性网络。在NIPS研讨会,2012年。2[8] K. Duan,中国粘蝇D. Parikh,D. Crandall,and K.格劳曼 用 于 细 粒 度 识 别 的 Dis-covering 本 地 化 属 性 。 在CVPR,第3474-3481页,2012年。2[9] V. Escorcia,J. C. Niebles和B.加尼姆关于视觉属性和卷积网络之间在CVPR中,第1256-1264页,2015年。2[10] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS,第2672-2680页,2014中。3[11] A. Graves,G.韦恩和我丹妮赫卡神经图灵机。arXiv:1410.5401,2014。2[12] M. Hadi Kiapour,X.汉,S.Lazebnik,A.C. Berg和T.L.伯格。在哪里购买:在网上商店匹配街头服装照片。在ICCV,第3343-3351页,2015年。6[13] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation,9(8):1735-1780,1997. 2[14] J. Huang,R. S. Feris,Q. Chen和S.燕.基于双属性感知排名网络的跨域图像检索。在ICCV,第1062-1070页,2015年。一、二、六[15] K. Ja?velin和J. 我来了。基于累积增益的红外技术评价 。 ACM Transactions on Information Systems , 20(4):422-446,2002. 7[16] Y.卡兰蒂迪斯湖肯尼迪和L. J. Li。获得外观:服装识别和分割,用于日常照片中的自动产品建议。在ICMR,第105-112页2[17] A. Kovashka和K.格劳曼个性化图像搜索的属性自适应。在ICCV,第3432-3439页,2013年。2[18] A. Kovashka,D. Parikh和K.格劳曼Whittlesearch:具有相对属性反馈的图像搜索。在CVPR,第2973-2980页,2012中。一、二、三、六[19] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS,第1097-1105页,2012中。三、六[20] N.库马尔A. C. Berg,P. N. Belhumeur和S. K.纳亚尔用于人脸验证的属性和明喻分类器在ICCV,第365-372页2[21] C. H. Lampert,H. Nickisch和S.伤害。学习通过类间属性转移检测不可见对象类。在CVPR,第951-958页,2009中。2[22] X.梁湖,加-地林,W. Yang,P. Luo,J. Huang和S.燕.基 于 联 合 图 像 分 割 和 标 记 的 服 装 协 同 分 析 IEEETransactions on Multimedia , 18 ( 6 ) : 1175-1186 ,2016。1[23] S. Liu,Z.宋,G. Liu,C. Xu,H. Lu和S.燕. 街道到商店:通过部件对齐和辅助集实现跨场景服装检索。在CVPR,第3330-3337页,2012年。一、二、六[24] Z. Liu,P. Luo,S. Qiu,X. Wang和X.唐Deepfashion:支持强大的服装识别和检索与丰富的注释。在CVPR中,第1096-1104页,2016年。一、二、六[25] D. G.洛从尺度不变的关键点中提取独特的图像特征。International Journal of Computer Vision,60(2):91-110,2004. 2[26] M.帕拉图奇湾Pomerleau,G. E. Hinton和T. M.米切尔使用语义输出代码的零触发学习。NIPS,第1410-1418页,2009年。2[27] D. Parikh和K.格劳曼相对属性。在ICCV,第503-510页,2011中。2[28] S. Shankar,V. K. Garg和R.西波拉深雕:通过雕刻深层神经网络来覆盖视觉属性。在CVPR,第3403-3412页,2015年。2[29] B. 西迪基耶河S. Feris和L.S. 戴维斯基于多属性查询的图像排序在CVPR,第801-808页,2011年。2[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。在ILSVRC研讨会,2014年。3[31] K. K. Singh和Y.J. 李你相对属性的端到端本地化和在ECCV,第753-769页,2016年。2[32] A. 维特湾Kovacs,S.Bell,J.McAuley,K.Bala和S.再见。学习视觉服装风格与异质并元同现。在ICCV,第4642-4650页,2015年。1[33] S. Vittayakorn,T.梅田湾Murasaki,K.Sudo,T.Okatani和K.山口自动属性发现与神经激活。在ECCV,第252-268页,2016年。2[34] Q. Yu,F.刘玉- Z.宋,T. Xiang,T. M. Hospedales和C.-C.洛伊把那只鞋给我画出来。在CVPR,第7992016年6 1[35] N. Zhang,M.帕卢里,M。兰扎托T.Darrell和L.布尔德夫Panda:为深度属性建模设置对齐网络在CVPR,第1637-1644页,2014年。2[36] J. - Y. Zhu ,P. K r¨ henb ¨ hl,E. Shechtman 和A. A.埃 夫 罗 斯自然图像流形上的生成式视觉操作。在ECCV,第597-613页,2016中。一、三、六[37] Q. Zhu,M.-C. 是的,KT. Cheng和S.阿维丹使用定向梯度直方图级联的快速见CVPR,第1491-1498页,2006年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功