没有合适的资源?快使用搜索试试~ 我知道了~
2879LiveSketch:基于草图的视觉搜索的查询扰动John Collomosse12,Tu Bui1和Hailin Jin21萨里大学视觉、语音和信号处理中心2Adobe Research摘要LiveSketch是一种使用手绘查询搜索大型图像集的新算法LiveSketch通过创建可视化建议来解决草图搜索的固有模糊性,这些建议在绘制查询时增加查询,使查询规范成为一个迭代而不是一次性的过程,有助于消除用户搜索意图的模糊性我们的技术贡献包括:三重convnet架构,其结合基于RNN的变分自动编码器以使用向量(基于笔划)查询来搜索图像;实时聚类以识别可能的搜索意图(以及搜索嵌入内的目标);以及使用来自这些目标的反向传播来扰动输入笔划序列,从而建议对查询的改变以引导搜索。我们使用67M图像语料库显示了在准确性和任务时间方面的改进1. 介绍从视觉搜索查询确定用户意图仍然是一个开放的挑战,特别是在基于草图的图像检索(SBIR)中,在数百万个图像中,草图形状可以产生看似合理但意想不到的匹配。例如,用户对狗的草图可能返回表面上类似于所手绘草图通常是对所需图像内容的不完整和模糊的描述[8]。这限制了sketch传递搜索内容的能力,特别是在大型图像数据集上。本文提出了LiveSketch;一种新的交互式SBIR技术,其中用户可以优化其草图查询,选择和整合系统建议的草图修饰,以消除搜索内容的歧义,从而提高结果的相关性(图10)。1)。我们方法的核心新颖性在于生成视觉建议的方法,利用通常用于编码图像特征的深度神经网络(DNN)的可逆性来创建视觉搜索系统中的搜索索引[26,13,7,6]。通过识别用户搜索的可能目标意图的集群图1. LiveSketch有助于消除大型数据集的SBIR的歧义,其中从头开始绘制的形状(左上角)可能会产生与用户搜索意图不匹配的结果。LiveSketch迭代地建议对用户的草图查询进行细化,这种交互消除了歧义,并快速地将搜索引导到与用户的搜索意图相匹配的结果4.3)。通过调整查询来验证。我们的灵感来自于逆境扰动(AP);使用反向传播来生成“对抗”图像示例[ 12 ],其将对象误分类[ 24,2,23 ]为目标类别。在我们的视觉搜索的上下文中,我们类似地反向传播以使草图查询从其当前状态朝向用户在搜索嵌入中识别的一个(或多个)目标因此,查询变成了画布上的使用单个实时草 图 来 协 同 引 导 搜 索 不 同 于 先 前 的 方 法 , 例 如ShadowDraw [22],后者在画布上隐藏了数百个顶级结果。我们提出三项技术贡献:1) 基于草图的图像检索的矢量表示。我们学习了一个联合搜索嵌入,它统一了视觉结构的矢量图形和光栅表示,由小说三重DNN架构。独特的是,这种嵌入使2880光栅的检索(例如,照片)内容。这种更高级别的表示被示出不仅增强搜索准确性(subsec.4.1),而且还使得能够扰动查询以形成建议,而不需要像素正则化。2) 搜索意图的引导发现。我们利用辅助(语义)嵌入将搜索结果聚类到池中,每个池代表一个候选搜索意图。例如,棒上的一个圆可能会返回对应于到气球,标语,蘑菇从这些池中绘制的草图中导出查询建议可以引导用户访问相关内容,通过提供查询中不存在的上下文信息来澄清意图。3) 查询扰动。我们提出了一种迭代策略SBIR查询细化,其中用户由用户表示。我们将此转换为对查询扰动的搜索,该查询扰动将搜索嵌入内的编码查询更靠近那些所选意图,将该向量编码为通过DNN反向传播以更新草图的损失(在AP的精神中)。2. 相关工作视觉搜索是计算机视觉和信息检索社区中的一个长期存在的问题,其中,结果的迭代呈现和细化作为相关反馈(RF)[29,21,20]被广泛研究,尽管对于SBIR [16]只有很少的研究。RF是由在每次搜索迭代的结果的交互标记驱动的。用户将结果标记为相关或不相关,因此调整内部搜索参数以改善结果。我们的工作的不同之处在于,我们修改查询本身,以影响后续的搜索迭代,查询可能会进一步增强用户在每次迭代。认识到在草图查询中存在的模糊性,我们将推定的结果分组为语义聚类,并为每个对象类提出对搜索查询的编辑。查询扩展(QE)是一种自动化技术,通过递归提交搜索结果作为查询,从单个一次性视觉查询[19,39,33,27 LiveSketch与QE形成对比,因为它是一个交互式系统,在该系统中,建议查询细化,并由用户可选地合并以帮助消除搜索意图的歧义;因此传达的信息比在单个最初的概略查询中呈现的信息更多。深度学习,特别是CNN(convnets),已被迅速用于SBIR,更广泛地用于视觉搜索,优于经典的基于字典学习的模型(例如,”(《说文》卷30)。Wang等人[34]可以说是第一个通过对比损失网络将草图映射到渲染的2D视图来探索CNN用于草图3D模型检索的人。Qi等人[25]同样,我们也学到了草图和边缘图之间的对应关系。Yu等人探索了细粒度SBIR。[38]和Sangkloyet al.[28]他使用了一个具有三重损失的三分支CNN来学习跨域嵌入。三重丢失模型已经被更广泛地用于视觉搜索,例如,使用摄影查询[35,26,13]。Bui等人[4,6]执行使用三元组模型进行跨类别检索,目前领先于SBIR的Flickr15k [15]基准。他们的系统与视觉美学的学习模型相结合[36],使用[7]中的风格线索来约束SBIR。所有这些现有技术学习深度编码器函数,该深度编码器函数将图像映射到度量搜索嵌入中的点,其中图像对之间的距离与其相似性相关。这样的嵌入可以被二进制化(例如,通过PQ [18])进行可扩展搜索。在以前的工作中,搜索嵌入是使用光栅化草图学习的,即。图像,而不是草图笔划的矢量表示。在我们的方法中,我们采用矢量表示草图,建立在Eck等人的SketchRNN变分自动编码器上。预处理应用于混合[14]和匹配[37]草图与 草图。在 这里,我 们以更通 用的形式 调整SketchRNN,用于我们的交互式照片搜索,以及生成搜索建议,使用Quickdraw50M数据集进行训练[1]。我 们 的 工 作 与 ShadowDraw [22] 保 持 一 致 , 其 中ghosts(从顶部搜索结果导出的边缘图)被平均并覆盖到草图画布上(类似地,[40]用于照片搜索)。然而,我们的系统在意图和方法上都不同。ShadowDraw的目的是教不熟练的用户画草图,而不是作为一个搜索系统本身[22]。技术方法也不同-我们的系统使用深度神经网络(DNN)进行搜索和查询指导,并产生一个单一的可操作草图,而不是一个不可编辑的平均建议云。这简化了建议的呈现,并且不将建议约束到数据集中现有图像的空间。我们的方法通过识别搜索嵌入内的目的地点并通过深度网络(网络权重固定)采用反向传播来生成查询建议,以便更新输入查询,使其映射到这些目的地点。以影响输出嵌入变化为目标的输入图像操作在对抗性扰动(AP)的背景下很常见,其中图像像素被更改以改变CNN的分类(softmax)输出[24,2]。我们受到FGSM [ 12 ]的启发,FGSM [12]直接从分类损失反向传播到输入像素,以诱导噪声,虽然几乎无法感知,但会导致高置信度的错误分类虽然我们也反向传播,但我们的目标不同,因为我们的目标是对查询进行可观察的更改,以指导用户改进他们的输入。我们重新构想的AP在视觉搜索中的交互式查询细化是独一无二的。3. 方法LiveSketch接受矢量图形形式的查询草图Q(作为可变长度的笔划序列),并搜索光栅图像I={I1,.,IN}。我们的双流网络架构(图。2)通过公共搜索嵌入(S)统一矢量和光栅模态。草图和图像内容分别通过RNN和CNN分支进行编码,通过4个全连接(fc)层进行统一;最终层行为产生S∈N256。通过网络的端到端RNN和CNN路径描述了2881R∈N256V∈N 512S ∈N 256Z ∈N 2048光栅嵌入[6]*矢量图形嵌入 *联合搜索嵌入(结构)辅助嵌入(语义)图2.拟议的SBIR框架概述。查询草图(Q,矢量图形形式)和图像(I,光栅形式)通过RNN和CNN分支编码到搜索嵌入S中,通过四个内积层统一。图像通过SI(. );[ 6 ]的图像分支。查询草图通过SQ(. );图1的编码器级。3 .第三章。辅助语义嵌入Z聚类结果以帮助用户在搜索嵌入中挑选搜索目标T 本着对抗扰动的精神,调整笔画Q以使||SQ(Q)− Ti||2,从而朝选定目标发展草图。一对编码函数SQ(Q)和SI(I i),分别用于对草图和图像的视觉结构进行编码;用于学习这些函数的过程在小节中描述。第3.1条一旦学习,图像数据集通过前馈所有I i∈I到S I(. )的情况。 在查询时间,给定Q的结果通过对||2其中||.||. ||2is the L2norm.图2提供了我们的交互式搜索的概述。给定初始查询Q,返回嵌入在S中接近SQ(Q)的图像。虽然这些图像共享Q的视觉结构,但草图的固有模糊性通常会重新定义。结果是语义上不同的内容,其中只有一个子集因此,我们邀请用户通过交互消除其草图意图的歧义。搜索结果被聚集在“辅助”语义嵌入Z内用户将相关性权重分配给几个(m= 3)优势簇。对于每个聚类{C1,...,C m} inZ,搜索目标{T1,..., T m}在S中标识(子节中描述的过程)。3.3)。接受高权重的目标从用户表示的视觉结构,我们将向其演进现有的查询草图Q,以便形成查询建议(Q′)来指导下一次搜索迭代。我们的查询以矢量图形形式表示,以使得能够通过直接修改由Q编码的笔划序列来生成建议,从而避免了对 复 杂 的 像 素 域 正 则 化 的 需 要 。 LiveSketch 更 新Q›→Q′,使得S Q(Q′)更接近目标{T1,., T m}比SQ(Q)处理这些目标和SQ(Q′)作为损失,我们固定SQ(. )并经由RNN 分支传 播回梯度 以扰动笔划 的输入序 列(子节)。3.4),因此建议修改表1. LiveSketch中使用的特征嵌入的总结* 表示搜索索引中未使用的中间嵌入。草图查询。Q’可以由用户进一步增强,并且被提交用于搜索的进一步迭代。3.1. 跨模态搜索嵌入(S)我们希望学习一个跨模态搜索嵌入,其中一个草图查询表示为一个可变长度的笔划序列,和一个图像索引的系统(例如。照片)包含相似的视觉结构,映射到嵌入中的相似点。我们使用三重网络来学习这种表示(图1)。4)包含RNN锚(a)和连体(即,相同的、共享的权重)正CNN分支和负CNN分支(p/n)。RNN和CNN分支将矢量和光栅内容分别编码为中间嵌入V和R;我们在3.1.1 - 3.1.2小节中描述了这些是如何学习的。分支由4个全连接(fc)层统一,除了第一层之外,所有层都具有权重共享,以产生公共搜索嵌入S。因此,fc层编码两个映射V → S的和R<$→ S;我们写这些F V(. )和F R(. )在subsec。3.1.3说明将其纳入一对端到端编码函数 SQ(. )和S I(. 我们的网络(图)2)。3.1.1草图可变自动编码器RNN分支是前向-后向LSTM编码器,包括变分自动编码器(v.a.e.)用于草图编码-解码,改编自Eck等人[14 ]第10段。在SketchRNN v.a. e中,学习确定性潜在表示(z0),多变量高斯参数,决定论的表示(批次z)被采样以驱动解码器并通过以批次z为条件的重现来重构草图。该表示是通过重建损失(和多变量参数上的正则化“KL损失”[ 17 ])的组合来学习的图3.修改后的SketchRNN [14](更改,蓝色)用于通过添加512-D潜在表示和分类丢失来编码/解码笔划序列。与图集成。2(锚)。288222我们调整SketchRNN如下(图(3)第三章。 我们使用Quickdraw 50 M(QD- 3.5M;见第二节)中的3.5M草图从头开始重新训练。4 )在z0之后添加低维(512-D)底颈,从该底颈对批次z进行采样。我们将软最大分类损失添加到该瓶颈中,与原始重建和KL损失项。在训练过程中,我们将协方差降低到10−2以下,n.d. 变量查询草图(Q)被编码为一个序列,3元组Q=[q1,q2,.,其中qi=(δx,δy,l)表示x,y∈φ2中的相对笔数,且笔是否被提起l= [0, 1]; 5-[14] 中 的 元 组 编 码 。 在 瓶 颈 处 可 用 的 中 间 嵌 入(V∈N512)能够跨不同的对象类重建草图(参见图1)。秒4.2)。编码器形成了所提出的三元组网络的锚(图1)。4);我们将编码和解码函数表示为V E(Q)<$→ V和V D(V)<$→Q。3.1.2光栅结构编码器为了编码光栅内容,我们采用Bui等人的架构。[6]为CNN 分 支 。 他 们 的 工 作 采 用 了 一 个 三 重 网 络 与GoogLeNet Inception骨干[32],统一草图(以光栅形式)和图像在联合搜索嵌入。一个重要的属性是草图CNN分支(锚点)和它们的三重网络的连体图像CNN(+/-)分支之间的权重的部分共享。一旦被训练,这些分支产生两个函数:R S(. )和R I(. ),将草图和图像内容映射到联合搜索嵌入。关于这个模型的多阶段训练的完整细节可以在[6]中找到;我们在工作中使用他们的预训练模型,并将他们的联合嵌入作为内部嵌入。在我们的工作中,中间嵌入R∈N256具体地说R S(. )用于训练我们的模型(图。4,p/n)。3.1.3训练联合搜索嵌入端到端的三重网络(图)。4)只使用草图进行训练;从公共Quickdraw 50 M数据集[1](通过RDP [9]进行简化,如[14])中采样的350万张草图(10 K × 345个对象类),并通过在256 × 256 px画布上将笔移动渲染为宽度为1像素的抗锯齿线进行栅格化。笔划序列和该序列的渲染通过锚点(a)馈送,(p)分支,以及随机选择的不同对象类的光栅化草图到负分支(n)。权重通过ADAM使用在从最终共享fc层(搜索嵌入S)可用的激活上计算的三重损失来优化:图4.训练LiveSketch网络;将光栅和矢量内容映射到公共搜索嵌入的编码器。搜索嵌入使用从QD-3.5M采样的光栅和矢量(笔划序列)内容在训练期间,CNN分支(p/n)是RS(. )即[6]的草图分支。然而,分支RI(. )在推理时使用(图。2)。我们的公共搜索嵌入S的草图查询Q是:S Q(Q)= F V(V E(Q))。(二)图5a示出了所得到的嵌入;表示类似视觉结构的光栅和矢量内容在S内混合,但不同的视觉结构形成区别性聚类。3.2. 搜索实现一旦训练,S Q(. )在我们的搜索框架中形成了RNN路径(图1)。2,绿色)用于编码矢量草图查询Q。CNN路径S I(. )(图2,蓝色)用于索引图像进行搜索,采用[6](subsec. 3.1.2):SI(I)= FR(RI(I))。(三)请注意草图分支R S(. 在训练期间使用的(eq. 1)对于图像分支R I(. )的情况。两个函数都映射到相同的中间嵌入R,但是我们为SBIR索引图像而不是草图。3.3. 消除搜索意图给定搜索查询Q,S内的k-NN查找是每-L列(a,p,n)= [m + ||SQ(a) −FR (俄、西)(p))||2−被形成以识别一组结果J=[I1,...,Ik]在哪里JI最小化||SQ(Q)−SI(Ii)||2.在实践中,||. ||2||S|2]+(1)|2]+(1)其中m=0。2是一个磁共振促进系数,[x]+表示x的非负部分。训练为全连接(fc)层生成权重-回想一下ing F V(. )和F R(. )的情况。 端到端功能映射到2883通过乘积量化(PQ)[18]对尺度进行近似能力,最多返回k= 500个结果。结果被聚类成候选搜索意图,并呈现给用户以供反馈。在辅助嵌入(Z)内 执 行 聚 类 , 该 辅 助 嵌 入 ( Z ) 可 从 ResNet50/ImageNet预训练CNN的最终层激活获得。我们写这个函数Z(Ii),在index xing期间预先计算出Ii∈I。2884我我我Q我(a)(b)第(1)款图5.(a)可视化搜索嵌入(S)(从QuickDraw 50 M中抽样的20/345个随机类);矢量(红色)和光栅(蓝色)形式的草图已通过SQ(. )和SI(. )分别。习得的表征在视觉结构上是有区别的但对模态不变。(b)k-NN搜索(L2,k= 500)在编码草图查询S的局部产生S中的搜索结果 (Q);成果分享类似结构但跨越不同语义,一个顶部有十字架的盒子可以用来归还船只、教堂和风车。结果聚集在辅助(语义)嵌入Z并呈现给用户用于排名。3.3.1聚类搜索嵌入S内的SQ(Q)本地的图像可以是语义多样的;单个视觉结构, 一个盒子上的十字架,可以返回教堂,船只,风车,等然而,这些结果将在Z内形成不同的聚类(图5b)。我们应用亲和传播[11]来识别占主导地位的m=3个聚类C=[c1,...,cm]在Z.该算法为所有图像对构造一个亲和图,这些草图的集合T={T1,...,T m},其中T i= Qm,表示搜索目标的集合以及用于扰动用户的查询(Q)以建议新草图的基础Q′,指导后续的搜索迭代。3.4. 用于用户指南的草图扰动搜索目标T与滑块一起被呈现给用户,所述滑块使得能够交互地表示为权重集合Ω ={ω,...,ω}。我们寻求(Ia,Ib)∈J×J对这些进行打分:′1m新的草图查询Q,其更新原始查询Q以d(Ia,Ib)=||Z(Ia)−Z(Ib)||二、(四)聚类是一个贪婪的过程,它迭代地构造C,类似于这些目标的视觉结构,与这些用户提供的权重成比例。为了简洁起见,我们引入以下符号。QV=i选择最佳聚类Ci= I1,...,我从图表上看,迷你-最小化ρ(ci):VE(Qi)描述RNN em内的每个搜索目标。寝具V.类似地,QS=SQ(Q)描述每个目标我我ρ(ci)=Σ(I,I)∈c×cd(I a,I b)+W(c i,C).(五)在搜索嵌入S内。 我们同样使用QV=VE(Q)和QS=SQ(Q)来表示用户分别为V和S为了扰动这幅图,我们求Q′一bii′(类似于QV)′QS在这些嵌入中)。其中W(C)是一个惩罚项,通过阻止选择包含与C中已经存在的图像类似的图像的ci来实现多样性:v.a.e.的可用性。解码器(subsec. 3.1.1)能够生成新的草图(笔划序列),在V内的任何点上进行分配。我们的方法是求QV′使得Q′′VD(Q))可以生成。 的任务ΣW(ci,C)−logd(Ia,Ib)因此,更新Q›→Q′是通过以下方式获得QV′QV和目标QV之间的插值,作为(Ia,Ib)∈ci×χ(C)其中,X(ci)表示已经存在于集合C中的聚类内的图像集合。3.3.2确定搜索目标对于每个聚类i= [1,m],我们识别最接近于查询的视觉结构的代表性图像I_iI=argmin||SQ(Q)−SI(Ij)||2;Ij∈Ci.(七)Ij利用草图(H)的Quickdraw 50 M数据集(QD-3.5M),我们识别出与每个代表最接近的草图Q2885我我用户提供的权重和目标。Q V′ = f(Q V; T).(九)我们描述了两种计算策略(f的实例)′QV 从查询QV(在子节中评估这些),4.2)。3.4.1线性插值一个简单的解决方案是在RNN嵌入V内线性插值,即:Σmflinear(QV;n,T)=QV+ωj(QV−QV)(10)i=1代表形象:Q=min||SQ(q)−SI(I)||二、(八)通过等式得到QV′9、从中提出素描建议Viq∈HiQ通过RNN解码器QVD(Q))的情况。然而,在这方面,2886我我V2我我方法类级实例级LS(Ours)38.4030.81S-ILS-RLS-R-I [6]35.2635.1529.4827.48[28]第二十八话33.2127.06Bui等人[五]《中国日报》12.598.76v-R34.8818.80S-SR-VV-R-洗牌29.3135.9418.2915.71R-V-洗牌29.6118.57图6.生成Q′:线性(顶部)与RNN空间中的非线性(底部)插值(V);后者由于损失方程的反向传播。12更新Q›→Q′s.t。 QS’倾向于由用户在Q S本地识别的搜索目标。示例参见图8虽然Qs和Qs在构造上是局部的,但Qv和Qv不太可能是局部的; 2 V中的可能草图的流形也不是线性的这可能 会 导 致 生 成 不 可 信 的 草 图 ( 参 见 秒 4.2 , Fig.(八)。3.4.2反向传播因此,我们在V,min中执行非线性插值′通过fc层经由反向传播来最小化更新Qv→Qv更接近搜索目标QvF V(. )(eq.(2)减小Q-S和Q-S-θ之间的距离。表2. 基于草图的草图召回(S-S)的准确性,图像(S-I);使用类和实例级mAP(%)在345个向量查询(QD-345)上进行评估。上图:S-I消融;光栅查询(LS-R)和光栅中间嵌入(LS-R-I)[6]。机器人跨查询模态的S-S检索;栅格查询向量(R-V)和向量查询栅格(V-R);还有笔划顺序变体(-shuffle)。4. 实验与讨论我 们 使 用 QuickDraw50M 数 据 集 [1] 和 来 自 AdobeStock1的67M库存照片和艺术品图像(Stock67M)的语料库来评估LiveSketch的性能。QuickDraw 50 M是一个由5000万手绘草图组成的数据集,通过游戏化的分类练习(快,画!)[1]的文件。Quickdraw50M非常适合我们的工作,由于其类的多样性(345个对象类),矢量图形(笔划序列)格式,以及休闲/快速,一次性行为的草图鼓励在练习中,反映了典型的SBIR用户行为[8] ( 与 较 小 , 类 别 较 少 多 样 性 的 数 据 集 , 如TUBerlin/Sketchy,包含更高保真的草图绘制参考′D(Q)=的1Σm′ωj||QS -QS||二、(十一)目标照片[28,10])。我们从Quickdraw50M中随机抽取了350万张草图,类别分布均匀mj 2j=1这类似于对象识别中图像的FGSM对抗扰动(AP)[12],其中通过反向传播修改网络的输入以影响其映射到分类嵌入。在我们的上下文中,我们定义了基于S中的该距离的损失,通过原始草图和更新的草图应该在V中邻近的约束进行正则化:训 练 分 区 以 创 建 训 练 集 ( QD-3.5M; 详 见 第 3.1.3 小节)。对于草图检索和插值实验,我们从Quickdraw 50M测 试 分 区 中 随 机 抽 取 每 类 500 个 草 图 ( 总 计 173K),以创建评估集QD-173 K)。从QD-173 K中抽取一组草图(QD-345),每个对象类一个草图,作为我们非交互式实验的查询。Stock67M是一个多样化的,未注释的图像语料库,用于评估大规模SBIR检索性能。的LAP(Q′)=′D(QV )+α||QV′ − Q V||-是的(十二)数据集是通过从Adobe Stock中权重α = 0。1是帝国主义。 通过通过fc层FV(. )的人:fAP(Q′;V E,T)=argminLAP(VE(q′)).(十三)q′配备滑块来控制每个目标上的相关权重,用户实际上执行线性输入,在S内的内插(SQ(Q)和T之间),2016年底,该网站在QVGA分辨率下产生了大约6700万张图像。4.1. 评估交叉模态搜索我们评估了我们的跨模态嵌入(S)的草图为基础的检索草图和图像的性能Sketch 2Sketch(S-S)匹配。我们评估了我们的嵌入训练在亚秒的能力。3.1.3歧视是指─2887非线性Q-V′输出点Q得双曲正弦值.补间草图视觉结构,对输入模态(矢量与光栅)。我们在QD-3.5M上训练我们的模型,并重新最终,通过RNN解码器的草图建议Q′=V′从QD-173 K语料库中提取草图,使用QD-345作为F D(Q)的情况。 图6对比了线性和非线性(后-prop)方法;图中的视觉示例。8.12016年底从https://stock.adobe.com下载V2888图8.通过我们的反向传播(fAP)方法和V内的线性插值(flinear)比较草图插值,对于船和袋子的细粒度变化(参见TBL. (3)第三章。图7.联合搜索嵌入检索的性能上图:SBIR的Sketch 2图像(S-I)精度@k曲线-参见表1。2表示mAP%和消融符号的关键下图:Sketch 2Sketch(S-S)跨模态匹配。矢量-光栅(V-R)、光栅-矢量(R-V)和笔画混洗实验(-混洗)的类水平(实线)和实例水平询问。使用类别(类级)和细粒度(实例级)度量,探索检索栅格内容(V-R)和检索栅格内容(R-V)的向量查询。对于for- mer,如果检索到的记录与草图对象类匹配,则将其视为匹配对于后者,必须返回完全相同的草图。要运行栅格变体,栅格化版本QD-173 K的绘制是通过将笔划绘制到256×256像素的画布上来产生的(参见第3.1.3)。来自QD-173 K的草图分别通过函数SQ(. )和F R(R S(. ))。图5可视化了搜索嵌入内的草图;类似的结构聚集在一起,而矢量/光栅模态混合。TBL. 2(bot.)和图7(bot.)char-性能优良;矢量查询(1035% mAP)的性能比栅格查询(1029% mAP)高出105%。为了进一步探索这种增益,我们打乱了向量的顺序,中风重新训练模型从头开始。我们惊讶地发现,在类级别上的性能相当,这表明这种增益是由于中风表示固有的空间连续性,而不是时间信息。部分增加可能是由于洗牌作为数据扩增-增强笔划顺序不变性的站。然而,在实例级别时,排序似乎更重要(103%的增益; V-R与V-R-shuffle)。Sketch 2 Image(S-I)匹配。我们使用所有QD-345草图查询(在本实验中没有用户交互)评估了SBIR在Stock67 M上的搜索嵌入性能。为每台机器标注6700万张图像表3. 扰动方法用户研究(MTurk)比较了由对抗性扰动(fAP)和线性插值变量(f linear,f SLERP)启发的查询扰动方案。查询是不切实际的;相反,我们通过Mechanical Turk(MTurk)为前k(k=15)个结果众包每个查询的符号,并计算每个实验的所有345个查询的平均mAP%和precision@k注释是众包的,重复5次。结果总结见表1 。 2 (S-I ) 和图 7( 顶部 ) 。我 们 对我 们 提出 的LiveSketch(LS)系统进行了两次消融:1)使用建议的嵌入S使用QD-345查询(-R)的栅格化版本进行查询; 2)在退化到[6]的中间嵌入R(-R-I)中使用栅格化查询进行查询;我们还对两个fur-其他最近的SBIR技术:由Sangkloy等人提出的非共享三元组GoogleNet-V1架构。[28]和Bui等人的三重边缘图方法。[5]的文件。我们计算类和实例级精度的所有查询,结果在345×15×5 =1026KMTurk注释。我们包埋(LS)优于所有消融和基线,其中矢量查询单独对栅格贡献显著的余量。 添加fc层以创建交叉模态嵌入(-R)略微改善(重要的是,不会降级)通过[ 6 ]可用的中间光栅嵌入R。该方法显着优于最近的三重SBIR方法[28,5]。请注意,S-I和S-S数字是不可比较的;他们搜索不同的数据集。2889方法消融:秒(缺失)基线秒(缺失)LS(Ours)LS-NI LS-NI-R[28]第28话我的世界[五]《中国日报》类级T-T24.90(1.33)38.33(1.33)31.74(0.33)19.12(0.00)46.20(1.00)40.13(1.33)实例级T-T30.74(2.00)45.43(1.67)66.46(3.67)95.27(3.67)80.28(2.67)75.02(1.33)平均值T-T27.67(3.33)41.72(3.00)45.92(4.00)42.69(3.67)60.90(3.67)54.88(2.67)表4.完成任务时间用户研究。检索20个类和实例级搜索目标(18个参与者,每个方法3个)的平均时间比较LiveSketch(LS)交互式方法与消融(-NI)非交互式/一次性;(-R)栅格替代矢量查询;(-I)中间结构嵌入,并与三个基线[6,28,5]。时间(以秒为单位);括号表示平均未命中查询的总和4.2. 评估搜索建议MTurk被用来评估用于形成查询结果(Q′)的草图插值技术的相对性能。我们在RNN中对线性(f线性)和球面线性(SLERP,[14]fSLERP)插值[14- 用由对抗扰动启发的所提出的方法fAP嵌入V,其中由于反向传播,草图经由V中的非线性插值而被扰动。我们还比较了Eck等人[14]使用相同的数据(QD-3.5M)进行训练。MTurkers被展示了一对从QD-173 K中取样的草图Q和Q′MTurker被要求指出哪种插值看起来最自然/人类绘制。每个实验运行从QD-173 K中随机抽取300个类别内和300个类别间对(Q,Q′)。该实验重复5次,从25个独特的MTurker产生3k注释。TBL. 3总结了用户研究结果;非配对t检验[31]以确定显著性(p)。反向传播(f AP,建议)优于V中的直接线性插值(f线性)(18.0% vs. 26.7%,p <0. 002)和类别内(18.7% vs. 25.3,p <0. 030)例(见图8为视觉示例)。在p 0时,f SLERP获得了统计学显著性结果<。03. 在这两种情况下,类别间插值的偏好更强,可能是由于(Q,Q′)的非局部性质导致线性插值偏离合理草图的流形(强制fAP)。即使是V中的线性插值,也可以在类别间和类别内的情况下实现更自然的插值,而不是最初的SketchRNN [14];但这只对前者有意义。4.3. 评估迭代检索我们通过一个时间到任务的实验,其中18名参与者定时搜索20个目标,使用6种方法评估LiveSketch的有效性 我们进行3次消融我们的方法(LS):1)非交互式(-NI),不向用户提供草图建议; 2)草图被栅格化(-R)而不是作为向量查询处理;3)作为-R,但在中间嵌入R内搜索,其退化为[6](-R-I).我们也以[28,5]为基准。图1提供了从研究中采样的代表性查询、建议和聚类结果。TBL. 4对结果进行了汇总,划分了类级和实例级查询(各10个)。提示类级别(类别)查询用户搜索特定对象(实例级(细粒度)查询提示用户搜索具有特定姿势或视觉属性的特定对象(计时从第一个笔画开始,并在用户满意目标已找到时结束(自我评估)。如果用户花了超过三分钟的时间来找到目标,则搜索时间被封顶并被记录为未命中(在Tbl中括号内)。4).与非交互式方法相比,使用交互式方法(LS)观察到任务完成时间(±15使用向量的变体(LS-NI,LS-NI-R,LS-NI-R),尽管查询模态对非交互情况下的平均任务时间的影响可以忽略不计。基线的表现慢了10-20秒,这可以通过更低的亚秒检索性能来解释4.1.在所有情况下,细粒度查询需要更长的时间来识别-但是,与交互式搜索相比,虽然类别级别的搜索时间并没有提高所提出的方法,所花费的时间产生成功的与非交互式消融相比,细粒度草图查询显著减少了15s,与基线相比减少了3倍。所有6种方法都使用了PQ[18]索引,并在Stock 67 M语料库上运行每个查询需要30-40ms5. 结论我们提出了一种新的架构,首次,使搜索的大型图像收集使用草图查询表示为一个可变长度的序列的笔划(即。以“向量”形式)。向量模态使得能够进行seocnd贡献;草图查询笔划的实时扰动搜索被引导向可能的搜索意图-由用户权重交互地指定,该用户权重归因于在每次搜索迭代返回的结果聚类扰动是通过特征编码器网络通过反向传播生成的,受到通常用于攻击对象分类系统的对抗扰动(FGSM [12])的启发我们表明,我们的交互式系统显着减少了大型(67 M)图像语料库的搜索时间,特别是对于实例级(细粒度)SBIR,并且我们的搜索嵌入(统一向量/RNN和图像/CNN模态)与三个基线相比具有竞争力[6,28,5]。未来的工作可以集中在RNN嵌入的改进上,它仍然可以为非常详细的(高笔画数)图纸生成令人难以置信的草图。2890引用[1] 快 , 画 ! 数 据 集 。 https://github.com/googlecreativelab/quickdraw-dataset. 访 问时间:2018-10-11。二、四、六[2] A.阿萨利湖恩斯特罗姆,A. Ilyas和K.郭合成健壮的对抗性示例。CoRR Abs,arXiv:1707.07397v2,2017。一、二[3] Tu Bui和John Collomosse。基于颜色梯度特征的可扩展草图图像检索。在Proc. ICCV Work-shops,第1-8页,2015年。2[4] T.布伊湖里贝罗,M。Ponti和J. Colomosse。基于草图的视 觉 搜 索 的 三 重 卷 积 的 泛 化 和 共 享 。 CoRR Abs ,arXiv:1611.05301,2016。2[5] T. 布伊湖里贝罗,M。Ponti和J.Colomosse。使用三重丢失卷积神经网络进行基于草图的图像检索的紧凑计算机视觉和图像理解(CVIU),2017年。六七八[6] T.布伊湖里贝罗,M。Ponti和J. Colomosse。画出细节:基于草图的图像检索使用卷积神经网络与多级回归。Elsevier Computers Graphics,2018。一二三四六七八[7] J. Collomosse,T.布伊山威尔伯角Fang和H.晋素描与风格:视觉搜索与素描和美学背景。InProc. ICCV,2017.一、二[8] J P Collomosse,G McNeill和L Watts。用于视频检索的手绘草图分组。载于2008年《国际人口权利和政治权利国际公约》。1、6[9] D. H. Douglas和T. K. Peucker.用于减少表示数字化线或其漫画所需点数的算法。制图:国际地理信息和地理可视化杂志,第112-122页,1973年。4[10] Mathias Eitz,James Hays,and Marc Alexa.人类如何绘制物体? 在proc ACM SIGGRAPH,第31卷,第44:1-44:10页,2012年。6[11] B. Frey和D.杜克通过在数据点之间传递消息进行聚类。Science,315:972-976,2007. 5[12] I. Goodfellow,J.Shlens和C.赛格迪解释和处理对抗性的例子。CoRR Abs,arXiv:1412.6572,2015。一、二、六、八[13] 阿尔伯特·戈多,乔恩·阿尔马兹,杰罗姆·雷沃德,戴安·拉鲁斯.深度图像检索:学习图像搜索的全局表示。在proc ECCV,第241-257页,2016年。一、二[14] D. Ha和D.埃克草图的神经表征InProc. ICLR. IEEE,2018年。二、三、四、八[15] 胡瑞和约翰·科洛姆斯。 梯度场HOG描述子在草图图像检索中的性能评价. 计算机视觉与图像理解(CVIU),117(7):790-806,2013。2[16] S. James和J. Colomosse。使用草图查询的交互式视频资产在Proc. CVMP,2014中。2[17] N. Jacques,S. Gu,D. Bahdanau,J.埃尔南戈洛巴托河Turner和D.埃克序列导师:使用kl控制对序列生成模型进行保守在procICML。IEEE,2017年。3[18] H.杰古湾杜兹角Schmid,和P.佩雷斯将局部描述符聚合成紧凑的图像表示。在Proc.CVPR,2010中。二四八[19] Philbin,O.Chum,M.Isard,J.Sivic和A.齐瑟曼。具有大词汇量和快速空间匹配的对象检索在Proc.CVPR,2007年。2[20] A. Kovashka和K.格劳曼用于引导图像搜索中的相关反馈的属性枢轴。InProc. ICCV,2013. 2[21] A. Kovashka,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功