没有合适的资源?快使用搜索试试~ 我知道了~
23950部分就是答案:朝着部分输入的场景级FG-SBIR0Pinaki Nath Chowdhury 1,2 Ayan Kumar Bhunia 1 Viswanatha Reddy Gajjala * Aneeshan Sain 1,2 Tao Xiang 1,2Yi-Zhe Song 1,201 SketchX,CVSSP,英国萨里大学。2iFlyTek-Surrey人工智能联合研究中心。0{ p.chowdhury, a.bhunia, a.sain, t.xiang, y.song } @surrey.ac.uk0摘要0我们对困扰场景级草图研究的一个重要观察进行了详细研究,即大部分场景草图都是“部分”的。一个快速的试验研究揭示了以下事实:(i)场景草图不一定包含对应照片中的所有对象,这是由于主观的整体解释造成的;(ii)由于对象级别的抽象,存在大量的空白(白色)区域;因此,(iii)现有的场景级细粒度基于草图的图像检索方法在场景草图变得更加部分化时崩溃。为了解决这个“部分”问题,我们提倡使用最优传输(OT)来以部分感知的方式建模跨模态区域关联性的简单集合方法。重要的是,我们改进了OT以进一步考虑整体部分性,通过比较内模态邻接矩阵。我们提出的方法不仅对部分场景草图具有鲁棒性,而且在现有数据集上取得了最先进的性能。01. 引言0触摸屏设备的普及性引发了关于草图的重要研究进展[6, 16,24, 36, 44]。该领域主要关注对象级别的草图[21, 25,59],研究其抽象性[32]、创造性[25]以及图像检索[9,78]和3D合成/编辑[29]等应用。直到最近,研究工作才开始转向场景级分析[37, 44, 90]。与对象级别的草图[21,59]相比,场景草图不仅在个体对象上表现出抽象性,还在全局场景配置上表现出抽象性。图1(a)提供了一些示例,随机选择的草图与其对应的照片重叠。我们从一个重要的观察开始,即大部分场景草图都是“部分”的。这种部分性发生在两个方面上0* 在SketchX实习0(a)(b)0(c)0图1.(a):场景草图在全局场景配置上表现出抽象性,如将草图随机叠加在其对应的照片上所示。(b):现有的场景级FG-SBIR方法在场景草图变得更加部分化时崩溃。(c):存在大量的空白(白色)区域。此外,场景中的绵羊的草图可能对应于照片中心的绵羊。这需要一种建模区域关联性的解决方案。0前端(i)场景草图不一定包含对应照片中的所有对象,这是由于场景的主观解释造成的,即整体上是部分的;(ii)由于对象级别的抽象,存在大量的空白(白色)区域,即局部上是部分的。通过对现有场景草图数据集进行快速的试验研究可以验证这一点[24]:(i)场景草图中平均包含照片中49.7%的对象;(ii)平均而言,任何场景草图中只有13.0%的区域被其个体对象占据(其余87.0%是空白区域)。在本文中,我们特别针对场景级细粒度基于草图的图像检索(Scene-LevelFG-SBIR)中的这个“部分”问题进行研究。我们首先确认了现有的Scene-LevelFG-SBIR模型中存在这个问题的普遍性,我们通过逐渐遮盖场景草图中的个体对象来测量检索准确性,实证研究了这个问题。图1(b)显示,流行的模型[24,90]在场景草图变得更加部分化时崩溃,这需要一个对部分输入具有鲁棒性的解决方案,并且能够产生最先进的性能。大多数现有的FG-SBIR方法使用的全局平均池化[4,5]显然无法胜任这个任务,因为它以丢失空间场景配置信息而闻名。23960一种天真的替代方法是计算素描和照片中对应区域的局部特征对之间的距离。然而,这种方法并不是最优的,因为素描和照片并不严格遵循区域级别的对齐(见图1)。或者,可以在每个域中独立计算软注意力[64],但这在很大程度上忽视了素描和照片之间的跨模态差距。使用跨模态协同注意力[58,72]听起来是一个可行的选择,但对于实际应用来说是不可行的[1]。与我们的方法相似的一个竞争对手是使用基于图的匹配[15,49]来匹配素描和照片区域,例如Liu等人[44]。然而,基于图的方法存在两个常见问题:(a)它们要求边界框注释,而这并不总是可用的(例如,在[90]上)。(b)最优图构建(或素描)策略可能过于复杂[15,19]。解决这个“部分”问题的关键在于建模跨模态区域关联性。关键是这种关联性需要以部分感知的方式发生。这是因为大多数空白的素描区域不会与照片的任何部分匹配。部分图匹配是可能的[19,68],但在不借助昂贵的边界框注释和复杂的场景图构建过程的情况下是不可能的。因此,作为我们的第一个贡献,我们提倡使用经典的运输理论(例如最优运输(OT)[11])来建模这种区域关联性。基于集合的方法非常适合,因为(i)它们不需要任何显式的数据注释,(ii)自然地解决了这个部分匹配问题[15,80]。虽然使用OT已经可以建模区域关联性,但它还没有考虑到整体性的部分性,即场景配置的差异。这需要一个在每个模态中捕获模态内部场景配置的整体机制。因此,作为我们的第二个贡献,我们通过在各自的区域邻接矩阵[86]中捕获模态内部场景配置来改进OT。因此,在跨模态比较过程中,我们计算这两个矩阵之间的差异,并为每个对应的区域获得一个标量,以与OT一起使用。然而,简单地将模态内部邻接矩阵相乘并不理想,因为它忽略了素描的局部部分性,导致邻接矩阵中有大量接近零的条目,最终导致相乘后的跨模态矩阵过于稀疏。相反,我们通过计算两个区域对的余弦距离来执行加权比较,每个对分别来自素描和照片模态。总之,我们的贡献是:(i)我们展示了场景级别的素描中有很大一部分是“部分”的,无论是整体上还是局部上。(ii)我们通过使用经典的运输问题(最优运输(OT)[11])来建模部分感知的跨模态区域关联性,提出了一个简单的解决方案来解决这个“部分”问题。(iv)我们通过捕捉部分场景素描中的一对一模态内部空间关系来改进OT。(v)我们的方法不仅对部分输入场景素描具有鲁棒性,而且在现有场景素描数据集上取得了最先进的性能。01 请参阅附录以获取进一步讨论 2请参阅[15]以获取详细证明。0更加部分化。(iii)我们提出了一种简单的解决方案来解决这个“部分”问题,通过使用经典的运输问题(最优运输(OT)[11])来建模部分感知的跨模态区域关联性。(iv)我们通过捕捉部分场景素描的一对一模态内部空间关系来改进OT。(v)我们的方法不仅对部分输入场景素描具有鲁棒性,而且在现有场景素描数据集上取得了最先进的性能。02. 相关工作 细粒度素描图像检索素描提供了固有的细粒度视觉描述的能力,开辟了细粒度素描图像检索(FG-SBIR)的途径[4, 7, 8, 52, 53, 57,62]。这项细致入微的任务旨在学习一对一的对应关系,例如实例级别的素描-照片匹配。从可变形零件模型的图匹配开始[40],随着FG-SBIR数据集的出现,出现了几种深度学习方法[63,64]。Yu等人[78]提出了一种用于实例级匹配的深度三元组排序模型。随后,通过混合生成-判别跨域图像生成[53],提供了一个具有高级高阶检索损失的注意机制[64],利用文本标签[63]或预训练策略[5,54]来增强该框架。与FG-SBIR中现有的独立映射素描和照片到联合嵌入素描-照片空间的框架[63,78]不同,Sain等人[58]引入了一种用于FG-SBIR的跨模态协同注意机制,以在检索准确性上取得了显著的改进。尽管提供了无与伦比的检索性能,但对于大规模检索来说,它通常在实践中不适用,因为每次都需要将每个图库照片与查询素描进行比较。在这项工作中,我们推动了一种新颖的距离度量函数,该函数可以在独立的素描/照片分支的输出处工作,并且在中间卷积特征图级别对区域关联性进行建模,而无需进行任何昂贵的[58]成对特征匹配。我们的检索框架可以被认为是“两全其美”,即快速[78]和慢速[58]检索[26,50]。换句话说,我们执行区域级特征匹配,但仍然可以独立计算素描/照片分支,而不像跨模态协同注意机制[58]中需要重复的图库图像特征计算。场景级别的素描随着物体级别(细粒度)基于素描的图像检索的研究成熟,最近的工作朝着更实用但较少探索的场景级别的方向迈出了自然的一步,以便更深入、更丰富地推理关于素描视觉形式的内容[24, 44,90]。Zou等人[90]研究了场景级别素描的分割和上色。Gao等人[24]提出了一种通过生成对抗方法的场景素描到照片的生成,使用了一个顺序的两阶段模块。而Liu等人[44]引入了用于场景素描的FG-SBIR,使用了图卷积[44]。23970卷积网络在很大程度上通过过滤现有数据集[24]中具有太少前景实例(即部分草图)的方式避免了部分草图的挑战性设置。与[44]不同,我们提出了一个场景级FG-SBIR设置,该设置对于缺乏实例级草图-照片对之间对齐、位置对应的“部分”草图的更现实的设置具有鲁棒性。处理部分数据研究不完整或部分数据的一个繁荣领域是图像修复[71, 85,89],其目标是通过在整体区域上进行条件建模来生成(或填充)缺失(或遮蔽)区域。在草图的背景下,有两个广泛的工作方向:(a)两阶段流水线首先尝试通过基于图像到图像转换的条件分布建模来完成部分草图[30,65],然后执行特定任务的目标,如识别[43]或草图到图像[28]生成;(b)单步骤框架[9]直接处理不完整的草图以执行特定任务的目标。与Bhu-nia等人[9]类似,我们的方法是一个能够处理不完整或部分草图的单步骤框架。虽然现有的文献[9,43]研究了对象级部分草图,但我们专注于场景级检索的新颖设置。应用最优传输学习结构相似性而无需显式对齐信息,使得线性优化中的最优传输[70]成为几个下游任务[35, 38,45, 61,84]的重要工具。Rubner等人[56]使用地球移动距离作为基于颜色和纹理的图像检索的度量,其具有运输问题的公式。后来的工作将最优传输扩展到深度学习领域,用于文档分类[33]、少样本学习[80]、领域自适应[17]、自监督学习[45]、神经机器翻译[75]和从单目数据中理解场景使用3D点云[35]。在这项工作中,我们首次研究了将最优传输应用于设计区域级关联性的可微距离度量函数,而无需任何显式的对齐标签,并通过三元组排序目标端到端训练一个跨模态检索系统。学习无监督的区域级对应关系从两个或多个输入数据中匹配相同或相似的结构/内容是各种下游应用[47,81]中的一项基本任务,例如图像拼接[10]、图像融合[48]、共分割[23,76]、图像检索[88]、对象识别[73]和跟踪[74]。区域级对应关系可以通过监督[69, 77, 83]、自监督[18, 39,82]或无监督方式[3, 27, 34, 51,60]进行学习。自监督和无监督方法在训练时不使用任何人工注释,只使用几何[31]或语义[46]约束。与这些工作相比,据我们所知,我们首次尝试将无监督的区域级关联性的能力应用于跨模态检索。0空区域0在草图中0全局特征(草图,照片)0邻接矩阵比较0(草图,照片)0基线0提出的0编码器0局部特征0全局平均池化0区域级最优传输0带权重的邻接矩阵比较0图2.我们提出的场景级FG-SBIR方法的示意图。现有的基线通常在卷积特征图上使用全局平均池化(GAP)。这会丢失对于“部分”场景草图所必需的局部区域特定特征表示。我们提出的方法通过以下方式解决这个“部分”问题,即:(i)使用最优传输的局部特征图的集合距离(L Rtrip);(ii)加权的跨模态比较区域邻接矩阵以捕捉整体场景配置(L G trip)。0在端到端可训练的框架中的模态设置。03. 提出的方法0我们的目标是检索满足部分草图查询约束的场景图像。现有的基于全局特征向量的表示通常通过全局平均池化[42]获得,忽略了这种部分关联性约束,因此无法忠实地从部分草图中检索场景图像。本文旨在通过比较每个草图-照片对之间的相应区域特定特征来建模部分关联性,通过一种新颖的端到端可训练的度量学习损失,使模型能够从部分草图中检索。3.1.基线检索框架0首先,我们简要总结了一个基准检索框架,该框架在SBIR文献中仍然是最先进的。给定一个表示为(S,I)的草图-照片对,使用由θ参数化的特征提取器Fθ(∙)来获取特征图U =Fθ(S)∈RhS×wS×c和V = Fθ(I)∈RhI×wI×c,分别用于草图和照片。Fθ可以由CNN [78],LSTM [36],Transformer [41],Graphs[44,55,65]或它们的组合[5]建模。我们将骨干输出特征图U∈RhS×wS×c和V∈RhI×wI×c展平为:u = {u1,...,um}和v = {v1,...,vn},其中m = hs ws,n = hI wI,u i,vi∈Rc。 R c的每个大小的向量trip = max 0, µ + β+β−(1)=1(2)(4)23980从u或v中的任何一个表示特定的局部区域特征。为了获得单个特征表示,我们应用全局平均池化(GAP)并获得g u =1/m ∑mi=1ui∈Rc和g v = 1/n∑nj=1vj∈Rc,分别用于草图和照片。对于训练,到草图锚点S的距离d(∙,∙)到负照片I-,表示为β- =d(gu,gv-)应该增加,而到正照片I +的距离β + =d(gu,gv+)应该减少。d(a,b)可以是欧氏距离或余弦距离,但我们考虑基于点积的余弦距离(1-a∙b),其中{a,b}已经预先归一化,使得||a||2 = 1,||b||2 =1。训练通过三元损失进行,超参数µ> 0:0这种标准基线存在一些固有的局限性。首先,在卷积特征图上应用GAP会丢失任何局部区域特定的特征表示,没有机会学习区域关联性。其次,区域关联性是一种潜在的或隐藏的知识,我们没有任何明确的标签,这里忽略了这种隐藏的知识。第三,它假设每个配对的草图都是完美注释的,包含来自配对照片的所有显著概念/对象。然而,在现实中,大多数注释的草图都是部分的,并且偏向于注释者的绘画技巧和感知。全局特征向量的表示将不必要地惩罚部分草图的不匹配。因此,这需要进一步研究如何设计一种度量损失[58,78],以便在推理过程中隐含地发现部分草图的隐藏区域关联性,以便在查询草图中推广到任何程度的部分实例。03.2. 向部分关联性迈进0基线的重新解释:我们的基线中全局草图特征向量gu∈Rc和照片特征向量gv∈Rc之间的余弦距离可以重新解释为计算每个局部区域特定特征ui(草图)和vj(照片)之间的所有余弦距离的平均值。形式上,我们可以将d(gu,gv)写成如下形式:0d ( g u , g v ) = (1 − g u ∙ g v )= 1 − ( 1 - g u 与g v的点积 )0Σi=1 ui) ∙(10Σj=1vj)0mn0m个0Σi=10Σj=1 (1 − ui ∙ vj) = 10mn0m个0Σi=10Σj=1 ci,j0加权区域间距离:这个简单的平均操作给每对距离ci,j相等的权重,而不是优先考虑那些实际上具有相似语义的距离。请参见图2的视觉说明。因此,为了在测量部分场景草图-照片对之间的距离时建模区域间的关联性,我们将余弦距离的朴素平均(如方程2)扩展为加权区域间余弦距离:0dW(u,v) = 10mn0m个0Σi=10Σj=1 ci,j xi,j (3)0我们的目标是学习权重xi,j,表示u(草图)和v(照片)特征集中每对局部特征之间的关联性。换句话说,我们计算所有成对距离,但更加重视具有相似语义的距离。我们没有任何关于X∈Rm×n的显式标签,为了建模这种潜在知识,我们借鉴了最优传输[2]的文献。在这里,xi,j被称为从源草图区域ui到目标照片区域vj的“流量”。找到给定ci,j的最优流量xi,j的任务类似于经典的运输问题(TP)[11]。总体而言,我们的目标是为部分草图到照片匹配设计一种加权的区域间距离度量。最优传输:在经典的运输问题中,m个供应商S={si |i=1,...,m}需要向n个需求者D={dj |j=1,...,n}提供货物。单位货物的运输成本ci,j被定义为从第i个供应商到第j个需求者的0需求者是ci,j = (1 − ui ∙vj)。TP的优化目标是找到从供应商到需求者的最廉价的“流量”,由˜X∈Rm×n表示。优化˜X类似于我们的目标,即优先考虑那些区域间距离在语义上相似的情况,从而建模了来自两个特征集u和v的成对关联性。TP的目标可以写成:0最小化X0m个0Σi=10Σj=1 ci,j xi,j0满足xi,j ≥ 0,i = 1,...,m,j = 1,...,n0Σj=1 xi,j =si,0Σi=1 xi,j = dj;i = [1,m],j = [1,n]0查询草图中第i个区域到目标照片中每个区域的总流量由si表示,计算公式为:si = Σnj=1xi,j。同样地,dj表示查询草图中所有m个区域到目标照片中第j个区域的总流量,计算公式为:dj = Σmi=1xi,j。这个优化问题(方程4)属于线性规划[11]的范畴,因为目标和约束都是仿射的,可以使用经典的内点法求解。TP的朴素解法是不可行的[1]。因此,为了在部分草图场景检索中利用最优传输来建模区域间的部分关联性,我们需要一个可微的端到端训练解决方案。解的可微性:我们的目标是使流量X对模型参数θ可微分。为了达到这个目标,我们将方程4重写为涉及模型参数θ的参数凸优化[2]形式:=1(11)23990minimize X0subject to f(X,θ)�0; h(X,θ)= b(θ)(5)0其中,f(X,θ)等价于不等式约束x i,j≥0,h(X,θ)=b(θ)等于等式约束� n j = 1 x i,j = s i和� m i = 1 x i,j =d j对于所有i = 1,...,m; j =1,...,n。为了将涉及三个片段(一个优化目标,一个等式和一个不等式约束)的Eq.5组合成单个可微分的方程,我们用其等式和不等式约束的加权和来增加目标函数,定义为拉格朗日函数:L(X,λ,ν,θ)= c(θ)T X0+ λ T f(X,θ)+ ν T(h(X,θ)-b(θ))(6)0向量λ≥0和ν是双重变量或拉格朗日乘子向量。从Eq.6中,我们寻找与由L(X,λ,ν,θ)返回的最小可能标量值相对应的{˜X,˜λ,˜ν}的最优值。对于Eq.6,假设斯拉特条件成立,则L(X,λ,ν,θ)的最优性的必要和充分条件由Karush-Kuhn-Tucker(KKT)条件[11]给出,可以代数地表示为:0g(˜X,˜λ,˜ν,θ)=0�� XL(˜X,˜λ,˜ν,θ)diag(˜λ)f(˜X,θ)h(˜X,˜θ)- b(θ)0�0� = 0(7)0其中diag(∙)将向量转换为对角矩阵。雅可比矩阵�θ(˜X)提供了我们的区域关联性X相对于模型参数θ的微分,以允许端到端训练。它可以从Eq.7中使用Dini经典隐函数定理[20]推导出来,如下所示:0� θ(˜X)= -� X g(˜X,θ)- 1 � θ g(˜X,θ)(8)0确定等式约束s i和dj:我们之前制定了一种可微分的方法来计算区域关联性X,但我们需要定义Eq.4的两个重要参数s i和d j。我们的假设是所有区域关联性值的总和应该等于给定草图(gu)和照片(g v)的全局特征向量表示之间的余弦相似度。请注意,虽然我们约束X∈Rm×n的总(和)值,但模型可以自由决定如何将总值分配给各个区域关联性(xi,j)以实现最优性。给定全局平均池化向量g u = 1 m � m i = 1 u i和g v = 10n个n j = 1 v j从草图和照片中,所有 xi,j(总值)的求和可以形式化地写为:m个0i = 10j = 1 x i,j = g u ∙ g v=(10m个0i = 1 u i)∙(10j = 1 vj)0m n0i =1(0j = 1 u i ∙ v j)(分配性质)0因此,根据Eq. 4中的等式约束,并忽略常数(10mn)0j = 1 x i,j=0j = 1 u i ∙ v j = � s i = u i 0i = 1 v j(10)0类似地,d j = v j ∙ � m i = 1 ui。因此,我们修改后的距离度量函数dW(∙,∙),它测量两个特征集之间的标量距离,建模草图和照片之间的区域关联性,计算如下:0d W(u,v)= 10m n0m个0i = 10j=1 (1 − u i ∙ v j)˜x i,j0L R trip = max {0, µ w + β + R0其中,β + R = d W (u, v +)是到正样本照片I +的距离。类似地,我们计算负样本照片I − 的β − R。µw是边界超参数。03.3. 保持场景结构一致性0尽管最优传输有助于建模局部区域关联性以测量素描-照片对之间的距离,但它无法保持细粒度检索所需的全局结构一致性[68]。区域关联性可能无法区分个体对象相似但全局空间排列不同的场景素描。例如,将一个素描中的“树”从左上角移动到右下角将得到类似的距离值。因此,我们认为虽然dW(∙)在局部层面上匹配特征,但在考虑全局空间信息方面是次优的。我们通过邻接矩阵形式设计全局结构一致性,该矩阵捕捉空间相关性映射以明确表示全局场景结构。给定素描和照片特征集u = {u1, ..., um}和v = {v1, ...,vn},我们分别计算它们的邻接矩阵如下所示:0A u i,j 0m × m u i ∙0||u i||2 ||u j||2; A u ∈ R m × m0A v i,j 0n × n v i 0||v i||2 ||v j||2; A v ∈ R n × n (12)0我们的邻接矩阵实际上计算了素描和照片模态中的区域自相似性。简单地比较(A u, Av)假设一个特定模态(素描或照片)中的所有区域都对自相似性有贡献[86]。然而,这个假设对于具有空(稀疏)或不相关区域的部分场景素描是不成立的。因此,我们引入了一个加权因子ω u,v i,j,如果(u i, v i)、(u i, v j)、(u j, v i)或(uj, v j)之间的相关性较低,则在比较(A u i,j, A vi,j)时提供较低的重要性。捕捉全局结构一致性的距离函数如下所示:(13)̸24000d G(u, v) =0m 0i=10j=1 ω(u,v) i,j ||A u i,j − A v i,j||10ω(u,v) i,j = (u i ∙ v i)(u i ∙ v j)(u j ∙ v i)(u j ∙0如果m ≠ n,我们使用双线性插值[87]将A v调整为与Au相同的空间大小,以实现矩阵减法。直观地说,如果局部部分素描特征(u i, uj)是一个稀疏区域,它将与局部照片特征集(v i, vj)的相关性较低,这将导致距离函数d G(∙, ∙)中的ω(u,v)i,j的值较低。这种机制忽略了部分素描中的空白和不相关区域,只关注相关区域。因此,我们可以将最终的训练目标定义为L total = L R trip + α ∙ L G trip L G trip = max {0, µg + β + G − β − G} (14)0其中,β + G = d G (A u A v+),由方程13计算得出。类似地,我们计算β − G。α、µ g是超参数。04. 实验0数据集:我们使用了两个支持场景级FG-SBIR任务的基准场景素描数据集:(a) SketchyScene[90]由带有配对卡通风格照片的素描模板组成。我们采用了Zou等人[90]的标准训练/测试分割,其中场景级FG-SBIR的素描-照片对数量为2472/252。平均每个场景素描有16个实例,6个物体类别和7个遮挡实例。(b)与SketchyScene[90]不同,SketchyCOCO [24]包含来自COCOStuff数据集[14]的自然照片和配对的场景素描。根据Liu等人[44]的方法,我们使用1015/210的素描/照片对的训练/测试分割。此外,我们还评估了我们提出的方法在QMUL-Shoe-V2[78]的对象级素描上的泛化能力。QMUL-Shoe-V2包含6730个素描和2000张照片。根据[9],我们分别使用6051个素描和1800张照片进行训练和测试。实现细节:我们的模型在一台11GB的Nvidia RTX 2080-TiGPU上使用PyTorch实现。我们使用ImageNet预训练的InceptionV3[66](不包括辅助分支)作为编码器网络Fθ(∙),其中我们去除了全局平均池化和扁平化层。我们使用Adam优化器进行200个epoch的训练,学习率为0.0001,批大小为16,三元组损失的边界值为0.3,方程14中的α的值设为0.01。我们提出的FG-SBIR的新距离度量不会增加训练参数,因此模型参数的总数与其骨干网络相同。在训练过程中,为了解决方程7中的线性规划问题,我们使用了Amos和Kolter提出的GPU加速凸优化求解器QPTH来计算反向传播的梯度。由于梯度只需要在训练过程中计算,因此对于0在测试中,我们将QPTH求解器替换为OpenCV库中的更快的非可微分求解器[ 12]。使用QPTH解决线性规划问题并计算Eq.5中的区域关联性xi,j的类似于PyTorch的伪代码在附录中提供。评估指标:与FG-SBIR研究一致,我们使用Acc.@q准确率,即在前q个列表中具有真实匹配照片的草图的百分比。为了评估部分设置的性能,我们明确地遮盖场景和物体草图区域中的局部区域,稍后在第4.2节和第4.3节中描述。我们重复我们的评估10次并报告平均指标。由于我们的目标是评估对部分草图的鲁棒性,我们使用完整草图训练网络,但在遮盖的部分草图上进行评估。04.1. 竞争者:0我们与以下几种现有的最先进(SOTA)方法进行比较:Triplet-SN [ 78 ]使用Sketch-A-Net [ 79]骨干网络,使用三元组损失进行训练。HOLEF [ 64]在Triplet-SN的基础上添加了空间注意力和更高阶的排序损失。On-the-fly [ 9]旨在通过采用基于强化学习(RL)的微调来建模部分草图,以进行动态检索部分物体草图。由于现有的场景草图数据集[ 24 , 90]中不可用矢量化的草图数据,我们使用矢量化数据对On-the-fly进行比较。由于早期检索不是我们的目标,我们在草图完成点引用结果。SketchyScene是第一个在场景级FG-SBIR上采用Triplet-SN的工作,但将基础网络从Sketch-A-Net替换为InceptionV3 [ 66],并使用辅助的交叉熵损失来利用可用的物体类别信息。SceneSketcher [ 44]是最近一项使用图卷积网络来建模场景草图布局信息的工作。(ii)由于SOTA方法很大程度上忽略了局部级特征,我们设计了一些基线方法来计算局部草图和照片特征之间的距离:Local-Align使用一种简单的方法,在草图和照片的特征图中的相同位置的一对局部特征之间计算余弦距离。然而,草图和照片并不严格遵循区域对齐。另一方面,Local-MIL利用多实例学习(MIL)范式[ 13],其中在局部草图和照片的一组局部特征中考虑最小余弦距离对进行损失计算。虽然它克服了Local-Align中不对齐局部特征的限制,但MIL是不稳定的,因为它使得剩余的局部特征对不受约束。Local-Self-Atten使用自注意机制[ 67]将全局上下文注入到局部补丁中,以聚合上下文信息,然后计算局部特征之间的余弦距离。03 Amos和Kolter [ 1]中的可微分QPTH求解器使用了一种自定义的原始-对偶内点方法,与使用修改后的单纯形算法的不可微分求解器相比较慢。Triplet-SN [7 8 ]Acc.@ 16 .2<0.1<0.1Acc.@1032.824.2 ± 0.918.5 ±1.1HOLEF [64]Acc.@16.8<0.1<0.1Acc.@1035.925.3 ± 0.7 19.3 ± 1.5SketchyScene [90]Acc.@127.619.7 ± 1.1 13.9 ± 1.4Acc.@1075.060.7 ± 1.2 48.0 ± 1.8SceneSketcher [44]Acc.@131.723.5 ± 1.5 17.2 ± 1.2Acc.@1086.170.7 ±0.957.7 ± 1.3Local-AlignAcc.@131.923.6±1.417.4±1.1Acc.@1086.670.71.157.91.2Local-Self-AttnAcc.@1088.771.80.759.11.1Triplet-SN [78]Acc.@128.722.3±0.49.7±0.9Acc.@1079.673.5±0.367.1±0.5HOLEF [64]Acc.@131.224.6±0.612.9±1.0Acc.@1081.475.1±0.568.4±0.9On-the-fly [9]Acc.@134.129.5 ± 0.5 20.9 ± 0.9Acc.@1079.676.3±0.371.9±1.2Local-AlignAcc.@133.525.7±0.214.9±0.7Acc.@1079.675.60.369.50.8Local-Self-AttnAcc.@1081.479.5±0.171.5±0.5Ours-Local-OTAcc.@139.734.7±0.325.7±1.0Acc.@1082.980.5±0.173.4±0.5Ours-Local-MMDAcc.@138.233.6±0.424.3±0.6Acc.@1082.579.70.273.30.524010表1. SketchyScene上的场景级细粒度SBIR。0方法 完整的草图 p掩码0.3 p掩码0.50SOTA0Triplet-SN [ 78 ] 准确率@1 4.5 < 0.1 < 0.1 准确率@10 26.7 6.9 ±0.5 3.7 ± 0.70HOLEF [ 64 ] 准确率@1 5.3 < 0.1 < 0.1 准确率@10 29.5 7.5 ± 0.33.7 ± 0.70SketchyScene [ 90 ] 准确率@1 32.2 8.1 ± 0.7 4.5 ± 0.6准确率@10 69.3 24.7 ± 0.3 16.8 ± 1.30基线0本地对齐准确率@1 32.7 8.3 ± 0.4 4.9 ± 0.7 准确率@10 70.1 31.6± 0.7 19.7 ± 1.20Local-MIL 准确率@1 33.4 9.7 ± 0.3 5.5 ± 0.6 准确率@10 71.935.3 ± 0.5 21.2 ± 1.10本地自我注意力准确率@1 33.6 9.7 ± 0.5 5.9 ± 0.6 准确率@10 72.537.2 ± 0.8 21.7 ± 0.90变体0我们的-本地-OT Acc.@1 34.9 15.5 ± 0.3 8.1 ± 0.8 Acc.@1074.5 45.3 ± 0.4 29.3 ± 0.70我们的-本地-MMD Acc.@1 34.4 14.5 ± 0.2 7.5 ± 0.7 Acc.@1073.4 43.8 ± 0.5 25.9 ± 1.10提出的方法 Acc.@1 35.7 20.6 ± 0.3 10.6 ± 0.9 Acc.@10 75.149.2 ± 1.1 29.9 ± 1.20SketchyCOCO0SketchyScene0图3. 使用我们提出的方法在SketchyCOCO [ 24 ]和SketchyScene[ 90 ]上的定性前5个检索结果。蓝色表示真实照片。0局部化特征映射为Local-Align。(iii)简单地计算草图和照片之间的局部特征距离无法捕捉底层局部特征空间的几何形状[22]。因此,我们设计了两种我们提出的方法的变种:Ours-Local-MMD从我们提出的方法中去除了区域关联性,并用最大均值差异(MMD)来比较考虑底层特征空间几何形状的局部草图和照片特征。Ours-Local-OT用更准确的[ 22]最优传输替换了MMD,用于计算局部特征之间的区域关联性。04.2. 部分场景草图的评估0我们对来自SketchyScene [ 90 ]和SketchyCOCO [ 24]数据集的场景草图进行了比较研究。我们的实验设置包括:Complete Sketch,评估原始输入场景草图。p mask =0.3,在两个数据集中使用场景草图的实例分割图来遮罩30%的草图对象。类似地,p mask =0.5,分别遮罩50%的草图对象。性能分析:从表1和表2我们得出以下观察结果:(i)所有SOTA的性能0表2. SketchyCOCO上的场景级细粒度SBIR。0方法 Acc.@q 完整草图 p mask 0.3 p mask 0.50SOTA0基准线0本地-MIL Acc.@1 32.5 23.7 ± 1.2 17.7 ± 1.2 Acc.@10 87.8 71.1± 0.9 58.5 ± 1.30变种0我们的-本地-OT Acc.@1 34.3 24.7 ± 1.2 18.7 ± 1.5 Acc.@10 89.275.6 ± 1.1 65.7 ± 1.20我们的-本地-MMD Acc.@1 33.9 24.2 ± 0.9 18.5 ± 1.3 Acc.@1089.1 74.6 ± 0.9 63.2 ± 1.50提出的方法 Acc.@1 34.5 25.1 ± 1.9 19.2 ± 1.4 Acc.@10 89.378.3 ± 1.6 69.3 ± 1.70表3. QMUL-Shoe-V2上的对象级细粒度SBIR。0方法 Acc.@q 完整草图 p mask 0.3 p mask 0.50SOTA0基准线0本地-MIL Acc.@1 35.5 29.9 ± 0.1 21.0 ± 0.9 Acc.@10 80.6 79.1± 0.5 71.3 ± 1.10变种0提出的方法 Acc.@1 39.9 35.3 ± 0.2 25.9 ± 0.7 Acc.@10 82.9 80.9± 0.1 73.4 ± 0.70当将 p mask 从 0.3 增加到 0.5时,性能显著下降。这验证了我们的直觉,即在部分场景素描设置中使用全局特征向量是次优的。(ii)我们使用局部特征的基线比部分场景素描设置的SOTAs更具韧性。这证明了在部分场景素描中建模局部特征的必要性。然而,抽象场景素描和照片没有局部对齐的严格空间对齐,这是Local-Align相对于其他基线性能较差的原因。Local-MIL仅考虑素描和照片中一组局部特征的最小距离对于损失计算,但对其他对不加约束。这导致训练过程中的不稳定性,解释了其性能较Local-Self-Atten差的原因。(iii)由于其在底层局部特征空间中捕捉几何信息的能力,Ours-Local-MMD和Ours-Local-OT优于基线。24020Ours-Local-OT的性能略优于Ours-Local-MMD,这是由于最优传输在建模局部特征空间的底层几何形状时具有更好的准确性。最后,我们提出的方法利用区域关联的最优传输和用于场景结构一致性的加权亲和矩阵优于所有竞争方法。图3显示了场景素描数据集上的定性检索结果。04.3. 部分物体素描评估0FG-SBIR中的大多数SOTAs都是针对物体级别的素描开发的。因此,为了公平比较并研究我们的方法对部分物体级别素描的泛化能力,我们使用QMUL-Shoe-V2数据集进行FG-SBIR。我们的实验设置包括:使用原始物体素描的完整素描。对于 p mask = 0.3 和 p mask =0.5,我们分别遮盖了30%和50%的笔画。我们使用可用的点坐标和笔状态信息来生成笔画。性能分析:从表3可以看出:(i)除了On-the-fly之外,所有SOTAs的性能在从 pmask = 0.3 到 p mask = 0.5遮盖更多笔画时都会下降。On-the-fly在SOTA
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功