没有合适的资源?快使用搜索试试~ 我知道了~
999O轻松绘制草图:基于噪声容忍草图的图像检索Ayan Kumar Bhunia1 Subhadeep Koley1,2 Abdullah Faiz Ur Rahman Khilji* Aneeshan Sain1,2Pinaki Nath Chowdhury1,2 Tao Xiang1,2 Yi-Zhe Song1,21SketchX,CVSSP,英国萨里大学2iFlyTek-萨里人工智能联合研究中心{a.bhunia,s.koley,a.sain,p.chowdhury,t.xiang,y.song} @ surrey.ac.uk摘要草图使许多令人兴奋的应用,特别是图像检索。害怕素描的问题(即,“我不能素描”),但已被证明是致命的广泛采用。本文解决了这种我们首先进行了一项试点研究,揭示了秘密在于存在嘈杂的中风,但没有那么多的因此,我们设计了一个笔画子集选择器,检测噪声笔画,只留下那些对正确的检索作出积极贡献我们基于强化学习的公式量化了给定子集中每个笔划的重要性,基于该笔划对检索的贡献程度。当与预训练的检索模型作为预处理模块相结合时,我们实现了比标准基线8%-10%的显著增益,并进而报告了新的最先进的性能。最后但并非最不重要的是,我们展示了选择器一旦经过训练,也可以以即插即用的方式使用,以以前不可能的方式为各种1. 介绍由于交互式触摸屏设备的便利性,基于草图的图像检索(SBIR)[11,12,14,38]已经成为图像研究的实用手段,是对传统的基于文本的检索的补充[25]。虽然最初是为类别级别设置而开发的[42,36,59],但后来SBIR进行了细粒度转变,以更好地反映草图的固有细粒度特征(姿势,外观细节等)[46,56,7]。尽管已经取得了很大的进步[3,33,10],但对草图的恐惧已经被证明是致命的,因为它无处不在-*使用SketchX图1:(a)虽然平均等级百分比随着草图从开始到完成而增加,但由于绘制的噪声/不相关笔画,许多单独草图已注意到不必要的突然下降(b)同样的事情在第三个轴上用样本数量可视化,以获得QMUL-Shoe-V2数据集的总体统计数据。[11]这是一个非常复杂的问题在本文中,我们解决了这种这基本上让用户不用担心can’t”我们首先通过实验表明,在大多数情况下,这不是关于草图有多糟糕这一观察在很大程度上启发了我们通过选择可以导致有效检索的最佳子集来消除噪声笔划,从而减轻“不能素描”的这个问题可能听起来很琐碎-例如,如何考虑所有可能的笔划子集作为训练样本,以获得对噪声笔划的模型不变性尽管在理论上是可能的,但该过程的高度复杂性(2N))迅速地使得这种天真的解决方案不可行,特别是当徒手草图中的笔划数量在细粒度SBIR数据集中的范围可以从平均N=9到最大N=15时(QMUL-ShoeV 2/ChairV 2 [56,46])。最重要的是,通过随机笔画丢弃来增加训练数据将导致训练期间的噪声梯度。这是因为在所有可能的子集中,许多这些增强的草图子集1000太粗糙/不完整而不能传达任何有意义的信息来表示配对照片。因此,我们提倡寻找能够维持有效检索的有意义子集,而不是天真地学习不变性。我们的解决方案通常在于检测噪声笔画,只留下那些对成功检索有积极贡献的我们通过提出一种机制来实现这一点,该机制基于该笔划对于检索是有益的(即,做出积极贡献)的程度来量化给定笔划集中存在的每个笔划的重要性我们在矢量草图上工作[4],以便利用笔划级别的信息,并提出了一个草图笔划子集选择器,该选择器学习确定每个笔划的二元动作 笔划子集选择器通过分层递归神经网络(RNN)来设计,该网络对笔划之间的组成关系进行建模。一旦获得了笔划子集,它首先被光栅化,然后通过预先训练的FG-SBIR模型[56],以获得目标照片与地面实况照片的主要目标是选择一个特定的子集,该子集将配对的地面实况照片排名在排名列表的顶部由于光栅化操作的不可微性,我们使用基于强化学习(RL)的训练。由于最佳子集的显式笔划级地面实况不存在,我们试图在预先训练的FG-SBIR的帮助下训练我们的笔划子集选择器特别是,我们使用的演员评论家版本的近端策略优化(PPO)来训练中风子集选择器。除了消除噪声笔划的主要目标外,所提出的方法还以即插即用的方式实现了一些辅助草图应用程序(第5节)。首先,我们表明,一个预先训练的笔画选择器可以用作笔画重要性量化器,以指导用户产生一个草图其次,我们证明了它可以显着加快现有的交互式第三,除了有利于- ING FG-SBIR,我们的子集选择器模块也可以作为一个忠实的草图数据增强器在随机笔划下降,没有太多的计算开销。也就是说,用户可以毫不费力地生成n个最具代表性的子集,以增强许多下游任务的训练,而不是像草图变形[58]这样的昂贵操作或像边缘/轮廓图这样的不忠实近似[9]总之,我们的贡献是,(a)我们第一次解决了基于草图的图像检索的恐惧草图问题,(b)我们在详细的实验分析之后将“不能草图”问题公式化为笔划子集选择问题,(c)我们提出了一个基于RL的笔划子集选择框架,该框架通过与预先训练的检索模型交互来(d)我们展示了我们的预-经过训练的子集选择器可以以即插即用的方式授权其他草图应用。2. 相关作品类别级SBIR:类别级SBIR旨在从用户给定的查询草图中检索特定于类别的照片。与任何其他检索系统一样,深度神经网络已经成为任何最近SBIR框架[14,12,36,59,11,6]的事实上的选择,而不是早期手工设计的特征描述符[49]。总体而言,类别级SBIR利用基于CNN [11,12],RNN [53],Transformer [36]或其组合的Siamese网络[11]以及学习联合嵌入空间的三重排序目标。距离度量用于针对用于检索的给定查询草图的学习的嵌入空间对图库照片进行排名。通过零触发SBIR [12,55]进行跨类别推广,并采用二进制哈希码嵌入[28,42]来降低计算复杂度,已经做出了进一步的努力。细粒度SBIR:Sketch在描述目标图像的细粒度属性方面具有值得注意的优势,这些属性很难通过其他查询介质[45](如文本或属性)进行描述。因此,人们对细粒度SBIR [56]的兴趣激增,其目的是针对用户给定的查询草图进行特定于实例的匹配。最初从图形匹配模型开始[33],随着各种基于深度学习的方法的出现,FG-SBIR研究获得了牵引力[56,46,7,3]。Yu等人[56]第一个开创性的基于深度三元组排名的连体网络,用于学习具有实例匹配标准的联合嵌入空间通过高阶检索损失[46],跨域图像生成[34],文本标签[45]等注意力进一步增强了这一点。最近的FG-SBIR工作包括分层共同注意力[39],基于强化学习的早期检索[7],半监督生成检索联合训练[3]等先进方法。虽然草图对用户的风格有很大的主观性,[40]并且根据绘图者的绘图技巧[ 7 ]而变化很大,这些早期的作品假设现有的注释细粒度数据集是完美的换句话说,严格假设每个带注释的配对草图都是配对照片的完美描述。在这项工作中,我们认为部分草图建模:此外,由于其主观性质,同一草图可能基于用户的感知而被感知为部分或完整。用户可以检索照片[7],创造[50]富有想象力的视觉艺术,或编辑现有的照片[21]1001F∈我--V||F− F||L {−}||F− F||×RV →IF12Ni联系我们R··通过与人工智能代理的反复交互。因此,与草图的动态交互需要基于草图的模型能够处理部分草图。例如,Sketch-RNN [16]可以使用在矢量草图坐标上训练的变分自动编码器来预测可能的最终草图结尾。此外,已经尝试直接识别部分草图[27]并从不完整的草图输入中实现草图到照片的生成[15],其中两项工作都涉及基于图像到图像转换的草图完成最近,已经引入了动态FG-SBIR [7],以便在用户开始绘图时甚至从几个基本笔划中检索。总的来说,这些工作试图在训练过程中包括随机合成的此外,我们的目标是量化顺序绘制的草图将达到最佳阈值点的时刻,在该阈值点处,它对于下游任务具有足够的代表性(例如,检索)。通过这样做,我们可以忠实地训练模型约会每个分支都从ImageNet预训练的VGG- 16 [23]开始,共享相等的权重。给定输入图像IRH×W ×3,我们提取卷积特征映射(I),其在全局平均池化之后,接着进行l2归一化,生成d维特征嵌入。此模型已使用锚点草图(a)、正(p)照片和负(n)照片三元组a<$、p<$、n<$进行训练使用三重损失[52]。 T条纹损失的目的是增加锚点草图与负照片之间的距离δ−=(a<$)(n<$)2,同时减少锚点草图与正照片之间的距离δ+= (a<$)(p<$)2。因此,三重损失marginµ >0可以写成:Triplet=max0,δ+δ−+µ(1)草图的对偶表示:最近的研究重点是草图的对偶表示[4],用于自监督特征学习。在栅格化像素模式下,草图可以表示为尺寸为RH×W ×3的空间扩展图像。另一方面,在矢量形式中,同一草图可以由一系列笔画来表征(s1,s2,···,sK),其中每个笔划是连续的序列代表性的局部草图,而不是随机下降-ping笔划并忽略合成部分的实例点si=(vi,vi,···,vi),每个点都是代表-我我我这张草图太粗糙了,不能表达任何意思。视觉强化学习:强化学习(RL)[22]已应用于不同的视觉问题[26,51]。当存在一种不可微的方式来量化网络状态的好坏时,RL变得很方便,这与带有硬标签的可微损失函数不同。相反,学习通过与环境的相互作用而进步[13,18特别是在草图社区中,RL已被用于建模草图抽象[31,30],检索[7,3]和设计有竞争力的草图代理[5]。在这里,我们的目标是让RL代理摆脱嘈杂的草图笔划,以便更好地检索。从噪声标签中学习:尽管社区生成的标记数据取得了重大进展,但即使对于经验丰富的领域专家来说,准确的标记也具有挑战性[44]。因此,出现了一个单独的研究主题[44,60,60],其目的是即使从噪声数据分布中也能学习鲁棒模型。虽然现有的工作[17,48]主要考虑访问一个大的,嘈杂的数据集以及一个仔细清理的数据子集进行验证,但我们的情况比平常更困难。我们假设每个注释的草图都不是配对照片的绝对完美匹配草图。因此,我们的目标是为FG-SBIR开发一个噪声容忍框架。3. 初步研究:FG-SBIR有什么基线FG-SBIR:而不是复杂的预先训练[35]或联合训练[3],我们使用三个分支的最先进的暹罗网络[3]作为我们的基线检索模型,这被认为是一个强大的基线直到由HW画布中的绝对2D坐标vn=(xn,yn)表示。这里,K是笔划的数量,N i是第i个笔划内的点的数量。个别笔画出现由于笔的上下运动[16]。虽然草图矢量可以通过触摸屏设备轻松记录,但生成相应的光栅化草图图像需要昂贵的光栅化操作[54]:.无论是光栅还是矢量形式,都有其自身的优点和缺点[4].除了比光栅域更有效的计算[54]之外,矢量模态还包含逐笔划的时间信息[16]。尽管如此,草图矢量缺乏空间信息[4],这对于建模细粒度细节至关重要[3,7]。因此,光栅化草图图像是FG-SBIR的标准选择[35,40,39,56],尽管具有较高的计算开销并且缺乏时间信息。初步分析:在运行中FG-SBIR [ 7 ]设置下,注意到由于不相关中风导致的性能障碍。我们不是只评估完整的草图,而是在绘制为光栅化的s k蚀刻图像SkI的每个新的第k个笔划的末尾开始渲染 为([第1条,第2条,,sk]),其中k=1,2,K,并将其通过预训练的基线FG-SBIR模型以获得特征表示( SKI),其次是排名的 gallery图像对它。 我们对Shoe-V2 [56]数据集(线性极限)进行了以下观察:(i)随着草图的完成,排名应该得到提高,然而,我们注意到在绘画片段的后期部分中性能出现了一些意想不到的下降。这意味着后面的不相关笔画起着有害的作用,从而降低了检索性能(图1)。(二)1002≤−--|∈FREEEX·SI∈R∈相 比 top@1 ( top@5 ) 的 准 确 率 为 33. 43% ( 67.81%),若以素描过程中任一时刻的最佳排序作为检索结果,则top@1(top@5)的准确率可达42。54%(73. 28%)。(iii)此外,我们注意到,与相同草图的先前版本Sk I相比,随后添加的笔画降低性能的实例的百分比为43。44%,这是一个关键数字。上限消融:先验分析揭示了处理无关卒中的必要性,我们假设在许多情况下,K可以通过排除不相关的照片来更好地检索配对的照片。不同的人遵循不同的笔画顺序素描。因此,为了模拟不同的可能的笔划顺序,并估计我们可以通过智能笔划子集选择器实现的上限,我们做了以下研究。给定草图中的K个笔划,我们形成(2K1)笔划子集,每次取任意数目的笔划。与“即时”协议不同在此设置下,我们实现了66的超高top@1(top@5)精度。37%(88. 31%)。然而,在实时推理过程中,使用每种可能的笔画组合进行评估是不切实际的,并且我们没有任何明确的方法来选择是一个不适定问题首先,没有明确的标签表示的最佳笔划子集。事实上,可能有许多子集可以导致成功的重新评估。此外,通过蛮力迭代注释整个训练数据集的最佳笔划子集在计算上是不切实际的[5]。在我们的框架中,我们将笔划子集选择器视为二元分类问题。换句话说,对于K个笔画的草图,我们得到大小为RK×2的输出,其中每行都是softmax归一化的,它表示两个类的概率分布p(ai si):选择,忽略。然而,我们没有任何明确的独热标签用于此二进制分类任务。因此,我们让笔划子集选择器代理与预训练的FG-SBIR模型交互,并且使用预训练的FG-SBIR模型F作为向X提供训练信号的评论来学习X。笔划子集限幅近端策略梯度光栅化LSTMFG-SBIRLSTM一个最终的结果。因此,在这项工作中,我们寻求建立作为预处理模块的智能笔划子集选择器本地LSTM全局LSTM残差连接当在任何预训练的FG-SBIR模型之前插入时[56,45],将旨在构建最具代表性的子集以提高整体准确性。4. 容噪行程FG-SBIR概述:我们的初步研究促使我们设计一个笔划子集选择器来消除FG-SBIR的噪声笔划。虽然光栅草图图像对于建模细粒度的对应关系是必不可少的[3],但是在光栅模态中缺少笔划级的因此,利用草图的对偶表示[4],我们在序列向量空间上对笔划子集选择器进行建模。总之,我们的抗噪FG-SBIR由以下两个级联连接的模块(a) 笔划子集选择器作为在向量空间中工作的预处理模块,以及(b)预训练的FG-SBIR,其使用预测子集的光栅化版本用于最终检索。4.1. 笔划子集模型:给定草图-照片对(S,P),草图S可以表示为光栅图像SI和笔划级序列向量SV=(s1,s2,···,sK)。我们设计了一个以SV为输入的笔划子集选择器X(·),目的是预测一个具有K′笔划的最佳子集SV=X(SV),其中K′≤K.然而,选择最佳笔划图2:噪声容限FG-SBIR框架的图示。Stroke Subset()作为草图向量空间中的预处理模块,以消除噪声笔划。选定的笔划子集,然后光栅化和饲料通过现有的预先训练的FG-SBIR模型进行奖励计算,该模型通过邻近策略优化进行优化为了简洁起见,这里只显示了参与者版本。架构:为了设计笔划级选择器的架构,我们的目标是保留局部的笔划级信息,以及笔划之间的组成关系[1],它们共同传达了整体语义。因此,我们采用了一个两级层次模型,包括一个局部的笔画嵌入网络(θ)和全球关系网络(θ),以丰富每个笔画级别的特征的全球语义。特别地,我们通过局部笔划嵌入网络θ(例如RNN、LSTM或Transformer)来馈送具有N i个点的大小为R N i × 2的单个笔划,该网络的θ的权重在笔划之间共享。 我们将最终的隐藏状态特征作为第i个笔划的局部化表示f lRds。然后,将K个大小为RK×ds的笔画特征表示进一步送入一个全局关系网络(θ),其最终隐藏状态fgRds捕获整个草图的全局语义信息。从残差学习[19]中获得灵感,我们将全局特征与奖励1003FSIERF||∼|联系我们RR·|||XFΣ1−X···ΣFKi=1Ki=1K1θ2nlgd∈Σ1Σ通过与LayerNorm [2]的残差连接来实现单个笔划级特征。具体地说,每一个被整体-局部构图层次丰富的笔画特征都被再现出来。i=LayerNorm(f)+f)R. 我...补充θ和θ通过一层LSTM,隐藏状态大小128。此外,我们应用共享线性层(Cθ)来得到 p (ai|si ) =softmax(WXf<$si+bX),其中W X ∈Rds×2和b X ∈R2. 我们将三个模块笔划子集选择器的{Rθ,Eθ,Cθ}作为Xθ。 见图二、4.2. 训练过程1、由于土地的不可利用性,集合选择器训练,我们只需要计算预测子集草图的栅格化版本的特征嵌入(SI),并且我们可以有效地使用G我们在排名空间以及在feture嵌入空间中使用标准的三重损失来计算奖励。1,这被发现提供更好的稳定性和更快的训练收敛。特别是,我们希望同时最小化配对照片的秩和三重态损失。遵循奖励最大化的常规规范,我们将奖励(R)定义为秩的倒数和负三重损失的加权和,如下所示:为了获得最佳笔划的真实性,我们依赖于预训练的FG-SBIR模型来学习最佳笔划子集选择。R=ω11· 秩+ω2· (−L三重态)(2)策略特别地,给定概率分布p(a is i) R2,对于每个笔画在select,ignore上,我们可以从分类分布中采样为a iCategorical([p(a selects i),p(a ignor es i)]),从而我们将得到具有K′笔画的笔画子集SV,其中K ′≤K。为了得到训练信号Actor Critic PPO:我们使用具有剪切的表面目标[41]的近端策略优化(PPO)的Actor-Critic版本来训练我们的笔划子集选择器。特别是,要最小化的非常基本的政策梯度[47]目标可以写成:1Σ预训练的FG-SBIR模型F,我们需要通过F馈送子集草图。为此,我们需要将其转换为-LPG(θ)=−K i=1logp θ(a i|s i)·R(3)由于细粒度SBIR模型仅适用于光栅图像空间[3,7],因此通过光栅化SI =(SV)将顺序sketch vec to r转换为光栅草图图像。 虽然子集采样可以通过Gumbel-Softmax [20]操作放松,但不可微光栅化操作()挤压我们使用来自强化的策略梯度[47对于采样效率,使用重要性的思想采样[32],PPO保持较旧的策略p ′θ(a is i),因此保守策略迭代(CPI)目标为L CPI(θ)= −1Kri(θ)·R,其中ri(θ)=logp θ(ais i)/logp ′θ(aisi). 再往上,剪下的表面--旋转目标PPO可以写为LCLIP(θ)=学习(RL)文献[22]。-1克朗clip(ri(θ),1−ε,1−ε)),其目的是pe-MDP公式化:具体地,给定输入草图 SV(初始状态),笔划子集选择器(θ)充当策略网络,其对选择每个笔划采取动作,并且我们得到更新的状态作为子集草图SV(下一状态)。为了训练策略网络,我们使用作为评论家来计算奖励。 因此,我们可以形成四个元素(初始状态,动作,奖励,下一个状态)的元组,这通常需要训练任何RL模型。为了模拟多个可能的成功子集的存在,我们从完整的草图向量开始展开这个顺序的马尔可夫决策过程(MDP)T次换句话说,对于每个草图数据,我们顺序地对子集笔划进行T次采样,以学习真实笔划子集的多模态性质。根据经验,我们保持事件长度T=5。奖励设计:我们的目标是选择最佳的-可以检索具有最小等级(例如,最佳场景:等级1)的配对照片的笔划的最大集合。 换句话说,查询草图之间的成对距离和配对的照片嵌入应低于使用超参数= 0限制过大的策略更新。二、我们取剪切和非剪切目标的最小值因此最终目标是下限(即,悲观界)。最后一个仅者版本PPO目标变为:KLA(θ)= min(LCPI,LCLIP)(4)K i=1为了减少差异,PPO的演员-评论家版本利用学习的状态值函数V(S),其中S是草图向量S=(s1,s2,,s K)。V(S)与演员网络θ共享参数,其中只有最后一个线性层(C θ)被单个潜在向量上的新线性层(通过平均累积的逐笔特征)替换,预测试图近似奖励值的标量值。因此,最终的损失函数将策略代理和值函数错误时间与熵奖励(En)结合在一起,以确保充分的探索:KLAC(θ)=−(LA−c(V(S)−R)2+c E)(5)i=1查询素描和休息的其他照片的作为如果是固定的,我们可以预先计算所有M个图库照片的特征为G∈RM×D,其中,C1和C2是系数。当我们展开T = 5时的顺序笔划子集选择过程时,对于每个样本,MDP事件上累积的损失为K1不不t=11004不计算照片的特征。 在中风期间,LAC(θ)。1005秩5. 笔划子集排序抵抗噪声笔划:用于训练初始细粒度SBIR模型的收集的草图标签也是噪声的。所提出的笔划子集选择器不仅有助于通过噪声笔划消除进行推理,而且有助于清理训练数据,这反过来又可以在一定程度上提高性能。特别地,我们以逐阶段交替的方式训练FG-SBIR模型和笔划子集选择器,其中FG-SBIR模型使用由经训练的笔划子集选择器产生的干净草图标签。因此,我们的方法提供了一种合理的方法来减轻FG-SBIR数据集的潜在/隐藏噪声[56]。建模检索能力:由于评论家网络试图近似标量奖励值,这是检索性能的度量,我们可以使用评论家网络来量化草图情节中任何时刻的检索能力。更高的标量分数从评论家意味着更好的检索能力。也就是说,我们问的问题是,一个部分草图是否足够好,可以检索。因此,代替多次馈送栅格化的部分草图以进行即时检索[7],我们可以通过仅在其获得潜在检索能力之后馈送来节省显著的此外,由于我们的演员和评论家网络都在草图向量模态中工作,因此它增加了更少的计算负担。On-the-fly FG-SBIR:从部分草图进行训练:最先进的On-the-fly FG-SBIR [7]采用连续RL进行使用排名目标的训练。基于监督的三重丢失[58]的训练,通过随机笔画丢弃获得的合成部分草图进行增强,据称是次优的,因为随机丢弃的笔画经常会消除关键细节,导致增强的部分草图包含的信息不足以描绘配对照片。相比之下,我们使用我们的笔划子集选择器来创建相同草图的几个增强部分版本,每个版本都具有足够的可检索性。虽然连续强化学习训练时间密集,并且据称不稳定[22],但我们可以使用简单的基于三重丢失的监督学习和多个有意义的增强部分草图。6. 实验数据集:我们的实验中使用了两个公开可用的FG-SBIR数据集[56,33,7],即QMUL-Shoe-V2和QMUL-Chair-V2。除了具有逐实例配对的草图-照片之外,这些数据集还包含草图坐标信息,并且因此将使我们能够使用草图向量模态来训练笔划子集选择器。我们使用了最先进的标准训练/测试划分 特别是,在6730(1800)草图和2000(400)张照片从鞋-V2(椅子-V2)数据集,分别使用6,051张草图(1,275)和1,800张照片(300)进行训练,其余用于测试[7]。实施情况:我们进行了所有的实验-在 11 GB 的 Nvidia RTX 2080-Ti GPU 上 使 用 Py-Torch。对于细粒度SBIR,我们使用ImageNet [37]预训练的VGG-16 [43]主干,特征嵌入维数d=512。我们使用Adam optimiser [24]训练FG-SBIR模型,学习率为0.0001,批量大小为16,三重损失的边际值为0.2对于笔划子集选择器,我们使用一层LSTM对局部笔划嵌入网络和全局关系网络进行建模,每个网络的隐藏状态大小为128评论家网络与演员共享相同的权重,只有最后一个线性层Cθ被替换为预测单个标量 值 的 新 层 我 们 使 用 Adam optimiser 训 练 2000epoch,初始学习率为10−4,直到100 epoch,然后减少到10−5。 我们使用16的批量大小,并保留旧的策略网络用于重要性采样[32],情节长度T = 5,采样的实例存储在重放缓冲区中。我们使用重放缓冲区中的采样实例每20次更新当前策略网络,旧策略网络 我们根据经验将ω1和ω2都设为1,并保持c1=0。5,c2=0. 01,则λ= 0。二、评价指标: (a)标准FG-SBIR:与现有的最先进的FG-SBIR框架[35,56]保持一致,我们使用前1名中具有真实匹配照片的草图百分比(acc.@ 1)和前5名(acc.@ 5)列表来评估FG-SBIR性能。(b)飞行中的FG-SBIR:此外,为了展示部分草图的早期检索性能,坚持先前的早期检索工作[7]我们采用两个图,即(i)排名百分位数,(ii)1vs.草图百分比。这些曲线下的面积越大,表明早期检索潜力越大。为了简单起见,在本文的其余部分中,我们将曲线(i)和(ii)下的面积称为r@A和r@B。竞争对手:据我们所知,没有早期的作品直接试图在SBIR文献中设计一个噪声容忍的FG-SBIR模型因此,我们与文献中出现的现有标准FG-SBIR作品进行了比较,并且在“所有草图都是粗略的”的假设下开发了一些自行设计的竞争基线(a)最新技术水平(SOTA):虽然Triplet-SN[56]使用Sketch-A-Net主干以及三重丢失,但Triplet-Attn-HOLEF扩展了[56]空间注意力和高阶排名丢失。最近的工作包括:具有自监督预训练的 Jigsaw-Pretrain , 采 用 基 于 RL 的 微 调 的 Triplet-RL[7],涉及MAML训练的Style- MeUP,Semi-Sup[3]并入半监督范式,以及Cross-Hier[39]利用具有昂贵的配对嵌入的交叉模态层次结构。(b) 自行设计的基线(BL):我们通过随机删除笔划(确保草图矢量长度的百分比不会低于80%)或通过综合添加随机噪声笔划来1006秩5||表1:在标准FG-SBIR设置下的结果。椅子-V2鞋-V2Acc@1Acc@5 Acc@1 Acc@5 Triplet-SN[56]47.4%71.4%百分之二十八点七63.5%[46]第四十六话百分之五十点七百分之七十三点六31.2% 百分之六十六点六三重-RL[7]51.2%百分之七十三点八百分之三十点八65.1%甚至无法击败线性限制的准确性(参见第3节),而我们可以。然而,我们通过保持简单的基线FG-SBIR不变并预先添加一个简单的笔划选择器代理来抑制它SOTA[33]第十三话百分之七十五点三百分之三十六点五68.9%半Sup[3]60.2%百分之七十八点一百分之三十九点一 百分之六十九点九[40 ]第40话百分之七十九点六百分之三十六点四68.1%6.2.进一步分析和见解检索/分类部分草图:[39 ]第39话79.1%百分之三十六点二百分之六十七点八(B)53.3%的aseline-Siamese74.3%33.4% 百分之六十七点八8月54.1%百分之七十四点六百分之三十三点九68.2%StyleMeUp+增强56.1%百分之七十六点九百分之三十六点九 百分之六十九点九对比+垫块58.8%百分之七十七点一百分之三十七点六 百分之七十点一上限78.6%90.3%百分之六十六点三88.3%由我们学习的状态值函数(critic-network)[41]预测的标量值表示部分草图的检索能力,其中概念越高越好。我们在这里训练我们的模型,奖励为1,用于轻松-线性限度59.4%百分之七十七点三百分之四十二点五 百分之七十三点二建议64.8%79.1%百分之四十三点七74.9%类似于[29]的补丁。Augment旨在通过在训练中添加它们来学习对噪声中风的抵抗。StyleMeUp+Augment进一步推进了这一点,其中合成噪声/增强草图混合在[40]的内循环中,通过优化真实草图的外循环来学习不变性。对比+增强强加了一个额外的对比损失[8],使得同一草图的两个增强版本之间的距离应该低于随机的其他草图。我们的预训练基线FG-SBIR模型被称为B-Siamese。6.1. 性能分析对比分析见表1。总的来说,我们观察到我们提出的抗噪声细粒度SBIR的性能显著提高,该SBIR采用笔划子集选择器作为与现有技术水平相一致的预处理神经代理。早期的工作试图解决不同的架构修改[45,33],后来在细粒度SBIR领域,通过适应不同的范例(如自监督学习[35],元学习[40],半监督学习[3]等),见证了最有趣的是,我们简单的笔划子集选择器可以提高基线B-Siamese模型的性能约10。31%,没有任何复杂的Semi-Sup联合训练[3],成本高昂的Cross-Hier分层配对嵌入[39],或StyleMeUp元学习繁琐的特征转换层[40]。此外,Augmnt基线的性能略好于我们的基线预训练的FG-SBIR,因为它从增强/部分草图中学习到一些不变性。虽然我们在StyleMeUp+Augment的稳定训练中遇到了困难,但对比+Augment似乎是一种简单而直接的方法来学习对噪声笔画的不变性而不是建模不变性,我们的目标是消除嘈杂的中风,从而通过可视化提供了一个自由的解释。尽管使用了复杂的架构[39,3],SOTA可解释性 一旦笔画子集选择器与演员-评论家版本被训练,我们将草图以5%完成的渐进步骤馈送到评论家网络(在向量空间中),并记录每个时刻的预测标量值。同时,我们对每个部分实例进行扫描,并通过预训练的FG-SBIR来计算配对照片的结果排名百分位数。在图3中,高相关性表明,评论家网络具有较高标量分数的部分草图往往具有较高的平均排名百分位数(ARP),而具有较低分数的部分草图导致较低的ARP。数量级,局部草图的top@5精度为80。1%,其具有比阈值1更高的预测标量分数。这验证了我们的评论家网络在量化部分草图是否足以进行检索方面的潜力。假设我们重复同样的过程,将分类损失的负值作为预先训练好的分类网络的奖励在这种情况下,我们也观察到部分草图分类的类似一致行为,表明我们的方法对于各种草图相关的下游任务是通用的见补充条款§。图3:(a)部分草图的检索能力:评论家网络V(S)预测得分与排名百分位数之间的相关性(b)在基于笔划子集选择器的数据增强的不同训练数据大小下的性能数据增强:我们的初步研究表明,存在多个可能的子集,可以忠实地检索配对的照片。特别地,我们使用我们的策略网络来获得笔画的重要性度量,使用p(ai si)对检索目标。 通过对p(a is i)进行分类采样,我们可以创建同一草图的多个增强版本,以增加训练数据的大小。为了验证这一点,我们使用图3BL1007中的草图增强策略计算了不同训练数据大小下基线检索模型的性能。虽然准确性仍然1008子集2010稍微好于高数据状态,基于笔划子集选择的策略显著优于标准监督对应部分,从而证明了我们的智能数据增强方法的有效性。即时检索:用随机笔画下降生成的部分草图训练模型会产生噪声梯度,因此这种朴素的基线与考虑完整草图绘制片段进行训练的基于RL的微调不一致。代替基于RL的微调[7],我们从通过我们的评论家网络增强的有意义(保持检索能力)的部分草图中训练了一个动态检索模型,这些草图具有高于1的标量分数。虽然训练连续的RL管道[7]是不稳定和耗时的,但我们实现了具有竞争力的实时r@A(r@B)性能85。78(21. 1)使用基于三重丢失的基本模型,图5:示例显示选定子集的性能优于ShoeV2的完整草图(框中的排名)。照片合成31 51 12 188711 13 29743 621 1 1 2 3 4 2图6:显示在ShoeV2上的合成部分草图与85相比。38(21. 24)如权利要求中所述[7]在ShoeV2上。 从图4中,我们可以看到,在很早的时候,在少数情况下,基于RL的微调[7]表现得更好,而我们的表现更好,因为绘图情节接近完成。 针对早期草图绘制过程过于粗糙,难以检索的问题,通过对局部草图检索能力的建模(阈值为1),可以使栅格化草图的输入次数减少42。2%,性能几乎没有下降(r@A(r@B):85。07(20. 98))。因此,在动态设置下,对部分草图进行建模会导致显著的计算优势。图4:在运行中设置(Shoe-V2)下的比较结果图下的面积越大,表明早期检索性能越好。抗噪声中风:中风子集选择器的重要性在表1中定量显示。虽然它验证了我们在数据集中存在的固有低幅度噪声下的潜力(如图所5),我们进一步的目标是看看我们的方法如何在极端嘈杂的情况下工作。特别地,我们通过合成噪声补丁来增强训练草图,并使用预先训练的检索模型来训练我们的在测试过程中,我们综合添加噪声笔划[29],并在将其馈送到检索模型之前将其通过笔划子集选择器(预处理模块)当排除选择器时,top@1(top@5)下降到13。4%(44. 9%)的合成噪声的存在下,我们的笔划子集选择器可以提高他们到37。2%(68. 2%),通过消除合成噪声中风(见图。(六)。消融设计:(i)不是通过分层LSTM设计中风子集选择器,另一种直接的方法是使用一层双向LSTM,其中每个坐标点都被馈送到每个时间步。然而,top@1(top@5)落后了4。9%(6. 7%),这验证了草图向量的层次建模在我们的问题中考虑组成关系的必要性。在我们的案例中,用Transformer替换LSTM不会带来有意义的改进。(ii)作为一个预处理步骤,我们比较了选择最佳笔划集所需的额外时间。特别是,它增加了额外的22。4%乘加运算和18. 与标准基线FG-SBIR相比,3%额外CPU时间。(iii)与不同的RL方法[41]相比,我们使用PPO actor-critic版本获得了最佳结果,该版本具有剪切的代理对象,其仅比其actor-only替代方案好1。7%最高@1准确度(ShoeV 2)。重要的是,用评论家网络进行训练会导致部分草图的建模检索能力的一个重要副产品。(iv)探索不同的可能的奖励函数,我们得出结论,结合奖励从排名和特征嵌入空间通过三重损失给出了最佳的性能比排名只对应额外的1。2%top@1精度(ShoeV2)。详情请参阅补充资料。7. 结论在本文中,我们解决了“害怕素描”的我们的笔划子集选择器可以检测和消除不相关的(噪声)笔划,从而提高任何现成的FG-SBIR框架的性能。为此,我们设计了一个基于RL的框架,该框架通过与预训练的FG-SBIR模型交互来学习形成最佳笔划子集。我们还展示了如何建议选择器可以增加其他草图应用程序中的即插即用的方式。1212211231457134541186子集完成照片1009引用[1] Emre Aksan,Thomas Deselaers,Andrea Tagliasacchi,and Otmar Hilliges. Cose:合成笔划嵌入。在NeurIPS,2021年。4[2] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。5[3] Ayan Kumar Bhunia,Pinaki Nath Chowdhury,AneeshanSain,Yongxin Yang,Tao Xiang,and Yi-Zhe Song.更多的照片就是你所需要的:基于细粒度草图的图像检索的半监督学习。在CVPR,2021年。一、二、三、四、五、六、七[4] Ayan Kumar Bhunia,Pinaki Nath Chowdhury,YongxinYang,Timothy M Hospedales,Tao Xiang,and Yi-ZheSong.矢量化和光栅化:草图和手写的自我监督学习。在CVPR,2021年。二、三、四[5] AyanKumarBhunia , AyanDas , UmarRiazMuhammad,Yongxin Yang,Timothy M Hospedales,Tao Xiang , Yulia Gryaditskaya , and Yi-Zhe Song.Pixelor:一个有竞争力的素描人工智能代理。你觉得你会素描吗ACM TOG,2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功