草图风格的模型转移：基于零射击SBIR的适应和区分学习

15 浏览量更新于2023-10-25 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7462(a)正常BAS-SBIR（b）拟定草图3 T培训培训编码器看到1.2.查询查询查询培训培训编码器编码器看不见检索适配编码器检索Sketch3T：零射击SBIRAneeshan Sain1，2 Ayan Kumar Bhunia1 Vaishnav Potlapalli*Pinaki NathChowdhury1，2 Tao Xiang1，2 Yi-Zhe Song1，21SketchX，CVSSP，英国萨里大学2iFlyTek-萨里人工智能联合研究中心{a.sain，a.bhunia，p.chowdhury，t.xiang，y.song}@ surrey.ac.uk摘要基于零拍摄草图的图像检索通常要求将训练好的模型应用于不可见的类别。在本文中，我们提出质疑，认为这种定义的设置与草图固有的抽象和主观性质不相容-因此，我们扩展EST-SBIR，要求它转移到类别和草图分布。我们的主要贡献是一个测试时的训练范例，可以适应使用一个草图。由于没有配对的照片，我们使用草图光栅矢量重建模块作为一个自我监督的辅助任务。为了在测试时间更新期间保持训练的跨模态联合嵌入的保真度，我们设计了一种新的基于Meta学习的训练范式，以学习由该辅助任务引起的模型更新与区分学习的主要目标之外的模型更新之间的分离大量的实验表明，我们的模型优于国家的最先进的，由于所提出的测试时的适应，不仅转移到新的类别，但也适应新的素描风格。1. 介绍基于草图的图像检索（SBIR）现在是视觉社区中一个成熟的主题[14，16]。研究工作主要集中在解决由抽象[33]、绘画风格[47]和笔画显著性[19]引起的草图-照片域差距。尽管取得了长足的进步，该领域仍然受到数据稀缺问题Zero-Shot SBIR（Zero-SBIR）特别代表了这一推动解决数据稀缺问题的主要工作。它专门从类别转移的角度研究了稀缺性问题，并努力利用来自可见类别的草图-照片对来训练一个模型，*使用SketchX图1.正常的EST-SBIR方法获得较低的准确性，因为它们使用在可见数据上训练的模型权重从看不见的数据中检索在推理过程中，我们的模型（Sketch3T）通过辅助任务适应测试分布，在检索之前，得分更好。可以直接应用于那些看不见的（见图1（a））。在本文中，我们质疑这一点，否则通常AC-在定义级别上设置。重要的是，根据定义，能够将训练模型原样应用于不可见类别的假设与草图数据的固有主观性质不相容这在很大程度上导致了一个模型，它可能很好地理解了语义类别的转变，但对草图风格和抽象级别的变化并不敏感（这两者都是草图中的普遍问题[47]）。缓解这个问题是特别重要的SBIR的实际适应，否则检索性能将招致显着下降因此，本文扩展了传统的定义的EST-SBIR，以涵盖这一新的问题，即，一个新的EST-SBIR框架，（i）不仅将知识转移到未知的类别，（ii）还适应新草图的独特风格。我们通过采用一个测试时训练框架来实现这一点，该框架在推理时适应新的类别和新的风格。也就是说，我们不是通过正常的训练来预测分布的变化，而是打算学习元学习主要目的（三重丢失）编码器辅助重建培训推理重建7463他们在测试时间。我们的解决方案的美妙之处在于，我们在没有任何额外的训练草图-照片对的情况下实现了更高的准确性，但是只需要一个查询草图，不超过典型的EST-SBIR设置中所需的内容（图1）。由此可见，这个草图将首先将模型调整为不可见的样式和类别，然后再次用作查询，以使用更新的模型进行检索，所有这些都是测试时间。尽管直观，但实现这个测试时间训练框架并不简单。有两个主要的挑战：首先，我们只能访问查询草图在推理过程中，没有任何标签或配对的照片进行监督。其次，这种测试时间更新不应该降低已经使用草图对学习的联合嵌入（进行检索）第一个问题的解决方案需要一个任务，其中标签可以在推理本身期间自由/合成地获得在这里，我们巧妙地利用了草图的矢量化特性，并利用草图-光栅到草图-矢量转换的自我监督任务[5]来更新推理时的特征提取器。因此，通过这种转换操作，模型会使自己适应测试草图的新样式/类别。第二个问题在模型设计中得到解决。特别地，我们将所述草图自我重建模块作为元学习框架内的辅助任务进行整合[26]。因此，该模型是元学习的，一种方式，使得辅助任务上的更新仅发生在内部循环中，这然后防止其通过三元组丢失而使其更新发生在外部循环中的其它地方的联合嵌入空间失真。这种训练策略基本上确保了训练的模型现在知道如何适应辅助任务丢失而不会对潜在空间产生太不利的影响，并且相应地防御来自草图自重构辅助任务的测试时间更新更具体地说，我们的框架在三个不同的分支中共享一个特征 2（左））：（i）主分支使用成对的草图-照片信息学习三重损失[66](ii)一个辅助草图分支，其集中于自模态重构，以更新和调节共享特征提取器，使其朝向更好的草图编码，以及（iii）一个辅助照片分支，其中我们使用照片到边缘映射的转换来调节照片特征。具有此照片分支还提供了在看不见的测试集照片库上更新模型以产生更好的照片特征以供检索的选项，然而这不是强制性的。请注意，只有辅助草图分支（以及共享特征提取器）在测试时根据查询草图进行更新我们的贡献是：（a）我们提供了一个新的扩展，在EST-SBIR范式，提出了一个新的测试时训练框架，动态地适应训练的编码器，以新的草图（b）为了重新训练可转移的跨模态嵌入知识在推理过程中，我们提出，元学习框架，其将主要辨别学习与辅助任务集成，使得来自后者的更新被约束为有利于主要目标。（c）广泛的实验和烧蚀证实我们的方法优于现有的最先进的方法。2. 相关作品基于草图的图像检索（SBIR）：SBIR涉及找到与给定查询草图相对应的图像。为了检索相同类别的照片，类别级SBIR [12，49]开始使用手工制作的描述符[60]，如SIFT [31]，梯度场HOG [22]，边缘局部方向的直方图[44]或学习关键字[45]，用于构建局部[22]或全局[42]联合照片草图表示。转移到深度学习，方法[11，28，64]通常训练类暹罗网络在跨模态联合嵌入空间中的距离度量上获取相似的照片，超过排名损失[12]。当代研究包括将草图特征嵌入到二进制哈希码[28，68]中以便于计算。然而，Sketch作为一个查询[10]，以其建模细粒度细节的能力而自豪。因此，研究从可变形部分开始推进到精细SBIR [7，38，52模型[25]。在新数据集[54，66]的帮助下，FG-SBIR随着引入三重排序模型[66]而蓬勃发展，学习联合草图-照片流形。注意机制以及高阶损失[54]，混合生成-区分跨域图像生成[39]，文本标签[53]和基于混合模态拼图求解的预训练策略[40]，进一步增强了它。虽然Sain等人[46]在草图中发现了跨模态层次，Bhunia等人。[8]在早期检索场景中采用了强化尽管进一步的工作已经通过半监督学习解决了低资源数据[4]，或者通过元学习分解解决了草图中的风格多样性[47]，但在推理期间进行训练以弥合训练测试数据分布差距，在SBIR中仍然看不到。Zero-Shot Learning：为了解决数据稀缺问题，SBIR管道中出现了一个独立的文献分支，旨在将从可见的训练类中学到的知识推广到不可见的测试类别。Yelamarthi等人首先提出了零发射（ZS）SBIR管线。[65]，目的是通过图像到图像转换从给定草图近似照片特征，从而将草图-照片特征联合对齐以概括到看不见的类别，从而最小化草图-照片域间隙。相反，后来的作品[14，16]使用类标签的语义表示（word2vec）来学习能够语义转移到看不见的类别的联合流形。虽然[16]使用对抗训练来对齐草图，照片和语义表示，[14]采用梯度反转层来最小化草图-照片域间隙。其他工作包括通过知识库保存培训知识7464F·→i=1F·θ^LF^（2）θ，θe p^|| −||Jj=1i =1--方法 [29] 以提高通用性，并通过具有图形卷积的Kronecker融合层[50]减轻草图-图像异构性，从而增强数据之间的语义关系，以实现用于BS-SBIR的生成式哈希方案。虽然早期的EST-SBIR方法在训练后固定模型权重，但我们提倡在推理过程中适应新类的方法请注意，这种然而，我们无法访问在EST-SBIR设置下未见过的类别中的标记为了适应看不见的类，我们因此对草图和照片分支各自采用自监督任务，其损失可以使用可以自由/合成获得的标签来计算。此外，这种自我监督的目标应该吸收范围与几个变量[1，35，43，48]。除了在训练过程中使用它来在测试时场景中调节我们的模型外，我们还将其修改为元训练可学习的特定于笔划的权重以进行重建，就像MetaSGD中的学习率一样[26]。3. 背景研究基线SBIR：基于草图的图像检索旨在检索与草图查询有关的图像。对于类别SBIR [12]，图像从具有不同类别的图像的图库中检索，并且理想地属于与草图相同的类别形式上，我们的模型学习了一个嵌入函数θ（）：RH× W ×3Rd，将光栅化的草图或照片I映射到d维特征。给定一个G=C iM类别的图库，每个类别有N i张照片，我们的核心SBIR模型获得一个列表光（p）特性G^=Fθ（{pCi}Ni |M）。此后，在边缘设备部署的合理范围内。自监督辅助任务：由于推理过程中没有标签，我们选择的测试时训练任务应该是自监督任务。自我监督涉及设计可以在没有人类注释的情况下学习语义信息的借口任务[23]，例如图像彩色化[69]，超分辨率[24]，帧识别[32]，解决拼图[36，40]，图像计算成对距离，并且对应的图像在精度度量上检索[14]。最先进的CNN（θ（））提取查询草图（S），匹配照片（P+）和不匹配照片（P-）的特征，这些特征在三重损失目标上训练[66]，其中最小化损失意味着使草图特征（f S）更接近正照片特征（f P+），同时使其远离联合嵌入空间中的负照片特征（f P-）。补绘[41]、相对补丁位置预测[15]等。LTri = max{0，m+δ（fS，fP+）−δ（fS，fP−）}（1）重要的是，Asano等人。[2]在单个图像上显示了自我监督学习，可以产生概括性很好的低级特征。然而，它们使用复杂的元组选择[32]或补丁采样策略[36，40]和关系操作，这导致需要调整的批量大小，采样策略或数据平衡方面的复杂设计问题。因此，我们选择简单的自模态重建测试时的培训。作为训练期间的辅助任务，它应该提高主要任务的鲁棒性[20]，如旋转预测[58]或通过熵最小化[62]。类似的概念已被用于少数镜头学习[55]，主泛化[9]和无监督域自适应[27，57]。接下来，我们在训练过程中分别使用光栅到矢量解码和图像到边缘映射转换作为草图和照片分支的辅助任务Meta Learning：这旨在从一系列相关任务中提取可转移的知识，以帮助适应一些训练样本的未知任务[18，61]。一般来说，这些算法分为三类。基于度量的方法[51，59]努力创建一个度量空间，其中只需几个样本就可以有效学习。基于记忆网络的方法[37]获得跨任务的知识，以概括看不见的任务。基于优化的技术[18，35，56]优化模型，使其能够快速适应任何测试数据。具体来说，我们使用流行的模型不可知元学习（MAML）算法[18]（增强为MAML++ [1]），因为它与通过梯度下降训练的任何模型兼容，并且应用其中，δ（a，b）=ab2，是距离度量，m是根据经验获得的边缘超参数。测试时训练：在推理期间，给定查询-sk etch（ST），基于代理任务更新训练的特征提取器（θe）这项任务必须自我监督，以避免标签成本。然后由更新的模型（θe）表示的特征用于计算用于检索的成对距离。在推理过程中，受标签不可用的限制更重要的是，这个任务也可以在训练过程中使用，作为一个辅助任务来改进模型因此，我们有三组参数：共享特征en-编码器（θe），该e不包括主任务参数（θp）和辅助任务参数（θa）。在测试时间训练期间，使用辅助任务丢失（Laux）来更新共同特征提取器以在ST上执行主要任务，minaux（ST;θe，θa），fST=（ST）θe在ST上操作之后，θe作为标准实践被丢弃，并且特征提取器用θe重新初始化以用于下一测试样本上的新4. 方法概述：我们的目标是设计一个SBIR框架，该框架通过将训练模型与测试数据分布对齐来学习缓解测试训练分布差距，从而实现通过几个梯度更新步骤了解未知类7465e∈F·×S·（MSE）不三SP+SP−Loss [4]L（t）=−103利用线性层r将特征映射到dp，Hθp（·）：R不t tt∈图2.我们的框架。我们的模型在主要和辅助任务上进行训练（左），元学习笔画权重。在推理过程中（右），模型首先（可选地）更新测试集照片分布，然后进行草图特定的测试时间训练以进行检索。更好的检索精度。为此，我们设计了一个SBIR模型，该模型在元学习框架中进行训练，通过辅助训练进行增强，并通过测试时训练范式进行增强（首次）。首先，一个功能前-拖拉机（Sec. 3（i））对查询草图（S）进行编码，其匹配为了更好的学习。面向灌输辨别知识，该模型在以下等式的跨模态三重目标上训练。1，如：Lθe，θp= max{0，m+δ（fdp，fdp）−δ（fdp，fdp）}（3）photo（P+）和unmatched one（P−），分别使用θ（）获得特征f S、f P+和f P−，所有Rd。在此之后，模型在两个分支中进行训练（图1）。2）。而主分支（θ p）经由三重损失目标在这三个特征上灌输跨模态判别知识（等式2）。 1），在自模态重构损失上训练辅助分支（θa）以改进主要任务。因此，委员会认为，我们对草图执行光栅到矢量解码，对照片执行照片到边缘映射转换，以获得重建损失。此外，我们将可学习的权重与元学习框架中的其他模块一起元学习的每个草图笔划相关联，以吸收重构期间笔划的相对重要性的知识，从而获得更好的检索精度。对于推理过程中的每个测试样本，首先使用训练参数（θe）初始化特征提取器。 Fo l o wingSec. 3（ii）中，通过重构损失来更新以适应测试分布。使用由更新的模型提取的特征进行检索。4.1. 模型架构辅助分支：由于无监督测试-时间训练范例，我们需要选择一个辅助任务，该任务（a）是自我监督的，因此它可以在推理过程中免费执行，并且（b）可以以某种方式补充主要任务，使得学习到的额外特征提供对输入数据的更广泛解释[30]。因此，我们选择一个自我模态重建任务的方式。在这两种情况下，潜在特征首先被减少到较低的da维度。对于草图，由于矢量坐标可用，我们执行草图光栅到矢量解码。草图矢量化：在矢量格式可以使用五个-用元素向量vt=（xt，yt，q1，q2，q3）RT×5表示笔的状态，T为序列长度。本质上，（xt，yt）表示归一化H W画布中的绝对坐标值，而最后三个表示三个相应笔状态的二进制独热向量[19]：笔接触纸，笔抬起和绘画结束从一个d a维草图要素（f da）开始，线性嵌入层获得初始隐藏的状态（ht|t= 0）的解码器RNN（θS）为：我们的管道从特征提取器（θe）开始，它是一个dS分支为主要分支（θp）和辅助分支（θ a），主分支（θ p）用于跨模态判别学习，辅助分支（θa）用于自重构任务。特征提取器（两个分支之间共享）首先对照片或草图图像进行b h.然后更新为：h t=RNN（h t−1; [f Sa，t−1]），其中t−1是最后一个预测点，[ ]表示连接。一个完全连接的层然后预测五个-每个时间步的元素向量：Wt=Wy ht+by，其中t=（xt，yt，q1，q2，q3）∈R2+3-Fθ（·）：RH×W ×3→Rdt t t12 3e坐标，最后三个是笔态。使用（xt，yt，qt，qt，qt）然后相应地在任一分支中使用该值。主要分支：除了主干特征提取器之外，该分支降低了前→作为第t步的地面实况，均方误差[47]L（t）=xCate goricalcampaign-entropyCEi=1用于exp（qj）q型测井3j=1外环内环培训低亮度一+-（一）编码器辅助照片解码器边缘地图草图解码器辅助草图2.相同光适应的概览图矢量（一）一+3.低调-低调草图适应推理为下一个查询重新初始化提取器检索草图1. 仅在测试集图库照片上一次性更新特征提取器照片解码器经过培训的编码器边缘图GRUGRUGRU不ΣDexp（qi）7466SSL·∈一P+P+JTJSSJrec一ϕrece一rec一我我TRN三三recrecepΣΣ^^. ∇L∇LΣ分别训练绝对坐标和笔状态预测（soft-max归一化），如下：如果学习每个中风特定损失的权重值，则可以提高结构，使得模型更好地适应，1L（θe，θ）=.（吨）+L（t）（四）对于那些具有更高语义的笔画，rec的Tt=1MSE CE意义直觉上，我们的模型因此学习了一个跨任务的知识，在给定的草图中，cer的属性照片到边缘映射转换：边缘映射与草图（两者均仅包含结构信息）相比具有比照片更低的域间隙，使得该任务能够对齐梯度以支持更好的草图表示，从而比直接照片到照片转换更好地增强主要目标。对应于匹配照片的边缘图被创建为E = edge（P+）RH× W×3，其中edge（）是使用灰度输入图像上的2D滤波器从照片中提取边缘图的函数。我们的潜在正照片特征（fda）被馈送到卷积去编码器DecθP（·）：Rdp→RH×W ×3，以获得边缘图E=Dec（f da）。因此，我们的重建损失为：LP（θe，θP）=E−E2（5）F或记法brevity，有时我们使用θa={θS，θP}。tain strokes可以更接近于MAML的初始化参数的编码知识相反，在使用封装在MAML的初始化参数内的平均知识进行检索期间，在冗余或分散注意力的某些笔画之间可能存在因此，在外环自适应期间，模型更新应该优先考虑关于那些特定笔画的优化，这些特定笔画的语义重要性更倾向于关于模型初始化的未知数因此，我们打算学习笔划特定的权重，用于逐笔划重建损失，而不是对所有笔划进行平均。元优化：关于影响这些权重的因素，文献表明，用于内部循环自适应的梯度包含与距离相关的知识[3a协议（即，这些信息需要进一步学习4.2. Meta学习辅助重构概述：减少测试训练数据分布差距，特别是对于具有不受约束多样性[47]这是一项非常艰巨的任务。为了减轻我们的负担-单独进行考试时间培训将是一个雄心勃勃的目标，如果或适应期间的同化）对模型的初始化参数。计算所有模型参数的梯度是相当麻烦的，我们计算第t中风特定重建损失的梯度，S（t）到最终解码步骤（参数k），（θ，θS）。不是不够的。因此，我们采用元学习训练范式[21]，其目标是学习表示相关任务之间跨任务共享知识的良好初始化参数，以便它可以快速适应任何新任务，只需几次梯度更新迭代。这在训练本身中模拟了测试时训练范例，从而使编码器在推理期间更好地适应。我们修改了一种流行的基于优化的元学习算法，即模型不可知元学习（MAML）[18]，以满足我们的目的。任务采样：在元学习框架中[21]，然后将其与三重态损失的梯度连接（等式1）。2）它处理关于θ e（两个梯度矩阵都被平坦化）的全草图表示=concatθS（t）（θe，θS），τr i（θe，θp）. 我们认为，三重目标和冲程特定重构损失的梯度指导确定如何权衡不同的冲程特定损失。因此，我们经由网络g η传递该t，该网络g η预测第t次中风特定损失的标量权重值为η t= g η（t）。这里，gη被设计为3-层MLP网络，其具有参数η，后跟一个符号，moid生成权重。当量因此，4变为：模型从各种相关的标记任务中训练出来到T T1L（θe，θ）=ηt·。（吨）+L（t）（六）sample a taskip（）在这里，我们首先选择一个随机的cat-M类中的Ci类在所有的素描照片组合中rec的Tt=1MSE CE在Ci中，随机选择Ni和ri对进行元训练总而言之，我们有我们的内环丢失和更新，（Dtrn）和元验证（Dval）。培训S PL（θ， θ， θ）=λL+λ（L+L），这里包含两个嵌套循环。在Dtrn上执行内部循环更新，目的是最小化（θe′，θp′）<$（θe，θp）−α<$ΘLtrn（Θ;Dtrn）（七）Dval上的外环。在每一组中，其中，Θ={θ，θ，θ}，α是可学习的内循环学习。从其余的M-1类别中选择，以确保完全ep一率和不同的例子。元学习笔划权重：此外，由于草图光栅到矢量解码是顺序问题，因此λTri、λrec是由em确定的超参数。很痛苦地利用更新的模型参数，主要目标被计算为验证集损失（Dval），即Lval=LTri（θ′，θ′;Dval），其更新所有模型参数。进行求和运算（Eq.4）在冲程se-因此，平等对待每一个中风特定的损失很难说，这种针不不Lep一recrec7467对特定任务的连续侦察适应性，Eters As（θe′，θp′）通过内环依赖于θe′，θp′和θa更新（等式7），对于具有学习率β的外环优化，需要计算高阶梯度，如下：7468DΣe一eSLLTrece一eee一不e=FθP，θp（ST）（Θ，η，α）←（Θ，η，α）−β′′Val L（θ′（i），θ′（i））实施细节：预先训练的VGG-16网络θe，θp，η，α我不是Valep（八）在ImageNet上，被用作最终输出维度d=512的共享特征提取器。一次枝线状该模型通过对B个采样任务的Meta批量上的梯度进行平均来更新。4.3. SBIR的测试时间培训一旦训练完成，现在重要的是在使用它们对测试草图进行编码以进行检索之前将训练的模型参数与测试数据分布对齐首先，在测试时间训练开始之前，仅使用照片到边缘图辅助分支在几个（τ p）梯度步长上使模型适应测试集照片分布，以将特征提取器更新为θP。训练后的特征提取器（θe）对测试照片进行PT到f PT = Fθe（ST），并使用它通过辅助重建任务损失LP（ P T;θe ， θP ）来更新自身（等式 10 ）。（五）。对于三元组目标，层将其投影到dp=64对于辅助-在辅助分支中，光分支在馈送到由一系列步幅2卷积构成的解码器之前减少到dp=128在每个卷积层上激活BatchNormRelu，除了具有用于激活的tanh的输出对于草图解码，使用隐藏状态大小为128的GRU解码器。此外，我们在内部和外部循环中使用Adam优化器，学习率α=0。0005（初始值）和β=0。0001分别在具有单步梯度更新的元学习期间。在测试时间自适应学习率经验设置为0。0001对于照片和草图，具有τs=τp=4个梯度步长。超参数λTri、λrec根据经验分别设置为0.7和0.3。我们使用32的元批量大小并将裕度m设置为0.3。θP<$θe−αT<$θ，θPLP（Dval）（9）eea雷克P5.1. 竞争对手这将模型参数与测试集照片显示对齐以供检索。请注意，此步骤是可选的，在开始测试时间训练之前，可以直接使用 θe 现在，照片更新的训练特征提取器（θP）编码测试集查询草图（ST），以fST=FθP（ST）。辅助草图矢量化器获得我们从不同的角度设计了几个与我们的动机相一致的基线来评估我们的框架。(i)最先进的ZS SBIR方法（SOTA）：ZS-Cross[65]将跨模态草图-照片特征联合对齐，以概括到看不见的类别，近似照片e公司简介通过图像到图像的转换从给定的草图中提取特征重建损失（θe，θa）（等式4），其中，t是T的向量表示。S在erτs步骤上更新特征提取器，使用该特征提取器cT对应的测试-sketchfeature（fST）是针对retrieval而执行的θ^P<$θP−αT<$θ，θLS（θP，θa，Dval）fSTe第虽然EST-CCGAN[16]使用类标签的语义表示（word2 vec）来学习能够在对抗范式中语义转移到不可见类别的联合流形，但EST-GRL[14]将类标签的相似语义信息与视觉草图信息相并在梯度反转层上训练以减少草图-其中，αT是学习率。一旦被评估，特征提取器就利用光适应模型参数（θP）重新初始化，或者如果选择跳过光适应，则直接利用θe重新初始化，以用于下一个测试样本。5. 实验数据集：对于类别级SBIR，我们使用：用途：（i）粗略[49]（扩展）-在[65]之后，我们将其分为21个测试类，与其余104个训练类分离，其中73：31用于元训练：元测试，以避免Sketchy之间的照片重叠[49]和ImageNet [13]数据集。 (ii)[17]第十七话-照片部分使用来自[67]的相同类别的204，489张自然图像进行扩展。在[14]之后，我们保留了30个随机类用于测试，而220个训练类被随机分为150个用于元训练，元测试70分使用平均精密度（mAP@all）和精密度（考虑前200个（P@200）检索）对类别级SBIR进行类似于[28蒸馏范例使用来自ImageNet预训练CNN模型的教师信号(ii)测试时间训练基线（TTT）：遵循[58]，我们设计了一个遵循我们的管道的基线，TTT-旋转，具有三重损失的主要目标和草图图像和照片上的旋转角度分类的辅助任务，没有元学习。类似地，TTT-仿射遵循[34]在输入图像上使用仿射变换作为用于Ts-时间-适应的辅助任务（iii）Meta-学习基线（Meta）：Meta-SN-ZS在一个简单的连体网络上简单地使用香草MAML[18]，然后[66]，通过内外循环中的三重丢失进行训练，在零射击检索框架中它适应使用内部循环更新跨检索任务的类别在SBIR和FG-SBIR框架的实例Meta-SN-ZS与Meta-SN-ZS相同，除了它使用自模态图像再现的辅助任务（对于草图和照片分支）和三重目标两者来调整以仅最小化外环中的三重损失。两种方法都不涉及考试时间训练。（十）光域间隙 [29]知识是知识的基础。7469方法表1. 我们的模型与其他方法对分类SBIR柏林工业大学（ext）mAP@allP@200所有P@200时的[65]第六十五话0.1960.2600.0050.003[16]第十六话0.3120.4630.2970.435[第14话]0.3340.3580.1090.121日本语[29]0.5260.5980.4750.609B-TTT[58]第五十八话0.4280.5140.3370.421[34]第三十四话0.4320.5220.3510.456B-MetaMeta-SN-ZS0.3680.4520.2760.402Meta-Aux-ZS0.4010.4750.3180.447提出0.5750.6240.5070.6485.2. 结果分析与讨论表1表明，采用测试时间训练的方法大多优于零触发SBIR方法。其中，我们的方法始终优于其他国家的最先进的检索精度。具有简单跨模态训练范式的B-Cross[65]很快被B-CCGAN[16]（在Sketchy上为0.116mAP@all）超越，因为后者除了类别的word 2 vec嵌入的指导之外，还在对抗训练范式中获得了周期一致性损失的帮助-为看不见的类提供了更好的尽管优越，但它未能优于EST-GRL[14]，因为后者使用了梯度反转层，其具体目的是除了语义类标签之外创建域不可知嵌入以提高准确性。然而，在所有这些方法中，灾难性遗忘是一个主要问题，不可避免地影响其性能。日本清酒[29]特别关注知识保存以减少这种效应，借助知识蒸馏范式，旨在在新数据集上训练时保留来自预训练ImageNet [13] 权重的知识。优越的结果（ 0.178mAP@all超过EST-GRL）表明，由EST-SAKE保存的原始领域知识不仅保持了其适应回到原始领域的能力，而且还帮助模型更可推广到看不见的目标领域。来到测试时的适应范式，我们报告的结果，两个国家的最先进的范式天真地实现对我们的检索目标的两个数据集。TTT-Rotation[58]执行旋转角度分类作为辅助任务，主要任务是跨模态三元组损失目标，以适应推理过程中的测试数据分布。灾难性遗忘的问题在一定程度上是由于焦点从学习域不变映射转移到进化潜在空间以调整测试分布而引起的。自然地，我们看到相对于EST-GRL的0.94 mAP@all的准确度相对提高。TTT-仿射[34]具有可学习的仿射变换，使其能够在比TTT-旋转更大的程度上将训练参数与测试分布对齐，因此在准确度上略好（0.004）。介绍Meta-在三重损失（Meta-SN-ZS）上训练的基本暹罗网络之上的零射击范例中的学习将跨模态 ZS 实验（ ZS-Cross）的现有结果在Sketchy上提高了0.172 mAP@all[49]。这是因为元学习使模型能够保留和使用在一组相关任务中获得的知识，以适应和概括模拟测试场景中的新任务。将一个附加任务分支附加到主要目标并在内部循环中使用主要目标对其进行训练，进一步提高了Zero-Shot设置中的结果（0.035），证明了其在该领域的潜力。我们的方法结合了这些世界中最好的一个，在Meta学习训练范例中使用辅助重建任务，辅助测试时间适应以获得最佳准确性。此外，它元学习用于重建的笔画特定权重，以更好地增强主要区分目标，从而优于现有方法。5.3. 消融研究我们从表2中的各种角度对不同的结构选择进行了详细的消融研究。[ii]元学习是否重要：为了判断它的贡献，我们设计了一个实验训练，在ZS -设置中没有该模型使用两个损失（主要和辅助）进行训练，辅助任务在测试时训练期间更新模型。结果（表2中的类型-II）示出了相对于所提出的方法的明显降低（0.088mAP@all），示出了它在训练本身时如何牢固地保持了判别性知识，其在测试时间训练期间被扭曲。此外，使用元学习利用元学习笔划权重的选项，这进一步做出贡献。[i] learnable η t的意义：为了示出可学习的笔划特定权重对于重建损失的功效，我们移除gη，从而简化草图重建损失（等式2）。6）到MSE和交叉熵损失（等式6）。4）.这样做（类型III）导致所提出的方法的减少，这表明学习相对笔画重要性对重构是有益的。进一步验证了gη对主要目标梯度的依赖性，我们训练了一个模型，gη用拟合维数的随机张量初始化。在没有支持主要目标（判别学习）的指导下，权重是次优学习的，导致轻微下降0.014 mAP@all。[iii] 辅助任务的选择：此测试时训练范例的最重要方面之一是选择辅助任务-它不仅应该没有标签成本，而且必须非常适合在几个梯度更新上捕获测试时分布，以便将模型参数与测试数据集对齐。如果没有它，模型的性能相当差（I型）。探索其他替代方案，我们因此设计了几个实验（V-VII型），其结果如表2所示。类型IV（Img2Img）采用图像到74700 58图3.Sketchy数据集上的定性Zero Shot检索结果十字架（左）对我们的（右）。图像翻译，通过步幅-2卷积解码器解码编码特征，BatchNormRelu激活作为辅助任务，用于两个分支，即草图-图像到草图-图像和照片到照片（不像我们的边缘映射）。类型V在照片分支上执行图像到图像的翻译，保持草图分支与我们的辅助任务相同。虽然类型VI选择旋转角度分类作为草图和图像分支的辅助任务，但类型VII在任一分支中对照片和草图图像进行仿射变换，遵循[34]的辅助任务方法，但保持其余的训练范例，如元学习与我们的相同。在SBIR的上下文中，我们观察到草图光栅-表2.消融研究（Sketchy的准确性）。类型主辅助MetaTTTηmAP@allP@200我的体重- -0.368 0.452第二类-0.487 0.576第三类：IV Img2Img 0.528 0.601V Photo-Vec 0.546 0.605六、转动惯量0.511 0.596VII仿射函数0.524 0.597内部循环集中在不相关的草图细节上，从而忘记了学习的一般先验知识。然而，在推断期间，模型参数发现四个梯度更新步骤对于与测试分布对齐是最佳更多的步骤会引起混乱，导致准确性下降。Fur-10，一项消融研究（图（5）主目标和辅助目标的最佳特征维数分别为64和128，基本保持了较高的性能。此外，在没有可选的一次性更新（§4.3）的情况下，在测试集图库照片上评估我们的模型，我们在Sketchy中获得的结果略微下降到0.560 mAP@all。与8.8 ms的交叉测试相比，由于涉及额外的测试时间培训，我们的每个查询需要19 ms以上。0.60mAP@所有0.550.500 1 2 3 4 1 2 3 4 5内环更新次数TTA更新次数（τs， p）图4.模型在1次元训练梯度更新（左）和4次测试时自适应更新（右）VIII-Edge-LSTM最小值0.568 0.619第九卷边缘-TF卷边缘0.562 0.615X边缘偏移量0.570 0.622我们的价格0.575 0.624到向量的转换具有重要意义，因为V型比IV型表现得更好。此外，我们的方法的优越性V型确认照片到边缘映射的翻译是一个更好的合适的辅助任务的背景下，草图。虽然类型VI和VII都将照片和草图变形为图像，但显然单独的分类目标我们还比较了矢量格式的草图效率-事实证明，前者更适合解码。比较GRU（我们的），LSTM（类型VIII）和Trans-former（类型IX）之间的草图解码器，显示GRU是经验上的最佳选择[iv] 进一步的见解：Sketchy [49]的定性结果如图3所示。图4示出了在训练期间，发现一个单个自适应步骤是最佳的，具有最高的性能增益。与[18]相矛盾的更高更新日期上的递减结果可能是由于有害的条件，.0的情况。6mAP@all.0的情况。560的情况。540的情况。5232 64 128 256 512 32 64 128 256 512主分支特征dim（dp）辅助分支特征dim（dp）图5.主要目标的变化特征维度（左）6. 结论本文扩展了查询-SBIR的定义，要求它不仅扩展到新的类别，而且扩展到新的查询草图样式。我们通过提出一个测试时训练范例来实现这一点，该范例仅使用一个草图来适应训练模型。首先，我们表明，草图光栅到矢量转换查询草图单独是可靠的桥梁训练测试差距作为一个辅助任务。其次，我们提出了一种新的元学习范式，以确保从这个辅助任务的测试时间更新不会对用于进行检索的联合嵌入烧蚀研究的广泛实验表明，我们的方法优于其他国家的最先进的。7471引用[1] Antreas Antoniou，Harrison Edwards，Amos Storkey.如何训练你的妈妈。 ICLR，2019。3[2] Yuki M Asano ， Christian Rupprecht ， and AndreaVedaldi.少数图像无监督特征学习的惊人效果。arXiv预印本arXiv：1904.13132，2，2019。3[3] Sungyong Baik，Seokil Hong，and Kyoung Mu Lee.学习忘记是元学习。在CVPR，2020年。5[4] Ayan Kumar Bhunia，Pinaki Nath Chowdhury，AneeshanSain，Yongxin Yang，Tao Xiang，and Yi-Zhe Song.更多的照片就是你所需要的：基于细粒度草图的图像检索的半监督学习。在CVPR，2021年。一、二、四[5] Ayan Kumar Bhunia，Pinaki Nath Chowdhury，YongxinYang ， Timothy Hospedales ， Tao Xiang ， and Yi-ZheSong.矢量化和光栅化：草图和手写的自我监督学习。在CVPR，2021年。2[6] Ayan Kumar Bhunia ， Viswanatha Reddy Gajjala ，Subhadeep Koley，Rohit Kundu，Aneeshan Sain，TaoXiang，and Yi-Zhe Song.自己涂鸦：通过画一些草图来进行渐进式学习。在CVPR，2022年。1[7] Ayan Kumar Bhunia，Subhadeep Koley，Abdullah FaizUr Rahman

下载后可阅读完整内容，剩余1页未读，立即下载