基于草图的细粒度图像检索方法的跨类别推广研究

160 浏览量更新于2023-10-18 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

677一种通用的基于草图的细粒度图像检索方法庞凯越1，2李柯1，3杨永新1张洪刚3蒂莫西M。医院1、4陶祥1宋益哲11英国萨里大学SketchX、CVSSP2英国伦敦玛丽女王大学3北京邮电大学4英国爱丁堡大学kaiyue. qmul.ac.uk，{yongxin.yang，t.xiang，y.songsurrey.ac.uk}{like1990，zhhg}@ bupt.edu.cn，t. ed.ac.uk摘要基于细粒度草图的图像检索（FG-SBIR）使用手绘草图作为查询方式来匹配特定的照片实例现有的模型旨在学习一个嵌入空间，在这个空间中，草图和照片可以直接进行比较。虽然成功了，但它们需要在每个粗粒度类别中进行实例级配对，作为注释的训练数据。由于学习的嵌入空间是特定于领域的，因此这些模型不能很好地跨类别推广这限制了FG- SBIR的实用性。本文将FG-SBIR的跨类泛化问题定义为一个领域泛化问题，并提出了第一个解决方案。我们的主要贡献是一种新的无监督学习方法来模拟原型视觉素描特征的普遍流形。然后可以使用该man-ifold来参数化草图/照片表示的学习。然后，通过在流形中嵌入新的草图并相应地更新表示和检索函数，对新的类别的模型自适应在两个最大的FG-SBIR数据集Sketchy和QMUL-Shoe-V2上的实验证明了我们的方法在实现FG-SBIR的跨类别概括方面的有效性1. 介绍基于细粒度草图的图像检索（FG-SBIR）的目的是找到一个特定的照片实例给定的人类徒手草图输入。由于其作为视觉问题的挑战和商业相关性，近年来对此进行了积极研究[19，36，24，20，41]。关键的挑战是草图/照片领域的差距。照片是以密集的像素表示的视觉对象的透视投影，而草图是主观和抽象地呈现的标志性线条画。*同等贡献最近的FG-SBIR方法[24，36，28，22]通过学习草图和照片的深度网络嵌入来解决这个问题，使它们直接可比。这种嵌入通常由三重排序损失来训练，以确保网络将阳性对嵌入在附近，而阴性对则远离。这方面的工作已经取得了很大的进展，在Sketchy基准[24]上，最先进的技术接近人类的表现[22]然而，现有的工作迄今为止已经隐含地假定，正和负对的实例级注释可用于待评估的每个粗略类别这一假设限制了FG-SBIR的实用性。更具体地说，正如我们将在本文中展示的，在实践中，如果训练和测试类别不相交，FG-SBIR的概括性非常差这对于FG-SBIR的潜在用户（例如电子商务）来说当然是不满意的，在电子商务中，期望在初始产品类别集合上训练FG-SBIR系统一与其他类别级别的任务（如照片图像中的对象识别）相比，FG-SBIR的注释障碍特别高，因为特定于实例的草图昂贵且收集缓慢。为了理解为什么现有的FG-SBIR模型具有有限的跨类别概括能力，考虑FG-SBIR的任务本质上是二元分类-区分从这个意义上说，从训练用于执行匹配的机器学习模型的角度来看，类别的变化是一种域转移[8]例如，一个在汽车照片和草图的细粒度匹配上训练的模型，由于缺乏对扶手和鞍座的经验，很难执行自行车图像的细粒度匹配。暴露于这样的样本外数据，三元组训练的草图/照片嵌入网络可能不再将匹配图像放置在附近，反之亦然。在将挑战确定为领域转移之后，这表明了两个挑战678看到看不见月24020201000...月1720201010020...0117岁10105040...0第140位20201000...第195位4020201000...保险丝保险丝TRNTRNVTD看到看不见第322040102000...第152101055040...0第207次20201000...第222次10105500...第24910020501000...保险丝保险丝TRNTRNVTD图1：我们提出的方法使用四个类别，组织成两个相关的对。TRN：三联体排名网络。VTD：视觉特征描述符。在每个条形VTD中，我们可视化其十大分布类别，并突出显示特定类别以及三个属于代表性的草图样本。每个草图被唯一地分配给一个VTD，该VTD描述了一个与类别无关的抽象草图特征，该特征又被用于动态地参数化TRN，以便使其适应查询草图。了解培训和测试草图如何按主题连贯地映射到一些共享的VFD。最好的颜色和缩放，更多的细节在文本中查看。缓解这一问题的方法类别：（1）非监督域自适应方法[8，34]将使用未标记的目标数据来调整模型以更好地适应目标数据;和（2）领域泛化方法[26]旨在训练一个足够强大的模型，以立即泛化到新领域的现成数据。在本文中，我们将讨论更难的域泛化设置– due to the practical value of not requiring target domain(category) data collection and model为了解决跨类别FG-SBIR泛化（CC-FG-SBIR）的识别问题，我们提出了一个新的框架，自动适应深度特征提取到一个给定的查询草图。这确保了在测试时产生良好的表示，即使在处理来自新类别的草图和照片形式的样本外数据时。其关键思想是学习一个辅助的无监督嵌入网络，将任何给定的草图映射到原型草图特征或流形嵌入的通用字典我们称之为普遍存在，因为它是一种跨越范畴的表现。因此，该网络可以用于提供任何草图（来自训练或新颖类别）的潜在视觉特征描述符（VTD）。该描述符又被用于对照片和草图特征提取器进行辅助材料化，以使它们适应当前的查询草图类别。图图1示出了由我们的辅助网络通过说明性的五个（300个）学习的嵌入（字典单词）学习的无监督嵌入。我们可以看到类别（如花）跨越多个嵌入以及单个嵌入如何例如，描述符2和140包含我们还可以看到训练（左子组）和不相交测试草图类别（右子组）如何根据共同的草图特征分配给相同的描述符。这种辅助通用嵌入网络的引入受到开创性的噪声作为目标（NAT）模型的启发。NAT建议预先随机生成所有嵌入的集合-作为噪声-然后学习一个网络来将数据映射到这个固定的噪声分布。然而，NAT近似地解决了在每次反向传播迭代中将图像与嵌入匹配的繁琐且昂贵的离散分配问题。相比之下，我们提出了一种新的方法来学习基于Gumbel-Softmax [15]重新参数化技巧的嵌入网络。因此，学习更快，更稳定;并且更灵活，因为可以在同一公式中考虑几个替代目标。总的来说，我们的框架可以被认为是域泛化的解决方案[26]，它通过域描述符来适应模型，但是其中描述符是从单个数据实例中估计的，而不是假设它是作为元数据给出的[32，33];并且其中描述符定义的角度是潜在域发现[31]。6792我们的贡献是双重的：（1）首次提出并解决了跨类别FG-SBIR推广问题（CC-FG-SBIR）。(2)提出了一种新的基于通用原型视觉草图特征的面向实例的潜在域发现方法。我们使用Sketchy中的语义类别来评估我们的模型[24]和Shoe-V2 [37] -迄今为止在整体和单个类别大小恢复方面最大的两个FG-SBIR数据集。与他们最初的类别内评估设置相比大量的实验验证了我们的方法的有效性相比，各种竞争对手，包括直接转移，其他方法来定义实例嵌入，和国家的最先进的领域概括方法。2. 相关工作细晶SBIR大多数早期SBIR研究[5，10，4，14，38，7，20]关注类别级跨域匹配-ing. FG-SBIR的更细粒度检索最近成为现实世界应用潜力的- 用户想要检索特定对象（例如，电子商务产品图片）。这首先是在使用可变形部分模型和图形匹配的姿势[19]的情况下研究的。随后的研究关注了围绕多分支深度学习方法的问题，这些方法学习从这些异质域中提取可比较的特征[24，36，28，22]。例如，异质性与暹罗分支[22]，实例匹配损失（成对与三重态），注意力[28]和通过哈希提高效率[40]。所有这些研究都假设训练数据可用于进行细粒度检索的特定类别这使得问题更容易（没有训练测试域转移），但模型的实际价值较低。可推广的SBIR将训练集推广到新的类别是计算机视觉走出实验室并影响现实世界的重要能力这例如，激发了对零射击目标识别的广泛研究[11，42，6]。然而，在SBIR的背景下，只有两个以前的作品研究跨类别generalisation。Shen等人专注于三分支哈希网络以实现高效SBIR [27]。 Yelamarthi等人提出了一种深度条件生成模型，以草图为输入，生成相应的照片特征。这两项研究都利用类别水平特征来指导学习：[27]使用词向量来形成邻接矩阵来正则化隐藏表示，[35]提取ImageNet预训练的照片特征作为草图特征回归的指导。我们的工作与这些不同之处在于：（i）我们是第一个在FG- SBIR中研究跨类别泛化的人，而不是在类别级别的SBIR中研究跨类别泛化。现有方法;（ii）我们独特的VTD被学习以数据驱动的方式总结跨类别共享的抽象视觉特征（参见图11）。1）而不是由类别语义引导领域泛化CC-FG-SBIR 挑战可以被视为域泛化（DG）的特殊情况[16，26，18]。DG的目标是训练出“脱离”的模型测试数据上的“框例如，通过仔细的训练规则化[26，18]，或关于如何消除特定领域偏见的假设[16]。相关的工作线使用关于新领域的外部元数据来动态合成适当的模型[32，13]。在深度网络的背景下，这种动态参数合成被称为超网络[12]我们的方法通过将查询草图嵌入到我们的通用嵌入空间中来解决CC-FG-SBIR中的DG问题，并使用此嵌入作为新域的描述符（代替外部描述符[32，13]），从中合成照片和草图的特征提取网络的部分（根据超网络[12，2]）。3. 方法概述我们的框架由两个主要部分组成。首先，我们的无监督嵌入网络通过编码器-解码器框架Ds=φ（s）将任何草图s映射到K个唯一视觉特征描述符Ds中的一个。因此，M维特质描述符的全集定义了一个矩阵D∈RK×M.这用于提供任何草图的查询域的描述。其次，提出了一种三元组丢失的动态参数化特征提取器其实际上通过使用所生成的描述符来执行FG-SBIR，以使特征提取和检索适应于任何查询。表示为深度CNN特征提取器，FG-SBIR是通过找到最小的照片p来执行最小化距离dpsi（s）（s，p）=||φ（s）（s）−||2查询草图。无监督嵌入网络在训练草图上以无监督的方式进行训练类别并在训练草图类别上对动态参数化的FG-SBIR模型进行有监督的训练。在评估之前，没有组件触及保留的测试类别数据在下面的两节中，我们将详细描述每个组件。3.1. 通用视觉特征嵌入无监督嵌入网络将任何草图映射到描述符字典D中的条目。受NAT [3]的启发，我们随机预生成描述符字典，以便从标准高斯中采样D的每行（表示为Di），然后对其进行归一化。这确保描述符字典跨越可用的M维。680………ER%&…D（ ……）（D新加坡元通过Gumbel-Softmax进行硬分配应用Gumbel-Softmax重新参数化技巧[15]和直通（ST）梯度估计器，ph被替换为pg= softmax（（p+g）/τ）phg= onehot（argmax（pg））（三）图2：我们提出的无监督编码器-解码器模型的示意图。详见正文。空间很好。然后，网络其中g∈RK且g1. gk是从Gumbel（0，1）中提取的独立同分布样本，τ是温度1。我们进一步强制ps= softmax（p）上的统一分类先验，避免草图仅分配给字典元素的子集，并形成Kullback-Leibler损失：qy=[1/K，1/K，.，1/K] ∈ RK编码器-解码器我们首先将输入草图s输入CNN编码器E（s）。然后，我们使用一个全连接（FC）层来预测非正常的K维向量1ΣBDKL（ps||qy）= Bi=1psi，：log（psi，：/qy）（四）并从完整字典D中选择最可能的一个作为草图s其中B是批量大小。为了简单起见，我们使用粗体ps来表示ps的批次对应物，psi是第i个示例S和psi、j作为其第j个元素。我们将遵循这一惯例p=WpE（s）+bpph= onehot（argmax（softmax（p）（一）其他符号。这确保了在整个批处理中，整体而言，草图被分配给不同的描述符。基于熵约束的软指派我们也曾-Ds=phD，s=R（Ds）探索另一种策略，即采用软分配-为了确保每个描述符对应于视觉上有意义的特征，然后由解码器R利用重构特征的去卷积层来解码所分配的描述符输入s，k，蚀刻s，k，s。 We以这种方式将sk蚀刻特性描述符的提取表示为Ds= φ（s）。一个实际的考虑由于描述的数量-在训练过程中的方法。通过用ps替换ph，每个草图都采用D的线性组合，而不是选择一行D进行表示学习。在这个草图到描述符的软分配中，我们希望激励稀疏概率，以便每个s倾向于接收一个支配标签分配。因此，我们添加一个行熵损失：torsK（300）比sketches（数万）少得多，我们的方法意味着草图将被粗略地量化，Hrow =− 1ΣB ΣK psi，jlog（psi，j）（5）因此，重建误差会很大。(The簇不包含足够的信息来精确地重建每个草图）。因此，我们用下面的跳过连接来修改这种方法，以改进通过R的解码。Zs=Ds（1+αtanh（WskE（s）+bsk））Bi=1j =1当量只有当psi是指定确定性分布的独热向量时，5才达到其最小值0。我们进一步鼓励通过列entrop y项平等使用所有ps：，js=R（Zs）（二）pc=1ΣBBps：，j∈RK这里我们设α= 0。02.这通过草图的一些细节特征来增强粗略的字典编码。参见图2的直观图示。优化到目前为止所提出的方法是硬i=1ΣKHcol=−j=1pcjlog（pcj）（六）（一）使用argmax是不合理的;可微的，并且将天真地需要 Monte Carlo 估计和REINFORCE型算法[30]，其遭受高方差。（ii）一个平凡的极小值的re-当量只有当pc中的元素均匀分布时，6才能达到最大值1然而，行熵约束仅对足够大的minibatch有效，并且我们实证地发现，平均约30%的ph仍然是施工损失是输出一个或几个恒定的一个热点vectorsph.特别是在训练的早期阶段，这将使模型永远陷入局部最小值。为了缓解这个问题，我们采用了一个低方差梯度估计的基础上重新参数化技巧。1由于我们使用的是直通argmax，因此τ在训练过程中不会自适应地调整建议样本的“置信度”。对于前向传递，使用phg，从而生成真实的独热向量，而对于后向传递，用ps代替p hg以使（估计的）梯…………………681度流回。实际上，我们只是给它赋一个温和的值，比如1。0的情况。682空的，（没有任何草图的分配因此，我们在训练期间动态地替换陈旧和不活跃的Di，并将它们带回与过度活跃的Di竞争。具体来说，我们在每个时期之后提取所有训练草图的p h，并选择最集中的Di。然后添加小的随机扰动以定义新的中心，即，Di（1+βN（0，1））.我们发现这个简单的策略效果很好2.总结根据我们使用的分配策略，将草图嵌入几个FC层[12]。然而，由于输入是一组离散的描述符向量，这导致权重生成的不连续性。我们从[39]中汲取灵感，并通过引入预测高斯均值和方差的层来减轻这一点，然后对这些层进行采样以更平滑地生成目标参数。µs=Wµφ（s）+bµ使用（Gumbel-Softmax与熵），并结合重建损失Lrec=||s−s||2，我们得到我们的两个最优-σ= exp（Wσφ（s）+bσ）S2（十）任务目标：最小Es≤S [Lrec+ λKLDKL（ps||（qy）]η（φ（s））= μs+ σs<$N（0，1）。优化与推理最后，为了避免生成最小EsS[Lrec +λrow H行 -λcol H柱（七）]模型过拟合[9]，我们添加了常用的变分正则化项，Lcon=DKL（η（φ（s））||N（0，I）），其中，超参数λKL、λrow、λcol控制相对重要性权重总之，优化无监督的目标Eq. 7训练自动编码器，该自动编码器根据预定义的K元素字典D来内部表示草图。在下面的部分中，我们将重新使用将草图分配给字典元素Ds=φ（s）的子网络作为描述符，用于动态地对我们的FG-SBIR网络进行参数化。3.2. FG SBIR的动态参数化图中所示的无监督嵌入网络。图2从每个草图中提取视觉特征描述符（VTD）φ（s），然后将其用于参数化三元组排名网络（TRN）φ（·），用于学习草图和照片的领域可概括表示，如图2所示。1.一、请注意，草图和照片特征提取器是暹罗- 适用于FG-SBIR的草图和照片。将Fφ（s）（·）表示为校准到sk et chs的特征提取器，并且将F（·）表示为vanillaCNN特征提取器，我们得到：φ（s）（·）=η（φ（s））<$F（·）+F（·）（8）上述内容可以被解释为一个小型超网络[12]，其中我们生成了一个草图条件对角权重层，以使传统的CNN特征F适应当前草图，以及剩余连接。它也可以被解释为在F上生成草图特定的软注意力掩模，其中η指示显著维度。使用这个动态参数化的特征提取器，我们最终应用标准的三元组损失来匹配照片和草图：Ltri= max（0，n +d（nφ（s）（s），nφ（s）（p+））由小值λcon加权。我们的FG-SBIR目标是：最小EtT[Ltri+λconLcon]（11）其中t代表一个三元组，由{s，p+，p-}组成。在测试过程中，对于一个查询草图s，我们对η（φ（s））进行十次采样，以计算每个草图-照片库的距离配对，取最小的作为最终测量。4. 实验4.1. 实验设置数据集和预处理我们使用公共Sketchy[24]和QMUL-Shoe-V2 [37]来评估我们的方法。Sketchy包含125个类别，每个类别有100张照片，每张照片至少有5张草图。我们遵循与[35]相同的数据集分割，并将Sketchy划分为104个训练类别和21个测试类别，以确保测试类别不存在于 1000 个 ImageNetChallenge类中[23]。对于QMUL-Shoe-V2，我们通过在细粒度子类别之间转移来测试泛化，并设计了五组这样的实验，如表2所示。我们将草图按比例缩放，当训练 VTD 时，所有三个分支的输入都调整为64×64，而对于FG-SBIR，所有三个分支的输入都调整为299 ×299。我们在单个NVIDIA 1080Ti GPU上使用Tensorflow实现了这两种模型。无监督嵌入网络：我们基于CNN的编码器-解码器E和R包含五个步幅为2的卷积和五个步幅为1/2的分数卷积，每个卷积的结尾和开头都有一个1×1BatchNorm-Relu激活被应用于每个卷积层，除了具有Tanh的R 所有超参数均设置为非--d（φ（s）（s），φ（s）-（9）（p））因此有一个热身阶段，因此重建损失在开始时主导训练我们训练模型一个随机参数化方程中权重生成器η（·）的标准解。第八，转变观念，2.一个副作用是用时间换取质量。我们几乎花了三分之一的时间来提取所有训练草图的表示我们设置β=0。05在整个实验中，发现它的工作经验。683对于200个时期，在所有设置下，λkl、λrow、λcol线性地从0、1、1增加到1。分别为5、2、10。字典D自始至终具有M= 256个维度和K= 300个元素。我们使用Adam optimiser，学习率为0。0002. FG-SBIR：我们微调ImageNet预训练684子类别细粒度转移培训/测试数量凉鞋扁平→楔形第560 /227号决议趾形关闭→鱼嘴400 /351鞋高脚踝- →膝盖高2010 /245跟形厚→薄828 /411背线小→大第5015 /1543号决议竞争对手Acc.@ 1Acc.@ 5Acc.@ 10硬转移九点二五百分之三十二点二48.0%我们的素描百分之十三点二百分之三十四点三百分之五十点四乌尔斯凯奇英尺15.4%百分之三十七点九百分之五十四点六上限百分之二十八点六百分之五十六点八72.2%硬转移百分之十四点八百分之四十四点七百分之六十一点五我们的素描22.2%百分之五十点四65.0%乌尔斯凯奇英尺百分之二十四点二百分之五十四点五66.7%上限29.3%56.7%百分之七十一点八硬转移百分之十点六百分之三十二点二百分之四十三点三我们的素描百分之十四点七38.0%51.0%乌尔斯凯奇英尺百分之十八点四百分之四十点八55.1%竞争对手Acc.@ 1Acc.@ 5Acc.@ 10竞争对手Acc.@ 1Acc.@ 5Acc.@ 10[36]第三十六话16.0%百分之四十点五55.2%我们的WordVector18.0%43.5%58.7%[35]第三十五话百分之二点四九点五厘17.7%我们的分类百分之十六点二41.4%百分之五十七点二爬行动物[1]百分之十七点五百分之四十二点三百分之五十七点四Ours-Full/Edge百分之十六点八41.3%56.2%[26]第二十六话百分之十三点四百分之三十四点九百分之四十九点四我们的-满/硬百分之二十点一46.4%百分之六十一点七我们的VAE百分之十二点七百分之三十四点五百分之四十九点七Ours-Full百分之二十二点六49.0%百分之六十三点三Ours-VAE-Kmeans百分之十七点六41.9%56.9%上限百分之二十九点九百分之六十五点五81.4%表1：Sketchy的跨类别FG-SBIR结果比较[24]。表2：QMUL-Shoe-V2上的跨类别FG-SBIR比较结果[37]Inception-v3 [29]以获得F，并删除最终分类层。我们对η的输出强制进行102归一化，以稳定三元组学习并设置超参数∆= 0。1，λcon= 0。004. 我们在Sketchy上训练了20个epoch，在QMUL-Shoe-V2上训练了10个epoch，学习率为0。0001和亚当优化器在所有设置下。我们使用Acc.@ K来衡量FG-SBIR性能，即真实匹配照片排在前K的草图百分比。4.2. 竞争对手如果没有另外提到，所有竞争对手都是基于Inception-v3实现的，我们的模型是用软分配训练的。Hard-Transfer[36]训练了一个香草连体三重排序模型，并直接在看不见的类别上进行测试。CVAE-Regress3[35]是最先进的零拍摄SBIR方法，通过学习条件生成模型将ImageNet预训练的照片特征回归到其相应的草图特征。爬行动物[1]是一种最近的元学习算法，它重复对任务进行采样，训练它们，并将初始化移向训练的权重。我们在[36]中将其积分为每一次运行，3这种方法是为类别级特征化而设计的，因此预期性能不佳。685Domly对52个类别进行抽样，形成两个子任务，并训练500次迭代。CrossGrad[26]是一种最先进的域泛化方法，它在受彼此损失梯度干扰的示例上训练标签和域分类器对于我们的任务，我们将104个训练类别中的每一个视为唯一域，并将100个类别间照片ID视为标签。我们的VAE对应于在没有我们的视觉特征描述符的情况下训练传统的变分自动编码器（VAE）[17]，并使用每个实例的潜在表示作为描述符φ来参数化FG-SBIR模型。Ours-VAE-Kmeans在VAE潜在空间中执行K-means聚类，以生成类似于我们的方法的草图描述符字典，但没有端到端学习。 Ours-WordVector和Ours- Classify将我们的描述符替换为类别级语义驱动的描述符，[21]或从草图分类网络的倒数第二个特征层提取。最后，我们将我们提出的模型（Ours-Full）与其两个消融版本进行比较，包括Ours-Full/Hard和Ours-Full/Edge用硬分配策略而不是软分配策略训练，除了人类手绘草图之外的其他边缘图。QMUL-Shoe-V2这是一个非常细粒度的单类别数据集，因此我们没有足够的数据来训练dic。686第29个描述符第31个描述符第100个描述符第155个描述符第209个描述符图3：VTD如何调整草图-照片匹配过程的可视化。彩色图像框边界指示何时使用正确的（对应于查询草图）描述符来参数化嵌入空间。Vis-Sim=0.768Sem-Sim=0.1440.07231353651100150 249276295长颈鹿萨克斯管（一）Vis-Sim=0.757Sem-Sim=0.1300.10.090.080.070.060.050.040.030.020.010435183124132180242249261276火箭酒瓶（b）（c）图4：词向量与视觉语义学比较说明性类别对：（a）视觉上接近但语义上远。(b)语义上相关，但视觉上很远。(c)视觉和语义相关。Vis-Sim是直方图之间的余弦距离，Sem-Sim是词向量之间的余弦距离。这里显示的直方图是两个类别之间共同共享的十个最相似/最不相似的描述符。最好的彩色和变焦观看。D从零开始因此，我们利用在Sketchy上训练的最佳视觉特征描述符，并引入两个变体Ours-Sketchy和Ours-Sketchy- Ft。它们的不同之处在于我们是直接使用Sketchy词典还是在QMUL- Shoe-V2的可见子类别上进一步微调它硬转移是竞争对手。警告由于我们使用一个类别中的所有图像，构建具有挑战性的测试集。因此，这两个数据集的上限可能略有高估，因为它在测试所有数据集之前使用其中的一半进行训练。4.3. 关于Sketchy我们在表1中比较了不同模型的性能，并观察到：（i）两个模型之间的差距Vis-Sim=0.245Sem-Sim=0.5520.06Vis-Sim=0.852Sem-Sim=0.7610.0350.050.030.0250.040.020.030.0150.020.010.010.0050012366096111115155264273 292海龟鲨0315199151154165188198 201猫狗0.060.050.040.030.020.010长颈鹿鹿鹦鹉687rect transfer（16%）和使用目标（看不见的）类别（上限，30%）的数据训练的模型很大，证实了跨类别泛化差距。(ii)我们的模型在弥合这一差距方面击败了所有10个竞争对手。(iii)对于DG元学习的竞争对手，CrossGrad [26]未能在直接迁移基线上进行改进，但Reptile [1]确实进行了改进。但是，两者都比我们的完整模型更糟糕(iv)比较我们提出的两种优化方法，软分配优于硬。我们将其归因于后者的严格方法-(v)我们的视觉特质描述符方法是有益的，这表现在我们与传统VAE，特别是VAE-K means替代品之间的巨大性能差距上（vi）使用视觉上抽象但整洁的人类徒手草图作为源数据来训练我们的描述符是很重要的。用从自然照片中提取的详细但嘈杂的边缘图替换这些图像会损害性能。这表明该模型能够利用干净和标志性的手绘草图来更有效地学习抽象的视觉特征描述符的质量影响我们现在定性地检查视觉特质描述符Ds=φ（s）如何影响草图照片匹配以及如果使用另一个sk蚀刻描述符Dsk，sk，s代替。为了实现这一点，我们从对成功匹配贡献最大的Φφ（s）中选择一个维度，并使用Grad-Cam[25]将梯度传播回突出显示有区别的图像区域。这可以被看作是不同视觉特质描述符定义的内隐注意机制的可视化，以适应特征提取。我们在图中对此进行了说明。三个不同的D代表六个素描-照片对中的每一个。它表明：（i）相应的Ds有助于将注意力集中在对s和p+具有相似空间支持的区域上，而不匹配的Ds则无法做到这一点;（ii）个体描述符Di对多个类别有用，例如，鹦鹉和长颈鹿的第155个有多少个描述符？我们在表3中研究了描述符字典大小K对CC-FG-SBIR性能的影响。我们可以看到，我们的模型是不是很敏感的K下硬和软分配策略，和几百个足够的良好性能。描述符-类别分布我们可以验证VTD横切而不是反映草图的类别细分。平均而言，每个类别被分配到138±30个唯一描述符。测试类别草图（嵌入未在其上训练）被分配给129±33个描述符，这表明尽管训练/测试域移位，但横切扩展仍被保留词向量与视觉语义定量结果（表1）表明，词向量描述符确实提高了硬传输的性能，尽管比我们的方法要少得多。我们可以对比相似度，号硬软Acc.@ 1Acc.@ 5Acc.@ 10Acc.@ 1Acc.@ 5Acc.@ 1020百分之十八点四百分之四十三点三百分之五十八点四百分之十九点五46.0%60.4%100百分之十九点六百分之四十五点七百分之六十点九百分之二十点七47.7%百分之六十二点七300百分之二十点一46.4%百分之六十一点七百分之二十二点六49.0%百分之六十三点三1000百分之十七点八百分之四十二点三百分之五十七点六18.3%百分之四十三点八59.0%表3：描述符数量对Sketchy上跨类别FG-SBIR性能的影响[24]。字嵌入，与我们的VTD。图4（a）示出了一对类别，其在语义词相似性上远，但在视觉视觉特性描述符相似性上近这里，类别级视觉相似性通过来自共同分配给单个描述符（x轴）的不同类别（条）的草图的数量（y轴）来测量。相比之下，图图4（b）示出了视觉上不同的语义相关类别（鲨鱼/海龟），图4（b）示出了视觉上不同的语义相关类别（鲨鱼/海龟）。图4（c）示出了语义上和视觉上都相关的类别（狗/猫）。4.4. 关于QMUL Shoe V2在本节中，我们借用了在Sketchy上训练的最好的VTD字典D（Ours-Full-Soft），并使用它来帮助在QMUL-Shoe-V2中的子类别之间进行转换为了在此基准上测试通用化，我们设计了五组实验，每组实验定义了不同类型的训练/测试间隙，并具有不同的分割大小。我们在表2中报告了它们的性能，并发现与硬传输相比，即使直接将D应用于这个新的数据集，Ours-Sketchy也在所有实验中提高了性能。这是有希望的，因为草图训练的字典通常是可应用的，并且它有可能使其他特定的FG-SBIR应用受益。当对每个实验的训练数据分割进行进一步微调时，我们通常也会提高per-turbine（Ours-Sketchy-Ft和Ours-Sketchy）。5. 结论我们首次发现了跨类别FG-SBIR中的泛化问题，并通过学习通用视觉特征描述符嵌入提出了一种新的解决方案。该嵌入字典被映射到横切草图类别的一组潜在域，并且通过将查询草图映射到字典中的对应描述符，使得检索网络能够在给定查询草图的情况下被适当地参数化在Sketchy和QMUL-Shoe-V2上的大量实验证明了我们所提出的跨类别FG-SBIR方法的优越性。鸣谢：我们感谢匿名评论者他们的宝贵意见。这项工作在部分由中国国家自然科学基金（NSFC）联合资助#61701032和#61806184。我们特别要感谢国家留学基金管理委员会（CSC）资助前两位作者在SketchX研究实验室进行整个项目。688引用[1] 尼克尔·亚历克斯和舒尔曼·约翰。 Reptile：一个可扩展的元学习算法。https://blog.openai 。com/reptile/，2018. 六、八[2] 卢卡·贝尔蒂内托，约翰·阿托·F·恩里克斯，杰克·V·阿尔马德雷，菲利普·托尔和安德烈·韦达尔迪。学习前馈一次性学习器。在NIPS，2016年。3[3] Piotr Bojanowski和Armand Joulin。通过预测噪声进行无监督ICML，2017。二、三[4] Yang Cao ， Changhu Wang ， Liqing Zhang ， and LeiZhang.用于大规模基于草图的图像搜索的边缘索引。CVPR，2011。3[5] Yang Cao ，Hai Wang ， Changhu Wang ， Zhiwei Li ，Liqing Zhang，and Lei Zhang. Mindfinder：基于草图的交互式图像搜索。在ACM MM，2010中。3[6] Soravit Changpinyo，Wei-Lun Chao，Boqing Gong，andFei Sha. 用于零镜头学习的合成分类器在CVPR，2016年。3[7] John Collomosse ， Tu Bui ， Michael J Wilber ， ChenFang，and Hailin Jin.风格素描：草图和美学背景的视觉搜索InICCV，2017. 3[8] 加布里埃拉·楚卡计算机视觉应用中的领域自适应。Springer，2017. 一、二[9] 卡尔·道施变分自动编码器教程。arXiv预印本arXiv：1606.05908，2016. 5[10] Mathias Eitz，Kristian Hildebrand，Tamy Boubekeur，and Marc Alexa.基于草图的图像检索：基准和特征袋描述符。TVCG，2011年。3[11] Andrea Frome ， Greg S Corrado ， Jon Shlens ， SamyBengio，Jeff Dean，Tomas Mikolov，et al. Devise：一个深度视觉语义嵌入模型。在NIPS，2013年。3[12] David Ha，Andrew Dai，and Quoc V Le.超网络在NIPS，2017年。三、五[13] 朱迪·霍夫曼，特雷弗·达雷尔，凯特·萨恩科.连续流形为基础的适应不断发展的视觉领域。CVPR，2014。3[14] 胡瑞和约翰·科洛姆斯。基于草图的图像检索中梯度场hog描述子CVIU，2013年。3[15] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax进行分类重新参数化。在ICLR，2017。二、四[16] Aditya Khosla ， Tinghui Zhou ， Tomasz Malisiewicz ，Alexei Efros，and Antonio Torralba.消除数据集偏差的损害ECCV，2012年。3[17] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。6[18] D. Li，Y.杨玉Z. Song和T.M. 医院学习概括：领域泛化的元学习。在AAAI，2018。3[19] 放大图片创作者： Timothy M.Hospedales ， Yi-ZheSong，and Shaogang Gong.通过匹配可变形零件模型的基于细粒度草图的图像检索。InBMVC，2014. 第1、3条[20] Liu，Fumin Shen，Yuming Shen，Xianglong Liu，andLing Shao.深度草图散列：基于手绘草图的快速图像检索。在CVPR，2017年。第1、3条689[21] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合性。在NIPS，2013年。6[22] Kaiyue Pang，Yi-Zhe Song，Tao Xiang，and TimothyHospedales.跨领域生成式学习在细粒度草图图像检索中的应用。在BMVC，2017年。第1、3条[23] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。IJCV，2015年。5[24] Patsorn Sangkloy，Nathan Burnell，Cusuh Ham和JamesHays。sketchy数据库：学习如何找回画得不好的兔子。SIGGRAPH，2016. 一、三、五、六、八[25] RamprasaathR Selvaraju，Mich

下载后可阅读完整内容，剩余1页未读，立即下载