基于零镜头草图的图像检索方法及其应用

71 浏览量更新于2023-10-17 收藏 1.62MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1[27]第二十七话：一个人的世界Doodle搜索：一种实用的基于零镜头草图的图像检索方法SounakDey，PauRiba，AnjanDutta，JosepLlado'sComputer Vison Center，UAB，西班牙{sdey，priba，adutta，josep}@ cvc.uab.cat宋益哲SketchX，CVSSP，英国萨里大学y.song邮件surrey.ac.uk摘要在本文中，我们研究的问题零拍摄草图为基础的图像检索（SBIR），其中人类的草图被用作查询进行检索的照片从看不见的类别。我们通过提出代表其实际应用向前迈出的坚实一步的新颖的EST-SBIR场景来重要地推进现有技术。新的设置，丁独特地认识到两个重要的，但往往被忽视的挑战，实际的EST-SBIR，（i）业余素描和照片之间的巨大领域差距，（ii）走向大规模检索的必要性。我们首先向社区贡献了一个新的EST-SBIR数据集，QuickDraw- Extended，它由跨越110个类别的330，000张草图和204，000张高度抽象的业余人类草图是有目的地获取的，以最大化域差距，而不是包括在现有数据集中的那些通常可以是半真实感的草图。然后，我们formulate一个EST-SBIR框架，共同模型草图和照片到一个共同的嵌入空间。提出了一种挖掘领域间互信息的新策略，以缓解领域鸿沟。外部语义知识进一步嵌入，以帮助语义转移。我们发现，令人惊讶的是，检索性能显著优于现有数据集上的最新技术，这些数据集已经可以使用我们模型的简化版本实现。我们通过与新提出的数据集上的一些替代方案进行比较，进一步证明了我们的完整模型的优越性能新的数据集，加上我们模型的所有训练和测试代码，将公开发布，以促进未来的研究。1. 介绍在检索的背景下，草图模态显示出很大的承诺感谢触摸屏设备的普遍性质因此，基于草图的图像检索（SBIR）的研究蓬勃发展，有许多很好的例子解决了检索过程的各个方面：[2]这些作者对这项工作的贡献是相等的。†http://dag.cvc.uab.es/doodle2search/鱼蛙蟹鸮海龟图1.草图数据集的定性比较，列显示属于同一类的示例。Sketchy、TUBerlin和Quick-Draw数据集有序地包含抽象程度不断提高的草图。值得注意的是，尽管是最抽象的数据集，但QuickDraw草图仍然可以可靠地识别。粒度匹配[37，30，24]，大规模哈希[17，16]，跨模态注意力[5，30]等等。然而，几乎所有的草图研究都发现了一个共同的瓶颈，那就是数据稀缺。与可以毫不费力地免费抓取的照片不同，草图必须由人一个接一个地绘制。因此，现有的SBIR数据集在数量和种类上都受到影响，每个类别只剩下不到数千个草图，最大类别数量限制在几百个。这在很大程度上激发了零激发 SBIR （ ZS-SBIR）的问题，其中希望在没有训练数据的情况下对对象类别进行SBIR。SBIR越来越被视为解锁SBIR实际应用的重要组成部分，因为用于训练商业仅照片系统的百万级数据集可能不可行[4SBIR的问题是非常具有挑战性的。它具有传统SBIR中所面临的所有挑战：（i）草图和图像之间的大域差距，以及（ii）高度21792180在人类素描中发现的抽象概念，是各种绘画技巧和视觉解释的结果。此外，它还需要从可见到不可见类别的语义迁移，以实现零镜头学习。最重要的是，在本文中，我们感兴趣的是移动到-ward的实际适应的EST-SBIR技术。为此，需要一个更合适的数据集来最好地捕捉所有这些挑战。因此，我们的第一个贡献是一个新的数据集，以模拟真实的应用场景的EST-SBIR，它应该满足以下要求。首先，数据集需要模仿草图和照片之间的真实抽象差距这些业余草图与现有数据集目前研究的草图非常不同，现有数据集要么过于逼真[7]，要么通过回忆参考图像[27]产生（图1提供了一个比较示例）。其次，为了学习业余草图和照片之间的可靠跨域嵌入，数据集忠实地捕获来自具有各种绘画技能的用户的各种草图样本。我们提出的数据集QuickDraw-Extended包含330，000张草图和204，000张照片，总共跨越110个类别。特别是，它包含了3000幅业余素描，这些素描都是从最近发布的Google Quickdraw数据集中精心挑选出来的，是第二大数据集它在测试集中的搜索空间也达到了1.66亿次，而Sketchy- Extended和TUBerlin-Extended只有1000万次，1 .一、分别为900万这个数据集和它模仿的真实世界场景本质上使EST-SBIR任务更加困难。这导致了我们的第二个贡献，这是一个新的跨域零镜头嵌入模型，解决了这种新设置带来的所有挑战。我们的基础网络是一个视觉参与的三元组排名模型，该模型在SBIR社区中众所周知，可以产生最先进的检索性能[37，30]。令我们惊讶的是，仅仅通过采用这样的三重配方，我们已经可以实现检索性能大大优于以前报道的EST-SBIR结果常用的数据集。我们将这种现象归因于以前的数据集在跨域抽象间隙和草图样本的多样性方面过于这进一步证明了像我们这样的新的实用数据集的必要性。然后，我们提出了两种新的技术，以帮助学习一个更好的跨域传输模型。首先，设计了一种域解纠缠策略，通过强制网络学习域不可知嵌入来弥合域之间的差距，其中梯度保留层（GRL）[8]鼓励编码器从草图和照片中提取互信息第二，一种新的语义损失，以确保语义信息被保存在所获得的嵌入。通过将GRL仅应用于输入处的负样本语义解码器帮助编码器网络分离相似类的语义信息。首先在两个常用的 EST-SBIR 数据集 TUBerlin-Extended [6]和Sketchy-Extended [27]上进行了广泛的实验。结果表明，即使是我们的模型的简化版本也可以显著优于当前最先进的模型。在我们自己的数据集上进一步验证了所提出的方法的优越性，并通过消融研究对每个拟议的系统组件进行了深入研究。2. 相关工作SBIR数据集。大规模SBIR研究的主要障碍之一是缺乏适当的基准。Sketchy数据集[27]是用于此目的的最常用数据集，其中包含属于125个不同类别的12，500张对象照片的75，471张手绘草图后来，Liu等人 [17]从ImageNet [4]收集了60，502张自然图像，以适应大规模SBIR的任务。该数据集包含高度详细或不太精确的草图，在Sketchy上训练的模型在现实生活中很有另外两个具有成对草图和图像的细粒度SBIR数据集是[37]中提出的鞋和椅子数据集。鞋子数据集包含6648张草图和2000张照片，而椅子数据集包含297张草图和照片。然而，作为细粒度对，这两个数据集也具有与Sketchy数据集类似的缺点。TU-Berlin [6]是另一个流行的数据集，最初包含250个手绘草图类，每个类大约包含80个实例。为了SBIR的目的，[38]用真实图像对其进行了扩展。该数据集在类层次结构方面存在很多混乱，例如，天鹅，海鸥，鸽子，鹦鹉，鸭子，企鹅，猫头鹰与TU-Berlin数据集的另一个单独类别站立的鸟和飞鸟具有实质性的视觉相似性和共性为了消除SBIR工作所面临的这些困难，在本文中，我们引入了QuickDraw- Extended 数据集，在这里我们采用了Google QuickDraw数据集的草图类[12]并提供了相应的图像集，以促进大规模SBIR系统的训练。基于草图的图像检索（SBIR）。主要的chal-长期以来，大多数SBIR任务解决的是桥接草图和自然图像之间的领域差距。在文献中，这些现有的方法可以大致分为两类：手工制作和跨模态深度学习方法。手工制作的技术主要使用自然图像的草图和边缘图的词袋表示，以及一些现成的特征，例如SIFT [19]，梯度场HOG [10]，边缘局部方向直方图[25]或学习密钥图[26]）2181这种域转移问题通过基于跨域深度学习的方法[27，37]进一步解决，其中他们使用经典的排名损失，例如对比损失，三重损失[32]或更优雅的HOLEF损失[30]。一个类似连体的网络。根据手头的问题，确定了两项独立的任务：（1）细粒度SBIR（FG-SBIR）旨在捕获草图和照片的细粒度相似性[15，27，37]和（2）粗粒度SBIR（CG-SBIR）在多个对象类别中执行实例级搜索[38，10，11，31，38]，由于其重要性而受到广泛关注。意识到大规模SBIR的需要，一些研究人员提出了一种用于相同的跨模态哈希框架的变体[17，39]，这也在SBIR场景中显示出有希望的结果。相比之下，我们提出的模型克服了这个领域的差距，挖掘模态不可知的功能，使用域损失以及GRL。基于零拍摄草图的图像检索（Zero-Shot Sketch-BasedImage Retrieval，简称ZSBIR）。关于零次学习（zero-shot learning，缩写为ZRL）的早期工作主要集中在基于属性的识别[14]上，后来又增加了另一条主线，重点是学习图像特征表示和类语义描述符的联合嵌入空间[3，34，13，35，18]。根据联合嵌入空间的选择和在视觉到语义空间之间使用的投影函数的类型，现有模型可以分为三组：（i）从视觉特征空间投影到语义空间[14，21]，(ii)从语义空间投影到视觉特征空间[3]，以及（iii）两者都被相似地投影到[40]的中间空间。与这些现有的作品相比，我们的模型可以被看作是第一组和第二组的组合，其中嵌入是在视觉特征空间上，但要求额外地用解码器恢复其已嵌入的语义。虽然SBIR和CAML已经在研究界得到了广泛的研究，但很少有研究将它们结合起来。Shen等人。 [28]提出了一种多模态网络来减轻草图图像的异质性并增强语义关系。Yelamarthi等人。 [36]重新排序到一个深度条件生成模型，其中草图被作为输入，并通过随机填充缺失的信息来学习生成其照片特征。EST-SBIR背后的主要动机在于草图是昂贵的和劳动密集型的来源-为了在培训草图不容易获得的类别上实现快速部署，利用其他类别的现有草图数据非常重要与其他ZS任务的主要区别，也是问题的主要难点，在于草图和照片之间的广告模态差距。3. QuickDraw-Extended数据集现有的数据集并不涵盖来自一个EST-SBIR系统的所有挑战。因此，我们提出了一个新的数据集名为QuickDraw-Extended Dataset，专门为这项任务而设计。首先，我们回顾了现有的数据集在文献中用于EST-SBIR和激励的目的，新的数据集。因此，我们提供了一个大规模的SBIR数据集，克服了现有的主要问题现有的数据集最初并不是为EST-SBIR场景设计的，但它们已经通过重新定义分区设置进行了调整。此外，我们用新数据集克服的主要局限性是：（i）业余素描和照片之间存在很大的领域差距，(ii)大规模检索的必要性。Sketchy-ExtendedDataset[27]：最初创建为草图与特定照片之间的细粒度关联，此数据集已改编完成了一项任务。一方面，Shen等人。 [28]提出将25个随机类作为测试集，而在其余100个类中进行训练。另一方面，Yelamarthi等人 [36]提出了一个不同的104个训练类和21个测试类的划分，以确保ImageNet的1,000个类中不存在测试。它对于EST-SBIR任务的主要限制是其细粒度的性质，即，每个草图都有一张相应的照片，在绘图时用作参考因此，参与者倾向于以现实主义的方式绘制物体，产生非常类似于真实边缘地图的草图。这基本上缩小了草图和照片之间的跨域差距。TUBerlin扩展数据集[6]：它是为草图分类和识别基准标记而创建的数据集。在这种情况下，抽屉被要求画草图，只给他们类的名称这允许草图之间的语义联系，并避免可能的偏见。然而，草图的数量是稀缺的，考虑到在现实世界中的一个概念的观察之间的可变性。此外，关于对象类别选择的一些设计决策使其不适合我们的零激发设置：（i）类是根据概念和属性来定义的（例如，海鸥，飞鸟）;（ii）使用不同的WordNet级别即有些类在语义上包含在其他类中，(e.g.、马克杯，啤酒杯）。3.1. 数据集考虑到先前描述的数据集在EST-SBIR场景中的局限性，我们为社区贡献了一个新的大规模数据集QuickDraw- Extended。我们确定了以下挑战的一个实用的SBIR，（i）业余素描和照片之间的大域差距，（ii）走向大规模检索的必要性。根据这一点，新的数据集2182i=1i=1表1.数据集的大小比较分区以用于每个集合的类的数量表示，此外，# Comparisons代表测试中执行的草图图像比较的数量。鱼蛙蟹鸮分割（tr+va，te）[27]第六届中国国际纺织品展览会（104，21）（220，30）（80，30）#素描/类500 80 3，000#图像/类600-700764a1，854#比较10百万美元。1. 9百万。166英里。a极不平衡必须做到以下几点：（i）草图和图像之间没有直接的一一对应关系，即，草图可以是以业余绘画风格产生的图像的粗略概念抽象; ㈡避免含糊不清和类别重叠;（iii）由不同抽屉的高抽象级别提供的大的类内可变性。为了实现这些目标，我们利用了Google Quick，Draw！[12]数据，这是一个巨大的收集图纸（50万）属于345猫- egories从快速，画！一场游戏。在这个游戏中，用户被要求画出一个给定的美食草图，而计算机试图将它们分类。收集草图的方式为数据集提供了来自人类抽象的大的可变性。此外，它解决了非专家抽屉和pho- tos之间的巨大领域差距因此，我们建议利用一个子集的草图，构建一个新的数据集的大规模EST-SBIR包含110个类别（80个用于训练和30个用于测试）。像Z字形的圆这样的类因为不能在合适的SBIR中使用而被直接丢弃作为一个检索画廊，我们提供从Flickr中提取的图像标记相应的标签。执行手动过滤以去除离群值。此外，遵循[36]中为Sketchy-Extended数据集引入的想法最后，该数据集由330，000张草图和204，000张照片组成，正在进行大规模检索。我们认为，该数据集将提供更好的见解，在真实的情况下，真正的性能的EST-SBIR。表1提供了三个基准图2.数据集的定性比较素描中不同从上到下，该图还显示了草图和图像之间对齐度的降低。基准测试，如图2所示。4. 一个可持续的SBIR框架4.1. 问题公式化设C是给定数据集中所有可能类别的集合;X={xi}N和Y={yi}M分别是照片集和草图集;lx：X → C和ly：Y→ C分别是用于照片和草图的两个标记函数。活泼地使得给出输入草图，可以获得图库图像的最优排序。在零镜头框架中，训练集和测试集根据可见的CsC和不可见的Cu C类别进行划分，其中CsCu=。因此，模型需要学习对齐的空间，草图和照片，以便在训练中从未使用过的类的测试数据上表现良好。我们定义集合可见和不可见的照片Xs={xi;lx（xi）∈Cs}N为了完成任务。据我们所知这是第一次一个真正的大规模问题是广告，Xu=X \Xi=1S. 我们以类似的方式定义所见，穿着提供6倍以上的素描和超过每类的照片的两倍。QualifiedQuickDraw-扩展提供了比以前更高的抽象级别‡https://quickdraw.withgoogle.com/草图的不可见集合，表示为Ys和Yu。拟议的框架分为两个主要组成部分。编码器将输入图像变换到相应的嵌入空间。第二部分是指导学习过程的成本函数，Quickdraw[27]第二十七话柏林大学[6]2183图3.建议的体系结构，用于将草图和照片映射到一个公共的嵌入空间。它包含三个损失：(i)三元组损失，学习排名度量;（ii）域损失，利用GRL将图像和草图合并到不可区分的空间(iii)语义丢失通过重构类的word2vec嵌入来迫使嵌入包含语义信息。它还有助于通过对否定示例的GRL来区分语义相似的类（最好用彩色显示嵌入所需的属性。图3概述了拟议的办法。4.2. 编码器网络给定距离函数d（·，·），我们的框架的目的是学习两个嵌入函数φ：X →RD和φ：Y →RD，它们分别将照片和草图域映射到公共嵌入空间。稍后这些嵌入函数在测试阶段的检索任务中使用因此，给定两张照片x1，x2∈ X和一张草图y∈ Y，我们期望嵌入满足以下条件：d（φ（x1），φ（y））d（φ（x2），φ（y）），当lx（x1）=ly（y）且lx（x2）/=ly（y）时.<在检索的情况下，我们的系统能够提供一个排名的图像列表所选择的距离函数。在这个框架中，d被设置为Δ2-距离。在训练过程中，两个嵌入φ（·）和φ（·）是用多模态信息训练的，因此它们假设学习一个模态自由表示。我们的嵌入函数φ（ ·）和φ（ ·）被定义为两个CNN，其中最后一个全连接层已被替换以匹配所需的嵌入att和特征图f，注意力模块的输出由f+f·att计算。注意掩模是通过在相应的特征图上应用1×1卷积层4.3. 学习目标建议框架的学习目标包括：（i）三重损失;（ii）域损失;（iii）语义损失。这些目标函数为编码器网络提供视觉和语义信息让我们考虑一个三元组{a，p，n}，其中a∈ Ys，p∈ Xs和n∈ Xs是在训练此外，lx（p）=ly（a）且lx（n）ly（a）。三重损失：这种损失的目的是减少嵌入的草图和图像之间的距离，如果他们属于同一类，如果他们属于不同的类增加。为了简单起见，如果我们分别为正样本和负样本定义样本之间的距离为δ+=（a）−φ（p）2和δ−=（a）−φ（n）2，则特定三元组的排名损失可以用公式表示为λ（δ+，δ−）=max{0，µ+δ+−δ−}，其中µ>0是边际参数。按批次计算，损失定义为：1ΣNLt=λ（δi，δi）。（一）尺寸D。注意力机制帮助我们的系统将两种模式的重要特征本地化。软注意力被广泛使用，因为它是可区分的，因此可以与网络的其他部分端到端地学习。我们的软注意力模型学习了一个注意力掩码，该掩码为给定特征图的图像的不同区域分配不同的权重。这些权重用于突出显示重要的特征，因此，给定一个注意力掩码N+−i=1这种损失衡量嵌入特征的排名顺序的违反。因此，这种损失的目标顺序是δ−>δ++µ，如果是这种情况，则网络不更新，否则，网络的权重相应地更新。三重损失提供了一个度量空间，基于视觉特征的排名属性。21842Dx我我域丢失：上述三重丢失并不意味着将草图和图像样本映射到公共空间。因此，为了确保获得的嵌入属于同一空间，我们建议使用域自适应损失[8]。这种损失的基本思想是获得一个域不可知的嵌入，word2vec[20] 嵌入在 Google News 数据集（ 1000 亿字），GloVe[23]和fastText[1]的一部分上训练（更多结果可在补充材料中获得）。设g：RD→R300是语义重构网络，s=embedding（c）∈R300是给定的语义重构网络猫和狗因此，given一个图像em b。eddinge∈RD the co-不包含足够的信息来决定它是否来自s k蚀刻或照片。给定嵌入φ（ ·）和φ（ ·），我们使用多层感知器（MLP），正弦损耗定义为lc（e，s）=1语义损失定义如下：g（e）st1 −||g（e）||·||S||. 的作为一个二元分类器试图预测哪个是初始的域有目的地，为了创建不可区分的嵌入，我们使用定义为Rλ（·）的GRL，其在向前传递Rλ（x）=x期间应用恒等函数，而在向后传递期间，其乘以梯度。1Ls=3NΣNi=1（lc（φ（ai），si）+lc（φ（pi），si）+lc（Rλs（φ（ni）），si））（3）由元参数−λ，dRλ表示=−λI。这部歌剧-因此，整个网络将由组合训练tion反转了流经CNN的梯度的符号。通过这种方式，我们鼓励编码器从草图和照片中提取共享表示。对于这种损失，我们定义了一个元参数λd，它在训练过程中根据定义的函数从0（只训练分类器，但不更新编码器网络）变为1在我们的例子中，它根据迭代i定义为zλ（i） =（i−5）/20。在符号之后，f：RD→[0，1]是MLP，e∈RD是嵌入的来自编码器网络的丁。然后我们可以将样本之一的二进制交叉熵定义为lt（e）=tlog（f（Rλd（e）+（1−t）log（1−f（Rλd（e），其中e是编码器网络三个损失函数的定义。L=α1Lt+α2Ld+α3Ls，（4）其中，在我们的模型中，权重因子α1、α2和α3算法1给出了本文所采用的训练算法。r（·）表示优化器函数。算法1所提出的模型的训练算法。输入：照片-草图数据{X，Y};类语义S;λs = 0。5和最大训练迭代T输出：编码器网络参数{Θφ，Θφ}。1：重复2：获得随机小批量{yi，xp，xn，si}NB;其中iii=1对于草图域和照片域，t分别为0和1因此，域损失被定义为：3：yi，xp属于同一类，xn不属于同一类。4：λd←λp（zλ（·），min=0，max=1）5：L ←等式46：Θ←θ−Γ（θL）1Ld=3NΣNi=1第七章：直到收敛或最大训练迭代次数T（10（φ（ai））+11（φ（pi））+11（φ（ni）（2）语义丢失：提出了一种解码器网络，试图从生成的嵌入中重建相应类别的语义信息。这种重构迫使语义信息被编码在所获得的嵌入中。在这种情况下，我们建议使用重构的特征向量和类别的语义表示来最小化余弦距离。受Gonzalez等人提出的想法的启发， [9]对于跨域解纠缠，我们建议利用负示例以促进相似语义类别之间的差异。因此，我们将GRLRλs（·）应用于语义解码器的输入处的n_g_i_v_e这个想法是帮助编码器网络将语义相似类的信息。在这种情况下，我们决定在所有训练中将元参数λs保持为固定值，特别是将其设置为0。五、设c∈Cs是an的对应范畴乔尔河; 此类别的语义由5. 实验验证本节在三个基准 Sketchy-Extended 、 TUBerlin-Extended和QuickDraw-Extended上实验性地验证了所提出的ZS-SBIR方法，突出了新引入的数据集的重要性，该数据集对于实际SBIR目的更现实。还介绍了与最新技术水平的详细比较。5.1. 零发射实验设置实施详情：我们的基于CNN的编码器网络运行φ（·）和φ（·）可以使用ImageNet预训练的VGG-16 [29]架构。这可以由任何模型，以提高提取的特征质量。所提出的模型的主分类器f（·）和语义重构g（·）两者利用具有ReLU激活函数的3个完全连接的层整个框架是不-它使用PyTorch [22]深度学习工具，可以在单个Pascal2185Titan X GPU卡上训练。2186表2.与所提出的模型的最新技术水平进行比较。注：CVAE [36]和我们的所有实验都使用相同的训练和测试分割。ZSIH [28]没有报告他们拆分的具体细节（除了25个类用于测试），由于缺乏公开的代码，我们无法在QuickDraw-Extended[27]第二十七话：我的世界a根据[26]中提出的设置，使用25个测试类别的随机分区，我们的模型得到0.3521表3.拟定模型的消融研究作为基线，使用三重态损失，并且递增地添加不同的模块收件人多姆Sem等 [27]第二十六话：我的世界训练设置：我们的系统使用三元组来利用固有的排名顺序。训练批的构造方式使得它可以利用语义信息，以便挖掘给定锚类的硬负样本这意味着语义上更接近的类将有更高的概率在训练过程中使用，因此它们在最终嵌入中可能是不相交的。我们在验证中遵循早期停止策略训练我们的模型，以提供最终的测试结果。该模型使用SGD [2]优化器进行端到端训练。整个过程中使用的学习率是1e−4。在不同的数据集上训练模型所需的epoch约为40。评价方案：拟定的评价使用Yelamarthi等人使用的指标。 [36]第30段。因此，评估-考虑到前200个检索到的样本来执行选择此外，我们还提供了整个数据集的指标。标记有与查询草图相同类别的图像被认为是相关的。请注意，此评估不考虑人类用户认为正确的视觉相似图纸。对于现有的数据集，我们使用了[36，28]中提出的分割。5.2. 模式探讨本节介绍了与最新技术水平的比较研究，随后讨论了TUBerlin扩展结果，最后是消融研究。如前所述，我们的模型是建立在一个三元网络之上的。我们以此为基线，研究了完整模型的不同组成部分的重要性，包括注意力机制，语义损失和域损失。比较：表2提供了我们的完整模型结果与最先进的结果的我们报告了一项关于第2节中介绍的两种方法的比较研究，即ZSIH [28]和CVAE [36]。请注意，由于缺乏技术实现细节和代码不可用，我们无法重现ZSIH模型。因此，无法计算QuickDraw-Extended数据集的结果表2的最后一行显示了完整模型的结果从表2的结果表明，限制了以前的模型，关于他们的能力，在一个不受约束的领域，草图有较高的抽象水平。用草图-图像对应训练的CVAE [36]方法难以捕获类内变异性、域间隙以及推断看不见的类的能力得出以下结论：（i）我们的基础模型优于Sketchy-Extended Dataset中所有最先进的方法;（ii）我们的模型在每个指标和几乎所有数据集上的整体表现最好;(iii)在Sketchy-Extended Dataset中，我们的模型和最先进的数据集之间的差距几乎是两倍;（iv）在以前的数据集中结果的差异指出需要一个新的结构良好的数据集用于EST-SBIR（v）新的基准还提供了在真实EST-SBIR场景中可以发挥重要作用的不同方面（即，语义，互信息）;（vi）评估表明，在检索搜索空间在1.66亿个比较空间范围内的情况下，走向大规模EAS-SBIR的重要性，isons（当前最大数据集的16关于TUBerlin-Extended的讨论：如第3节所述，地图mAP@200P@200地图mAP@200P@200地图mAP@200 P@200ZSIH[28]0.2540a−−0的情况。2200−−不能够产生[36]第三十六话1959年0。22500的情况。33300的情况。00500的情况。00900的情况。00300的情况。00300的情况。00600的情况。0030地图mAP@200P@200地图mAP@200P@200地图mAP@200P@200---0的情况。30200的情况。38900的情况。30910的情况。05900的情况。10400的情况。06820的情况。03540的情况。05460的情况。0454C--0的情况。32070的情况。41500的情况。33420的情况。07290的情况。11410的情况。10020的情况。04560的情况。06350的情况。04962187美国[27]查询前8名检索到的候选人查询前8名检索到的候选人CVAE[36个]我们的梨摩天大楼CVAE[36个]我们的门直升机图4.前8名图像检索的例子给出了一个查询草图。所有示例都对应于零触发设置，即在训练中没有看到任何示例。第一行提供了与CVAE [36]方法对我们的管道的比较。请注意，在某些检索案例中，例如，门与窗口图像混淆，即使对人类来说也是如此绿色和红色代表正确和不正确的检索。（最好在pdf中查看）结果可能受到所选择的实验类的严重影响。由于[28]没有报告关于他们的训练和测试分割的具体细节，我们无法对TUBerlin-Extended进行公平的比较相反，对于[36]和我们的，我们诉诸于普遍接受的随机分割设置的中位数。这表明我们的方法优于[36] 一个明确的界限。然而，我们确实观察到TUBerlin- Extended上不同分割的高度波动，这再次证实了我们的猜测，即TUBerlin-Extended中包含的cat-egories可能不适合零发射设置（参见第3节）。这可以解释[28]的优越性能，但需要更多的实验来证实这种怀疑。不幸的是，如果没有关于它们的训练和测试分裂的细节，这样的实验是不可能的。消融研究：在这里，我们研究每个组件对模型的贡献，以及架构的其他问题。表3的前5行显示了每个组件对整个拟议模型的贡献研究。从该表中我们可以得出以下结论：（1）注意力在提高基线成绩中起主要作用;（ii）域丢失能够在一定程度上缓解域间隙，这在草图更抽象的数据集中更为显著;（iii）随着数据集的难度增加，语义和域损失开始在改善基线结果方面发挥主要作用;（iv）语义比域损失提供了对看不见的数据的更好的外推，这表明互信息非常少，或者在该外推中确实需要语义信息;（v）QuickDraw-Extended数据集中的不良性能表明，实际应用中的问题仍然没有解决。应该指出的是，最好的模型利用了这三种损失。定性：Sketchy-Extended和QuickDraw-Extended的一些检索结果如图4所示。我们也提供与 Yelamarthi 等人提出的 CVAE 的定性比较。[36]。定性的结果加强了语义，域和三重损失的组合公平以及在视觉抽象上具有实质性差异的数据集。我们还想指出的是，摩天大楼类的重新测试结果显示出与矩形（即门和锯）的高度视觉形状相似性。重新检索的圆锯也可以因为语义而不是视觉相似性而被检索。在查询草图直升机和检索结果风车之间也可以注意到类似的视觉对应。6. 结论这篇论文代表了一个实际的ZS-SBIR任务的第一步。以前的工作在这个任务上没有解决一些重要的挑战，出现时，移动到一个无约束的检索，并没有解决与业余素描和照片之间的大域差距。在这种情况下，为了克服缺乏适当的数据，我们为社区贡献了一个专门设计的大型BS-SBIR数据集，QuickDraw-Extended，它提供了用Google Quick，Draw！游戏.然后，我们提出了一种新的嵌入式SBIR系统，它结合了视觉和语义信息来生成图像嵌入。我们的实验表明，这种新的框架克服了最近的国家的最先进的方法，在SBIR设置。确认欧盟MSC资助的工作。665919，西班牙批准FPU15/06264和TIN 2015 -70924-C2-2-R;和CERCA方案/加泰罗尼亚政府。Titan X由NVIDIA捐赠这项工作是在QMUL的SketchX实验室进行研究期间进行的2188引用[1] Piotr Bojanowski，Edouard Grave，Armand Joulin，andTomas Mikolov.用子词信息丰富词向量。TACL，2017年。6[2] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT中。2010. 7[3] Soravit Changpinyo，Wei-Lun Chao，and Fei Sha.为零射击学习预测看不见的类的视觉样本。InICCV，2017. 3[4] J. Deng，W.东河，巴西-地索赫尔湖李凯李飞飞。Imagenet：一个大规模的分层图像数据库。CVPR，2009。一、二[5] SounakDey，Anjan Dutta，Suman Kumar Ghosh，ErnestVal-ve ny，JosepLlad o's和UmapadaPal. 学习跨模态深度嵌入，用于使用文本和草图的多对象图像检索。InICPR，2018. 1[6] Mathias Eitz，James Hays，and Marc Alexa.人类如何InSIGGRAPH，2012. 一二三四七[7] Mathias Eitz，Kristian Hildebrand，Tamy Boubekeur，and Marc Alexa.基于草图的图像检索：基准和特征袋描述符。 IEEE transactions on VCG ，第 1624-1636 页，2011年。2[8] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。二、六[9] Abel Gonzalez-Garcia 、 Joost van de Weijer 和 YoshuaBen- gio。用于跨域分离的图像到图像转换。NeurIPS，2018。6[10] 胡瑞和约翰·科洛姆斯。基于草图的图像检索中梯度场hog描述子CVIU，117（7）：790-806，2013. 二、三[11] 斯图尔特·詹姆斯、曼努埃尔·J·丰塞卡和约翰·科洛姆斯。重演：基于档案舞蹈镜头的舞蹈设计草图。InICMR，2014. 3[12] Jonas Jongejan、Henry Rowley、Takashi Kawashima、Jong-min Kim和Nick Fox-Gieg。快，拔枪！- A.I.实验https://quickdraw.withgoogle.com，2016年。二、四[13] Nour Karessli，Zeynep Akata，Bernt Schiele，AndreasBulling，et al.用于零拍摄图像分类的凝视嵌入。在CVPR，2017年。3[14] Christoph H Lampert ， Hannes Nickisch ， and StefanHarmeling. 基于属性的零镜头视觉对象分类。IEEEPAMI，36（3）：453-465，2014年。3[15] Yi Li ， Timothy M Hospedales ， Yi-Zhe Song ， andShaogang Gong.通过匹配可变形零件模型的基于细粒度草图的图像检索。InBMVC，2014. 3[16] Yanan Li，Donghui Wang，Huanhang Hu，Yuetan Lin，and Yueting Zhuang.使用双重视觉-语义映射路径的零射击识别。在CVPR，2017年。1[17] Liu，Fumin Shen，Yuming Shen，Xianglong Liu，andLing Shao.深度草图散列：基于手绘草图的快速图像检索。在CVPR，2017年。一、二、三[18] Yang Long，Li Liu，Yuming Shen，Ling Shao，and JSong.面向负担得起的语义搜索：零射击通过主导属性检索。在AAAI，2018。3[19] 大卫·G·洛基于局部尺度不变特征的目标识别载于ICCV，1999年。22189[20] Tomas Mikolov ， Kai Chen ， Greg Corrado ， andJeffrey Dean.向量空间中词表示的有效估计。InICLR，2013. 6[21] MohammadNorouzi 、 TomasMikolov 、 SamyBengio 、 Yoram Singer 、 Jonathon Shlens 、 AndreaFrome、Greg S Corrado和Jeffrey Dean。基于语义嵌入凸组合的零次学习见ICLR，2014年。3[22] Adam Paszke 、 Sam Gross 、 Soumith Chintala 和Gregory Chanan。Pytorch，2017. 6[23] 杰弗里·潘宁顿，理查德·索彻，克里斯托弗·曼宁.Glove：单词表示的全局向量。在EMNLP，第1532-1543页，2014中。6[24] Yonggang Qi，Yi-Zhe Song，Honggang Zhang，andJun Liu.基于siamese卷积神经网络的草图图像检索在ICIP，2016年。1[25] 何塞·萨维德拉。利用边缘局部方向直方图的软计算进行基于草图的图像检索. InICIP，2014. 2[26] Jose M Saavedra，Juan Manuel Barrios，and S Orand.基于草图的学习键形图像检索。在BMVC，2015年。2[27] Patsorn Sangkloy ， Nathan Burnell ， Cusuh Ham 和James Hays。sketchy数据库：学习如何找回画得不好的兔子。SIGGRAPH，2016. 一二三四七八[28] Yum

下载后可阅读完整内容，剩余1页未读，立即下载