基于语义捆绑的零镜头图像检索

185 浏览量更新于2023-10-19 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5089基于语义捆绑的成对循环一致性的零镜头草图图像检索Anjan Dutta计算机视觉中心巴塞罗那自治大学adutta@cvc.uab.esZeynep Akata阿姆斯特丹机器学习实验室阿姆斯特丹大学z. uva.nl摘要基于零拍摄草图的图像检索（SBIR）是计算机视觉中的新兴任务，其允许检索与草图查询相关的、在训练阶段可能未看到的自然图像。现有的工作要么需要对齐的草图图像对或低效的内存融合层的视觉信息映射到一个语义空间。在这项工作中，我们提出了一个语义对齐的配对循环一致性生成（SEM-PCYC）模型的零杆SBIR，其中每个分支映射的视觉信息到一个共同的语义空间通过对抗训练。这些分支中的每一个都维护一个仅需要在类别级别上进行监督的循环consideration，并且避免了对高价对齐的草图-图像对的需要。发电机出力的分类标准...不可见类图像...图1.所提出的SEM-PCYC模型通过基于所看到的类的对抗训练来学习将来自草图和图像的视觉信息映射到语义空间在测试阶段，学习的映射用于在零触发SBIR的看不见当所有课程的视觉信息都被放大时，确保视觉到语义空间的映射是有区别的。此外，我们建议通过特征选择自动编码器来组合文本和分层边信息，该特征选择自动编码器在相同的端到端模型内选择有区别的边信息。我们的研究结果表明，在具有挑战性的Sketchy和TU-Berlin数据集上，零拍摄SBIR性能比最先进的性能有显著提高1. 介绍将自然图像与手绘草图匹配，即。基于草图的图像检索（SBIR）[60，58，27，33，47，43，63，7，23]受到了广泛的关注。由于草图能够有效地表达目标图像的形状、姿态和细粒度细节，SBIR是传统文本-图像跨模态检索或经典的基于内容的图像检索的有益补充。这也是因为在某些情况下，可能难以提供期望查询的文本描述或合适的图像，而用户可以容易地在触摸屏上自发地绘制期望对象的草图。系统在训练过程中探索，训练和测试类，现有的SBIR方法表现良好[63]。由于在实践中无法保证训练数据将包括所有可能的查询，因此更现实的设置是零射击SBIR [43，23]，它将零射击学习（ZRL）[25，54]和SBIR结合为单个任务，其目标是准确的类别预测和compete检索性能。然而，零拍SBIR是非常具有挑战性的，因为它同时处理一个显着的域差距，类内的变化和有限的知识，边缘有关看不见的类。ZS-SBIR的现有工作的主要缺点之一是在使用标记对齐对的训练集学习从输入草图到输出图像的映射之后检索草图图像[23]。配对对应的监督是为了增强多模态数据（这里是草图-图像）的相关性，以便学习可以由语义指导。然而，对于许多现实的sce- narios，获得配对（对齐）的训练数据是不可用的或非常昂贵的。此外，通常通过使用记忆融合层[43]来获得两种或更多种模态的联合表示，例如张量融合[19]、双耳池化[62]等。这些熔合层通常是昂贵的可见类图像看不见的类草图甲虫ZS-SBIR可见类草图看不见的类草图5090在内存方面[62]，从这个高维空间中提取有用的信息可能会导致信息丢失[61]。为了克服这些缺点，我们提出了一个语义对齐的成对循环一致生成（SEM-PCYC）模型的零拍SBIR任务，其中每个分支通过对抗训练将草图或图像特征映射到一个公共的这两个分支涉及两种不同的形式（草图和图像）构成了解决SBIR任务的重要组成部分。每个分支上的循环一致性约束保证了草图或图像模态到公共语义空间的映射以及它们到原始模态的平移对来自草图和图像空间的语义对齐的输出施加分类损失，强制语义空间中生成的特征是可区分的，这对于有效的零拍摄SBIR是非常关键的。此外，受先前关于标签嵌入的工作的启发[3]，我们提出通过特征选择自动编码器[ 51 ]组合来自基于文本和分层模型的边信息，该特征选择自动编码器[51]基于类内和类间协方差选择有区别的边信息。本文的主要贡献在于：（1）提出了零射击SBIR任务的SEM-PCYC模型，该模型通过对抗训练将草图和图像特征映射到一个公共语义空间SEM-PCYC模型的每个分支上的循环一致性约束有助于绕过对齐的草图图像对的要求(2)在相同的端到端框架内，我们通过特征选择引导的自动编码器组合不同的边信息，该特征选择引导的自动编码器有效地选择边信息，使类内方差最小化并使类间方差最大化。(3)我们在两个不同难度和大小的数据集（Sketchy和TU-Berlin）上评估了我们的模型，并与最新的模型进行了实验比较，这进一步表明我们提出的模型在两个数据集上都一致地改善了零射击SBIR的最新结果。2. 相关工作由于我们的工作属于边缘的基于草图的图像检索和零镜头学习任务，我们简要回顾了这两个领域的相关文献。基于草图的图像检索（SBIR）。解决SBIR任务的尝试主要集中在弥合草图和图像之间的领域差距，这可以大致分为手工制作和基于跨领域深度学习的方法[27]。手工方法主要是从自然图像中提取边缘图，然后在一些专门设计的SBIR特征（即，边缘图）的基础上使用Bag-of-Words模型将其与草图进行匹配。，梯度场HOG [20]，定向边缘直方图[40]，学习的关键形状[41]等。然而，减少域间隙的困难仍然没有解决，因为将边缘图与未对齐的手绘草图匹配是非常困难的。这个域转移问题进一步解决了神经网络模型，其中域可转移的特征从草图到图像是学习在一个端到端的方式。大多数此类模型使用适用于跨模态检索的连体网络[36，42，58，46这些框架要么使用通用的排名损失，即。，对比损失[9]，三重排序损失[42]或更复杂的基于HOLEF的损失[47]）。Fur- ther这些歧视性的损失，Panget al. [33]介绍了一种判别-生成混合模型，该模型保留了所有对缩小草图和图像之间的域间隙有用的域不变信息。或者，其他一些工作专注于在端到端深度模型中学习类别级别SBIR的跨模态哈希代码[27，63]。相比之下，我们提出了一个成对的循环一致的生成模型，其中每个分支通过对抗训练将草图或图像特征映射到一个共同的语义空间，我们发现这对于减少草图和图像之间的域差距是有效的。Zero-Shot Learning（ZSL）。计算机视觉中的零射击学习是指识别在训练阶段未看到实例的对象;[54]中提供了对WML的全面ZSL的早期作品[25，21，5，4]使用两阶段方法中的属性来推断属于未见过类的图像的标签。然而，最近的工作[15，39，3，2，24]直接学习从图像特征空间到语义空间的映射。许多其他的MML方法学习非线性多模态嵌入[45，2，53，6，64]，其中大多数方法集中于学习从图像空间到语义空间的非线性映射。将图像和语义特征映射到另一个公共的中间空间中是CNOL方法适应的另一个方向[66，16，67，1，28]。尽管该领域中的大多数深度神经网络模型都是使用区分损失函数进行训练的，但也存在一些生成模型[52，55，8]，它们被用作数据增强机制。在CNOL中，需要某种形式的辅助信息，以便将从可见类中学到的知识转移到不可见类中。一种流行的辅助信息形式是属性[25]，然而，这需要昂贵的专家注释。因此，已经有大量的研究[29，3，53，38，37，11]利用其他辅助信息，例如基于文本的[30]或分层模型[32]进行标签嵌入。在这项工作中，我们解决了零镜头跨模态（草图到图像）检索，为此，受[3]的启发，我们在端到端框架内有效地结合了不同的边信息，并通过对抗训练将视觉信息映射到语义空间。5091基于零镜头草图的图像检索（EST-SBIR）。 Shen等人[43]首先将零拍摄学习和基于草图的图像检索相结合，并提出了一种用于解决零拍摄SBIR任务的生成式交叉模式哈希方案受其启发，Yelamarthiet al.[23]提出了两个类似的基于自动编码器的零拍摄SBIR生成模型，其中他们使用对齐的草图和图像对相比之下，我们提出了一个成对的循环一致的生成模型，其中每个分支通过具有共同特征的对抗训练将来自草图或图像的视觉信息映射到语义空间每个分支上的循环一致性约束允许仅在类别级别进行监督，并且避免了对齐草图图像对的需要。3. SEM-PCYC模型在这项工作中，我们提出了语义对齐的成对循环一致的生成（SEM-PCYC）模型的零拍草图为基础的图像检索。来自所见类别的草图和图像数据仅用于训练底层模型。我们的SEM-PCYC模型编码和匹配在训练阶段仍然不可见的草图和图像类别。我们的端到端深度架构的整体管道如图2所示。令Ds={Xs，Ys}是来自包含草图图像的所见类别Cs的草图和图像数据的集合对，在训练Gsk和Gim的过程中，我们提出了一个循环一致的生成模型，其每个分支在语义上与一个公共分支对齐。模型中每个分支的循环一致性约束保证了草图或图像模态到一个公共语义空间的映射，以及它们到原始模态的转换，这只需要在类别级别上进行对Gsk和Gim的输出强加分类损失允许生成高度区分的特征。我们的主要目标是学习两个映射Gsk和Gim，它们可以分别将未对齐的草图和自然图像转换到一个公共的语义空间。Zhu等[68]指出模态与域之间存在着潜在的内在联系，如同一对象范畴的素描或图像具有相同的语义，并具有这种联系。尽管我们缺乏视觉监督，因为我们无法访问对齐对，但我们可以利用语义监督在类别级别。我们训练一个映射Gsk：X→S，其中si∈S是对应的边信息，并且经由将不同于si的si分类的adversarial训练而与si不可区分。最优Gsk由此将模态X转换为模态Sk，模态S k与S同分布。类似地，另一个函数Gim：Y→S可以通过相同的训练，使得Si=Gim（yi）。对抗性损失。如图2所示，为了将草图和图像表示映射到公共语义，Xs={xs}N以及自然图像Ys={ys}Ntic空间，我们引入四个生成元Gsk：X→S，i i=1i i =1其中N是不一定对齐的草图和图像对的总数。在不失一般性的情况下，可以假设具有相同索引（例如i）的草图和图像共享相同的类别标签。Gim：Y → S，Fsk：S → X和Fim：S → Y。在ad-此外，我们引入了三个辅助判别器：Dse（·），Dsk（·）和Dim（·），其中Dse在原始边信息{s }，变换为边信息的草图{s}，变换为边信息的草图{s }和变换为边信息的草图{s}之间进行判别设Ss={ss}N成为有用的辅助信息集图像{Gsk（x）}和图像变换为边信息，i i=1用于将监督的知识转移到看不见的类，这是CNOL方法中的通常做法。我们的模型的主要目的是学习两个深度函数Gsk（·）和Gim（·）分别用于sk蚀刻和图像映射一个共同的知识空间，一个共同的知识空间。边缘也可以被应用于看不见的类。给定一组来自不可见类别Cn的草图图像数据DU={Xu，Yu}进行测试，给出了所提出的深度函数Gsk：Rd→RM，Gim：Rd→RM（d是原始数据的维数，M是目标维数的公共表示）将草图和自然图像映射到执行检索的公共语义空间。由于该方法考虑了零炮显然，可见和不可见的范畴仍然是排他性的，即，CsCu=。3.1. 成对循环相容生成模型对于有灵活性来处理素描和图像在-（1）、（2）、（3）、（4）、（5）、（6）、（ 7 ）、（ 8 ）、（ 9 ）、（ 10 ）、（ 11 ）、（12）、（13）、（14）、（15）、（16）、（17）、（19）草图表示{x}和转换为草图表示{Fsk（s）}的边信息;以类似的方式，Dim在{y}和{Fim（s）}之间进行区分。对于生成元Gsk、Gim和它们的共同的生成元Se，具体如下：Ladv（Gsk，Gim，Dse，x，y，s）= 2×E[logDse（s）]（1）+E[log（1−Dse（Gsk（x）]+E[log（1−Dse（Gim（y）]其中Gsk和Gim生成与S中的边信息类似的边信息，而Dse区分所生成的边信息和原始边信息。这里，Gsk和Gim 使目标最小化，而对手Dse试图使目标最大化，即。minGsk，GimmaxDseLadv（Gsk，Gim，Dse，x，y，s）.以类似的方式，对于生成元Fsk及其k_Dsk，目标是：Ladv（Fsk，Dsk，x，s）=E[logDsk（x）]个别地，即，即使当它们没有对齐草图图像时+E[log（1−Dsk（Fsk（二）（s））]5092图像CNN图像关注发生器发生器鉴别器合成基于文本的模型合成房自动编码器实数鉴别器层次模型合成房CNN草图关注合成发生器发生器鉴别器草图=周期一致性损失=分类损失=对抗性损失图2. SEM-PCYC的深层网络结构。草图（浅灰色）和图像循环一致网络（浅蓝色）分别将草图和图像映射到语义空间，然后映射到原始输入空间。自动编码器（浅橙色）结合基于文本和层次模型的语义信息，并产生一个压缩的语义表示，作为一个真正的例子，以翻译。在测试阶段，只有语义空间的学习草图（浅灰色区域）和图像（浅蓝色区域）编码器用于在零激发SBIR的不可见类上生成嵌入。(best颜色显示）Fsk使目标最小化，而它的对手Dsk则使目标最大化，即minFskmaxDskLadv（Fsk，Dsk，x，s）.同样，引入了另一种对抗性损失对于映射F_im和它的f_ID_im，即，minFimmaxDimLadv（Fim，Dim，y，s）.循环一致性损失。对抗机制有效地减少了域或模态间隙，然而，不能保证输入xi和输出si很好地匹配。为此，我们实施周期一致性[68]。当我们将物体的草图特征映射到相应的语义空间，再将其从语义空间转换回草图特征空间时，需要回到原始的草图特征。这种循环一致性损失还有助于学习跨领域的映射，其中配对或对齐的示例不可用。具体地说，如果我们有一个函数Gsk：X→S和另一个映射Fsk：S→X，那么Gsk和Fsk都是彼此的逆，因此形成一一对应或双射映射Lcyc（Gsk，Fsk）=E[<$Fsk（Gsk（x））-x1]分类损失。另一方面，对抗性训练和循环一致性约束并不明确地确保由映射Gsk和Gim生成的特征是否是类区分的，即，基于零拍摄草图的图像检索任务的要求。我们推测，这个问题可以通过引入一个判别分类器预先训练的输入数据来缓解在这一点上，我们最大限度地减少了生成的功能的分类损失。Lcls（Gsk）= −E[log P（c|Gsk（x）; θ）]（4）其中c是x的类别标签。类似地，分类损失Lcls（Gim）也施加在生成器Gim上。3.2. 边信息受零激发学习的属性选择的启发[18]，表明区分属性的子集比用于WML的整个属性集更有效，我们结合了集成自动编码器的联合学习框架来选择辅助信息。设s∈Rk为边信息，k为原始维数。损失+E[Gsk （Fsk（三）(s))−sz1]功能是：L（f，g）=s−g（f（s））<$2+λ<$W<$（五）类似地，对地图施加循环一致性损失-欧洲核能委员会F12，1pingGim：Y→S和Fim：S→Y：Lcyc（Gim，Fim）。这些一致损失函数也表现为正则化子到对抗训练，以确保学习的函数将特定输入xi映射到期望的输出si。其中f（s）=σ（ W1s+b1），g（f（s））=σ（ W2f（s）+b2），W1∈Rk× m，W2∈Rm× k，b1，b2分别作为函数f和g的权和偏置. 选择辅助信息降低了嵌入的维数5093这进一步改善了检索时间。因此，我们模型的训练目标是：L（Gsk，Gim，Fsk，Fim，Dse，Dsk，Dim，f，g，x，y，s）=Ladv（Gsk，Gim，Dse，x，y，s）+Ladv（Fsk，Dsk，x，s）（6）+Ladv（Fim，Dim，y， s）+Lcyc（Gsk，Fsk）+Lcyc（Gim，Fim）+Lcls（Gsk）+Lcls（Gim）+Laenc（f，g）为了获得初始边信息，我们结合了基于文本的模型和层次模型，它们是互补的和鲁棒的[3]。下面，我们提供了我们的基于文本和层次模型的边信息的描述。基于文本的模型我们使用两种不同的基于文本的边信息。(1)Word2Vec [31]是一个两层神经网络，经过训练可以重建单词的语言上下文。在训练过程中，它需要一个大型的文本语料库，并创建一个数百维的向量空间，每个唯一的单词被分配到该空间中相应的向量。该模型可以使用分层softmax进行训练，该分层softmax具有用于目标预测的 skip-gram 或连续词袋公式。(2)GloVe [35]考虑了经常出现在语料库中的全局词-词共现统计。直观地，共现统计编码重要的语义信息。目标是学习词向量，使它们的点积等于它们同现的概率。层次模型。单词之间的语义相似性也可以通过在一个大的本体中测量它们的距离来近似，比如在英语中有100，000个单词的WordNet1人们可以使用路径相似性和Jiang-Conrath [22]等技术来测量相似性。对于字典D中的节点的集合S，每个类c与S中的所有其他节点之间的相似性确定了类嵌入向量[3]. S考虑从D中的每个节点到其最高级别祖先的路径上的所有节点。WordNet的数据库包含Sketchy [42]和Tu-Berlin [13]数据集的大部分类少数例外是：杰克灯，我们用灯笼取代，在等级制度中出现更高，类似于人类骨骼，骨骼、章鱼与章鱼等。|S|对于Sketchy和TU-Berlin数据集，分别为354和664。4. 实验数据集。我们在两个流行的SBIR基准上实验验证了我们的模型：Sketchy [42]和TU- Berlin [13]，以及[ 27 ]的扩展图像。草图数据集[42]（扩展）是草图-照片对的大型集合。该数据集由来自125个不同类别的图像组成，每个类别有100张照片草图是通过众包收集的，最终得到了75471张草图。该数据集还包含特定照片和草图之间的细粒度对应（对齐）Liu等[27]通过添加60，502张照片扩展了数据集，总共产生了73，002张图像。我们随机选取了25类草图和图像作为零拍SBIR的不可见测试集，其余100个可见类的数据用于训练。TU-Berlin数据集[13]（扩展）包含250个类别，共有20，000个草图，由[27]扩展，其中自然图像对应于草图类，总大小为204，489。随机选取30类草图和图像分别构成查询集和检索图库。其余220个班用于培训。我们遵循沈等人。[43]并选择测试集中至少有400张图像的类。实施详情。我们使用PyTorch [34]深度学习工具箱2实现了SEM-PCYC模型，该工具箱可在单个TITAN Xp图形卡上训练。我们从VGG中提取草图和图像的特征-16[44]在ImageNet [10]数据集上预训练的网络模型（在最后一个池化层之前）。由于在这项工作中，我们处理单个对象检索和对象通常只跨越草图或图像的某些区域，我们应用的注意力机制的启发宋等。[47]没有用于从草图和图像中仅提取信息区域的快捷连接。通过由注意力模型和全连接（fc）层引导的池化操作来获得被关注的512-D表示。整个模型在我们的训练集上进行了微调（Sketchy有100个类，TU-Berlin有220个类）。生成器Gsk和Gim都是用fc层构建的，fc层后面是ReLU非线性，其接受512-D向量并输出M-D表示，而生成器Fsk和Fim采用M-D特征并产生512-D向量。因此，所有鉴别器被设计为采用相应发生器的输出并产生一维输出。自动编码器通过堆叠两个非线性fc层来设计，分别作为编码器和解码器，用于获得维度M的压缩和编码表示。在构造用于获取类嵌入时，我们只考虑所看到的属于该数据集的类这样，Sketchy和TU-Berlin数据集的WordNet层次结构或知识图分别包含354和664个节点。虽然我们的方法不产生二进制哈希码作为匹配草图和图像的最终表示，但为了与一些相关的工作进行比较，例如，ZSIH[56]，ZSIH [43]，GDH [63]，产生哈希码，我们使用迭代量化（ITQ）[17]算法来获得二进制哈希码。在这12500张图片中出现的物体的图片2我们的代码和训练模型可在以下网址获得：https：//github.1https://wordnet.princeton.educom/AnjanDutta/sem-pcyc5094方法地图@all粗略的精度@100（扩展）功能尺寸检索时间（s）地图@allTU-柏林（扩展）精度特征@100维检索时间（s）SBIRSoftmax基线[36]第三十六话SaN [59][42]第四十二话3D形状[50]DSH（binary）[27]GDH（二进制）[63]0的情况。1140的情况。1320的情况。1150的情况。2040的情况。0670的情况。1710的情况。1870的情况。1720的情况。1750的情况。1250的情况。2960的情况。0780的情况。2310的情况。25940966451210246464643 .第三章。5×10−1五、7×10−34.第一章8×10−29 .第九条。1×10−27 .第一次会议。8×10−3六、1×10−57 .第一次会议。8×10−50的情况。0890的情况。14340964.第一章3×10−10的情况。1090的情况。14164五、9×10−30的情况。0890的情况。108512五、5×10−20的情况。1750的情况。25310241 .一、9×10−10的情况。0540的情况。067647 .第一次会议。2×10−30的情况。1290的情况。189647 .第一次会议。2×10−50的情况。1350的情况。212649 .第九条。6×10−5ZSLCMT [45]DeViSE [15][65]第六十五话JLSE [67]严重不良事件[24][第14话][57]第0的情况。0870的情况。0670的情况。1160的情况。1310的情况。2160的情况。1270的情况。1590的情况。1020的情况。0770的情况。1610的情况。1850的情况。2930的情况。1690的情况。21430030010010030051264二、8×10−23 .第三章。6×10−21 .一、3×10−21 .一、5×10−2二、9×10−23 .第三章。2×10−2五、9×10−50的情况。0620的情况。0783003 .第三章。3×10−20的情况。0590的情况。0713003 .第三章。2×10−20的情况。0890的情况。1212201 .一、7×10−20的情况。1090的情况。1552201 .一、4×10−20的情况。1670的情况。2213003 .第三章。2×10−20的情况。1100的情况。1575123 .第三章。9×10−20的情况。1410的情况。177647 .第一次会议。6×10−5零发射SBIRZSIH（binary）[43][23]第二十三话SEM-PCYCSEM-PCYC（二进制）0的情况。2580的情况。1960的情况。3490的情况。3440的情况。3420的情况。2840的情况。4630的情况。3996410246464六、7×10−59 .第九条。6×10−21 .一、7×10−39 .第九条。5×10−50的情况。2230的情况。294647 .第一次会议。7×10−50的情况。0050的情况。00110241 .一、2×10−10的情况。2970的情况。426641 .一、9×10−30的情况。2930的情况。392649 .第九条。3×10−4广义零激发SBIRZSIH（binary）[43]SEM-PCYCSEM-PCYC（二进制）0的情况。2190的情况。3070的情况。2600的情况。2960的情况。3640的情况。317646464六、7×10−51 .一、7×10−39 .第九条。4×10−50的情况。1420的情况。218647 .第一次会议。7×10−50的情况。1920的情况。29864二、0×10−30的情况。1740的情况。267649 .第九条。3×10−4表1.基于零拍草图的图像检索性能与现有SBIR，CNOL，零拍SBIR和广义零拍SBIR的比较。拍摄SBIR方法。注：SBIR和SANL方法适用于零镜头SBIR任务，相同的可见和不可见类用于公平比较。5095天鹅鸭猫头鹰企鹅站鸟图3. TU-Berlin数据集中的类间相似性。草图和图像的代码。我们已经使用来自训练集的草图和图像的最终表示来学习优化旋转，该优化旋转稍后用于我们的最终表示以获得二进制代码。4.1. 与现有技术相比除了两个前零拍SBIR工程最接近我们，即。ZSIH[43]和ZSI-SBIR [23]中，我们采用了四阶的双线性和SBIR模型来处理零炮SBIR任务。我们评估的SBIR方法是SaN [60]，3D Shape [49]，Siamese CNN [36]，GNTriplet [42]， DSH [27]和GDH [63]。还添加了一个softmax基线，该基线基于计算4096-D VGG-16[44]特征向量，该特征向量在最近邻搜索的可见我们评估的WML方法有：[15][16][17][18][19][1”[14]“是的。为了公平比较，我们对所有实验都使用了相同的可见 - 不可见分类。我们计算平均精密度（ mAP@all ）和精密度，考虑前 100 个（精密度@100）[48，43]试验，用于性能评价和比较。表1显示，大多数SBIR和STRL方法的性能比零激发SBIR方法差。其中，基于特征向量的方法通常会受到域的影响，当SAE [24]达到最佳性能时，草图和图像模态之间存在差距。大多数SBIR方法虽然表现得比它们的CNOL对应方法更好，但仍然不能将学习到的表示推广到看不见的类。然而，GN Triplet [42]，DSH [27]，GDH[63]已经显示出仅从具有共同形状的对象中概括信息的合理潜力。正如预期的那样，特殊化的零激发SBIR方法已经超过了大多数的BNL和SBIR基线，因为它们既具有减少域间隙的能力，又具有将学习到的信息推广到看不见的类的能力。EST-SBIR学习从对齐的草图-图像对中在草图和图像之间进行概括，因此它在Sketchy数据集上表现良好，但在TU-Berlin数据集上表现不佳，因为在这种情况下，对齐的草图-图像对不可用。我们提出的方法一直优于国家的最先进的方法0。091 mAP@所有的草图数据集和0。074mAP@all，这表明我们提出的SEM-PCYC模型的有效性，(1)素描、意象、语义空间;（2）边信息的精简和选择。一般来说，表1中考虑的所有方法在TU-Berlin数据集上的表现都较差，这可能是由于大量的类，其中许多类在视觉上相似且重叠。这些结果是令人鼓舞的，因为它们表明，循环的一致性有助于零拍摄SBIR任务，我们的模型在这个领域设置了新的最先进的。 SEM-PCYC 的 PR曲线和Sketchy和TU-Berlin上的考虑基线分别如图5（a）-（b）所示我们还进行了额外的实验-5096文本手套嵌入Word2Vec分层嵌入路径[26]第二十六话G[22日]粗略（延伸）TU-柏林（延伸）C0的情况。2840的情况。228C0的情况。3300的情况。232C0的情况。3140的情况。224C0的情况。2480的情况。169图4.根据欧几里得距离，这里示出了由我们的SEM-PCYC模型在Sketchy（顶部四行）和TU-Berlin（接下来四行）上获得的前10个零激发SBIR结果，其中绿色刻度表示正确检索的候选，红色十字表示错误检索。(best颜色显示）在广义的搜索空间包含可见和不可见的类的情况下，该任务比EST-SBIR更具挑战性，因为类会对测试查询造成干扰。我们在表1（最后两行）中的结果表明，由于我们的跨模态对抗机制和异构边信息的好处，我们的模型显着优于[43]定性结果。接下来，我们在图4中定性地分析了我们提出的模型的检索性能（更多定性结果可参见[12]）。下面是一些没有表格的例子. 坦克的草图查询检索了摩托车的一些实例，可能是因为它们都有共同的车轮。因为你有-sual和语义的相似性，素描吉他检索一些小提琴。查询castle时，由于其语义相似类的图像，如摩天大楼、教堂等，大部分都是以天空为背景拍摄的，所以检索到的总体而言，我们观察到错误检索的候选项大多与查询项具有更密切的视觉和语义相关性。这种影响在TU-Berlin数据集中更为突出，这可能是由于不同类别之间的草图的类间相似性如图3所示，天鹅、鸭子和猫头鹰、企鹅等类别具有实质性的视觉相似性-表2.Zero-shot SBIR mAP@all using different semantic em-床上用品（上）及其组合（下）。它们都是站着的鸟，这是同一数据集的一个单独的类。因此，对于TU-Berlin数据集，从已知类的学习表示中概括未知类是一个挑战。4.2. 边信息的影响在零触发学习中，边信息与视觉信息一样重要，因为它是模型发现类之间相似性的唯一手段由于边信息的类型对任何方法的性能都有很大的影响，本文分析了边信息的影响，并给出了不同边信息及其组合情况下的我们比较了使用GloVe [35]和Word 2 Vec [30]作为基于文本的模型的效果，以及三种相似性度量，即path ， Lin [26] 和 Jiang-Conrath [22] 提出了一种基于WordNet层次结构的三种不同的边信息构造方法。表2包含Sketchy和TU- Berlin数据集的定量结果，其中提到了不同的辅助信息及其组合，其中我们设置M=64（M=32，128的结果可参见[12]）。我们已经观察到，在大多数情况下，结合不同的辅助信息可以将性能提高1%到3%。在Sketchy上，Word 2 vec和Jiang-Conrath层次相似度的组合达到最高的mAP0。349而在TU Berlin数据集上，Word2Vec和路径相似性以0领先。297mAP。我们从这些实验中得出结论，基于层次的类嵌入是互补的。然而，Word2Vec在零镜头SBIR任务中比GloVe更好地捕获单词之间的语义相似性。4.3. 模型消融我们的消融研究的基线是通过修改SEM-PCYC模型的某些部分来建立的，并分析了我们模型的不同损失的影响。首先，我们只使用对抗损失来训练模型，然后交替地添加循环一致性和分类损失来训练。第二，我们在训练模型时不采用边信息选择机制，只将原始文本或层次嵌入或它们的组合作为边✓ ✓✓✓✓✓ ✓✓✓✓✓ ✓✓✓✓✓ ✓✓✓✓✓✗✓✓✓✓ ✓✓✗✓✓ ✓✓✗✗✓ ✓✗✓✓✓ ✓✓✓✓✓ ✓✓✓✓✓ ✓✓✓✓✓ ✓✓✓✓✓ ✓✓✗✓✓ ✓✓✗✓✓✗✗✓✓✓✗✓✗✓509710.90.80.70.60.50.40.30.20.10PR曲线：草图数据集（64dim）00.10.20.30.40.50.60.70.80.9110.90.80.70.60.50.40.30.20.10PR曲线：TU-Berlin数据集（64 dim）00.10.20.30.40.50.60.70.80.910.450.40.350.30.250 10 203040 50可以得出结论，所有这三个损失是相辅相成的，绝对必要的有效零拍SBIR。接下来，我们分析了边信息的影响，并观察到，在没有编码和紧凑的边信息的情况下，我们实现了更好的mAP@all，同时在检索时间上做出了妥协，作为原始维度（354+ 300= 654d召回召回删除边信息的比率（%）对于Sketchy和664+300=964d对于TU-Berlin），(a)(b)（c）第（1）款图5.（a）-（b）分别在Sketchy和TU-Berlin数据集上的SEM-PCYC模型和几种SBIR、STNL和零激发SBIR方法的PR曲线。（c）显示mAP@all与去除的边信息的比率的图。(best颜色显示）描述Sketchy TU-Berlin表3.我们的64-D模型mAP的消融研究@几个基线的所有结果如上所示。信息，其可以给出关于经由自动编码器选择边信息的优点的想法。接下来，我们尝试将类嵌入的维度最后，为了证明在自动编码器中使用的正则化器用于选择有区别的边信息的有效性，我们通过在等式n中使λ=0来进行实验。（五）、通过各自基线获得的所有值的以上所述，见表3。我们根据表2考虑取决于数据集的最佳边信息设置。评估的基线通常表现低于完整的SEM-PCYC模型。只有在对抗性损失的情况下，我们的系统的性能才显著下降。我们怀疑只有对抗性训练虽然将草图和图像输入映射到语义空间，不能保证相同类别的草图-图像对匹配。这是因为对抗性训练仅确保输入模态到目标模态的映射与其经验分布匹配[68]，但不保证单个输入和输出配对。循环一致性约束的引入保证了草图图像类别之间的一一对应。然而，当模型在对抗性和周期一致性损失的情况下进行训练时，我们系统的性能并没有实质性提高。我们推测，这个问题可能是由于学习的嵌入函数缺乏类别间的区分能力;为此，我们设置了一个分类标准来训练有区别的跨模态嵌入函数。我们进一步观察到，仅将分类标准与对抗性损失一起施加，既不能改善检索结果。我们推测，在这种情况下，学习的嵌入可能是非常有区别的，但这两个模态可能以错误的方式匹配。因此，它可以侧边信息比编码的侧边信息（64D）高得多。我们进一步研究，通过减少其尺寸作为一个百分比的原始的（见图5（c）），我们已经观察到，在开始时，减少一小部分（主要是5%至30%）通常会导致更好的性能，这表明，并非所有的边信息是必要的有效的零拍SBIR，其中一些实际上，首先去除的信号具有低信息含量，并且可以被视为噪声。我们还发现，去除更多的边信息（超过20%至40%）会使系统的性能恶化，这是相当合理的，因为自动编码器的压缩机制会逐渐去除重要的和可预测的边信息。然而，可以观察到，高度压缩的边信息，以及，我们的模型提供了一个非常好的处理性能和检索时间。不使用方程中的正则化子。（5），尽管我们的系统表现合理，但mAP@all值仍然低于获得的最佳性能。我们解释这是使用基于21范数的正则化器的好处，它可以有效地选择代表性的边信息。5. 结论我们提出了SEM-PCYC模型的零拍SBIR任务。我们的SEM-PCYC是一个语义对齐的成对循环一致生成模型，其每个分支通过具有共享的训练的对抗训练将草图或图像映射到公共语义空间。由于两个分支上的周期一致性，我们的模型不需要对齐的草图-图像对。此外，它在对抗训练中充当正则化器。生成器上的分类损失保证了特征是有区别的。我们表明，通过自动编码器将异构的边信息组合起来是有效的，该自动编码器编码了一个对对抗训练有用的紧凑的边信息。我们对两个数据集的评估表明，我们的模型在零拍SBIR任务中始终优于现有的方法致谢这项工作得到了欧盟研究和创新计划的部分支持，该计划由玛丽·斯科洛多夫斯卡-居里赠款协议编号为2009年12月25日。665919.用于这项研究的泰坦Xp和泰坦V是由NVIDIA公司捐赠的。Softma xBa selin e Siam ese C N N SaNGN Trip le t3DSh a p eD SHGD H C MT公司简介公司简介Softm axBa selin eSiamese CN NSaNGNTrip let3DShape DSHGDH CMT公司简介公司简介柏林大学（扩展版）精度精度mAP@all只有对抗性损失0的情况。1280的情况。109对抗+循环一致性损失0的情况。1470的情况。131对抗+分类损失0的情况。1400的情况。127不选择边信息0的情况。3820的情况。2995098引用[1] Zeynep Akata、Mateusz Malinowski、Mario Fritz和BerntSchiele。具有强监督的多线索零触发学习。在CVPR，第59-68页，2016年。2[2] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid。用于图像分类的标签嵌入IEEE TPAMI，38（7）：1425-1438，20

下载后可阅读完整内容，剩余1页未读，立即下载