看不见的概念的分解和组合：细粒度的上下文关系模拟和自适应半积极的学习方法

197 浏览量更新于2023-10-23 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10248“年轻”“老虎”组成看不见的概念小猫？老老虎？“猫”“老”通过层次分解和组合西安电子科技大学电子工程学院，西安2上海交通大学计算机工程系，MoE人工智能重点实验室3北京航空航天大学软件开发环境国家重点实验室，北京1001914澳大利亚悉尼大学工程学院计算机科学学院悉尼UBTECH人工智能中心mlyang@stu.xidian.edu.cn，www.example.com，chdeng@mail.xidian.edu.cn，yanjunchi@sjtu.edu.cnxlliu@nlsde.buaa.edu.cn，dacheng. sydney.edu.au摘要从已知的子概念中构造和识别新概念一直是一项基本的、具有挑战性的视觉任务，主要原因在于：1）子概念的多样性; 2）子概念与其相应的视觉特征之间复杂的上下文关系然而，目前的方法大多将上下文关系简单地视为严格的语义关系，无法捕捉到细粒度的上下文相关性。我们建议学习看不见的概念，在一个分层的分解和组合的方式。考虑到子概念的多样性，我们的方法将每一个看到的图像分解成视觉元素，根据其标签，并学习相应的子概念在其各自的子空间。为了模拟子概念及其视觉特征之间复杂的上下文关系，彪老猫可见概念子概念看不见的概念以三种层次形式从这些子空间中生成，并且在统一的组合空间中学习组合概念。为了进一步细化捕获的上下文关系，自适应半积极的概念被定义，然后学习伪监督利用从生成的组合。我们在两个具有挑战性的基准上验证了所提出的方法，并证明了其优于最先进的方法。1. 介绍人类智能的一个特征是对个体概念的合成能力[1]。想象大，这是常见的，我们提出的组成概念，如大建筑和大猫。这里的“大”不再是一个独立的概念，而是一个可以与其他子概念组合成新概念的子概念，体现了组合概括的能力。然而，合成泛化仍然是一个*通讯作者。图1.一个看不见的成分概念识别的例子。训练幼虎和老猫，期望学习年轻、老虎、老和猫的子概念，这些子概念可以用来组成和识别看不见的幼虎和老老虎。机器无法逾越的障碍。在本文中，我们将探索零拍摄学习（Zero-Shot Learning，简称ZRL）设置下的合成泛化，其中模型需要识别由可见子概念组成的不可见图像。如图1所示，一个主要的挑战是子概念的多样性，例如，young tiger，其中young是语义描述，而tiger是物理实体。子概念在视觉上和语义上都是不同的，当面对许多可能的组合时，会导致识别困难.另一个挑战是子概念的上下文，老老虎里的老人应该和老汽车里的老人完全不同。子概念的语义倾向于高度依赖于彼此。上下文也与特定的图像有关[22]，例如，两张不同的老虎照片显示的年龄取决于照片本身，这需要捕捉精细的10249子概念及其相应的视觉特征之间的粒度上下文关系。然而，大多数最近的方法[17，18，27]将上下文关系降级为公共嵌入空间中的刚性语义关系它们无法捕捉到更丰富的细粒度上下文关系，并在具有挑战性的语言环境下遭受复杂的上下文。在本文中，我们建议学习看不见的组成概念的层次分解和组成（HiDC）的方式。具体来说，为了应对多样性的挑战，HiDC将每个看到的图像根据其组成标签分解为视觉元素，并在其各自的子空间中学习分解的子概念对于上下文，从这两个概念子空间生成各种组合，并在统一的组合空间中学习组合概念。为了进一步揭示子概念及其视觉特征之间复杂的语境关系，我们提出了三种层次形式的合成，视觉，文字和混合组成。视觉构图作为概念学习的视觉原型;词语组合通过将词语概念映射到视觉特征来进行概念学习;混合式作文通过将视觉特征传递给文字概念，反之亦然，从而在视觉概念和文字概念之间架起了桥梁。这三个层次结构能够对复杂的上下文进行建模，并允许捕获细粒度的上下文关系。此外，细化的上下文所捕获的成分，我们发现和自适应组成半积极的概念。为此，所生成的组合的底层知识被利用作为自适应伪监督，以更准确地学习半正概念。我们提出的HiDC在两个流行的基准数据集上进行了验证。实验表明，HiDC始终优于最先进的此外，消融研究验证了每个拟议模块的有效性。综上所述，本文的主要贡献在于：• 一种端到端的分解和合成方法，具有三种分层合成形式，用于对合成子概念及其相应的视觉特征;• 描述细粒度上下文关系的自适应半正概念的新探索;同时，还提出了一种自适应伪监督机制，从生成的作文中准确地学习半正概念;• 广泛的消融研究和实验，验证了我们提出的方法的有效性，并证明了其优于现有技术。2. 相关工作Zero-Shot Learning（ZSL）。[20，14，15]的目的是将知识从可见的概念转移到不可见的概念，这样模型就能够识别在训练中从未出现过的新概念。基本上，主流的嵌入式方法可以分为两类：1）基于嵌入的方法和2）基于生成的方法。基于嵌入的方法[23，2，3，28，33]旨在为视觉特征和属性语义特征找到有区别的公共嵌入空间基于生成的方法[13，26，10，19，31]利用生成模型来合成看不见的概念。可进一步扩展到更实际的设置，即，广义概念L（GREML），其中需要模型来识别具有可见/不可见标签的不可见概念。相比之下，传统的概念识别语言只需要用一个看不见的标签来识别一个看不见的概念。在本文中，我们提出了一个基于嵌入的GREML方法，其中层次嵌入空间的构造来学习组合概念。看不见的构图概念识别.这个任务是一个专门的图像处理问题，其中图像被标记为组合概念，例如，小老虎。早期的方法[4，17，25]通常为每个子概念训练独立的分类器，并将训练好的分类器组合起来识别看不见的概念。与我们最相关的方法是AttrAsOperator[18] 和 AdvFineGrained[27] 。 AttrAsOp-erator将数据集中的组合概念视为属性-对象对。通过处理属性（例如，年轻）作为运算符，AttrAsOperator在公共嵌入空间中组成属性条件变换，以学习具有三重丢失正则化的不可见属性-对象概念[9，5，8，29，30]。相比之下，而不是处理组合概念的属性对象对，我们分解和组合这些概念在一个统一的框架，而不显式地建模每个子概念。当组合不偏向于属性-对象对时，这使得能够在现实世界的应用另一方面，Ad-vFineGrained提出用五元组损失来调节公共嵌入空间，其中定义了半负我们认为，这个定义过于严格，无法学习准确的组合概念（详细讨论见第3.2节中的词组合）。相反，我们将它们视为自适应半正样本，以学习更准确的概念。此外，AdvFine-Grained采用多尺度特征和对抗训练以获得更好的性能;而我们不涉及任何与问题无关的技巧，并且仍然实现了卓越的性能。3. 方法我们考虑这样的设置，其中每个图像Ia，o由属性ya和对象yo组成，并且其标签y是10250一O输入图像��,��(⋅)组合物区间我是，我是ResNetv，��(⋅)v（⋅）“年轻”x，中文（简体）��彪vℎ��(⋅)ℒ“老虎”CLS双组分+双组分中文（简体）��属性子空间属性词��(⋅,⋅)x年轻��“young”��“w�系我��中文（简体）��系我��系方式“老”⋯宾语对象子空间密度Xo老虎积极��“tiger”��“cat”词嵌入中文（简体）��w�系我��中文（简体）��系我��系方式半阳性负中文（简图2.提出的HiDC的流水线，主要包括将视觉特征分解为属性和对象子空间，并从这些子空间生成层次组合。最好用彩色观看。表示为y=（ya，yo）。请注意，为了简洁起见，我们只将组合概念公式化为属性-对象对，但不像AttrA-sOperator [18]中那样显式地对每个子概念进行建模。作为一个典型的人工智能任务，给定一个看不见的图像I，目标是预测其对应的标签（ya，yo）。为此，将数据集分为两部分，即，看到部分Ds={（Ia，o，y）|Ia，o∈ Xs，y∈ Ys}用于训练，不可见部分Du={（I，y）|I ∈ X u，y ∈ Yu}用于测试，其中Y=Ys<$Yu=Ya×Yo={（y a，y o）|y a∈ Ya，y o∈Yo}.训练和测试标签是不重叠的：Ys∩ Yu=。在这种情况下，所有属性和对象，在训练过程中可以看到：YuYs，YuYs其中，ha（·）和ho（·）表示两个完全连接的层，每个层包含被训练为分别对属性和对象进行分类的交叉熵损失。构建概念子空间。将两个输出向量va和vo投影到两个嵌入子空间中，即，属性和对象子空间，如xa=p v（va）和xo=p v（vo）。同时，相应的属性和对象被嵌入为词向量wa=e a（y a）和wo=e o（yo）。我们还随机嵌入了一个属性word作为wa<$和一个对象word作为wo<$fferent，其中“<$“是一个负索引。则at-trib ute和objectword向量wa、wa<$、wo和wo<$为a a o o其中ya∈ Ya和yo∈ Yo。换句话说，所有的-tribute/object子概念可用于训练，但投影到属性子空间和对象子空间中作为正样本xa=pw（wa），xo=pw（wo），neg在ive样本处a O组合属性-对象概念不重叠，xa<$=pw（wo<$），xo<$=pw（wo<$）。和锚在一起a O训练和测试。对于GALML，我们期望学习一个预测通过在{Xs，Ys}上训练，Xu<$→Yu<$Ys。在以下小节中，我们将介绍我们提出的HiDC的组成部分，然后描述培训和测试程序。xa和xo，我们可以在这两个概念子空间中构造两个三元组，它们通过两个三元组损失正则化。三重丢失将阳性样本拉近锚点，并将阴性样本推离锚点。两个概念子空间上的三重态损失定义为：3.1. 概念分解一三重Lo（xa，xa，xa<$）=max. 0，d（xa，xa）−d（xa，xa<$）+m，（xo，xo，xo<$）=max. 0，d（xo，xo）−d（xo，xo<$）+m，分解视觉特征。给定一个标记为（ya，yo）的图像 Ia ， o ，我们首先将其输入到预先训练的ResNet-18 [7]中，以提取高级视觉特征为va，o=fa，o（Ia，o）。如图2所示，所提取的特征va、o被直接馈送到两个单独的MLP中，三重其中，d（·，·）表示欧几里德距离，并且m是三重间隔值，与下面相同两个概念子空间上的总损失由两个三元组损失相加：va=fa（va，o）和vo=fo（va，o），每个后面都有一个单独的分类器。分类器用于预测属性一三重O三重 .（二）分别是va和vo的标签ya和对象标签yo分类损失写为Lcls（va，vo）=ha（va，ya）+ho（vo，yo），（1）LL浓度=L+L102513.2. 层次概念合成利用这两个概念子空间，我们可以灵活地创建和调整属性-对象组合。我们通过连接属性和10252˜˜a+oa<$+o年轻+老虎年轻+马地点、~，而年轻+猫2016年10月24日，2016年10月24日，属性词宾语概念子空间“young”彪“tiger”组成空间x+彪视觉合成x��系我� ��“old�系方式��“小猫”x��词语组合�系我� ��电子邮件“young�系我� ��“小猫”电子邮件�系我� ��电子邮件“young�系我� ��联系我们“old混杂组合物其中我们引入α，β∈（0，1）作为边缘调整参数。动机来自一个简单的观察：如果给小老虎做锚，小猫应该更靠近比年轻的马锚，其中年轻的猫和年轻的马都自适应地被视为半阳性样本。由方程式（4），较小的三重边际将半正交样本xa<$a<$+o，xa <$a+o<$拉近iveonexa <$a<$+o<$处的n e g，同时将它们推离锚xa，o。因此，我们固定正样本xa+o的三重边际，并为每个半负样本xa<$+o、xa+o<$分配一个可分别由α和β控制的自适应边际。裕度调整参数由下面介绍的混合合成的基本知识确定。混合组合物。这种形式的每一个组成部分都是从一个视觉嵌入和一个单词中生成的。因此图3.玩具插图的三个层次形式的com-混合组合物仅限于阳性样品位置，其中采用属性元素和对象元素从每一个概念子空间中提取一个概念子空间来进行合成。x大众a+oxvwa+o<$=g（xa，xo），xwv=g（xa，xo<$），xwv=g（x∈a，xo）或半隐式=g（xa<$，xo），其中对象元素，并将它们发送到一个完全连接的层。如图3所示，组合物被分为三种层次形式，即，视觉，文字和混合组成。视觉构图。中的可视嵌入xa和xo“wv“字与视觉词的组合。让我们考虑一个实际的例子，锚概念是幼虎，半正概念是小猫和小马。如图4所示，相应的肯定词/混合词组合被去-直接将两个概念子空间合并，记为xyoung+tiger，xvw和半阳性一个视觉组成作为x=g（x，x）. 自然W/H混合物组合物作为X=Y+C，X=W和a+o a oyoung+cat视觉构图应该与原始图像相似。作为xyoung+horse，xvw.由于视觉元素年轻如图2所示，预训练的是从图像Iyoung分解而来的，tiger，hybridcompo.特征提取器被嵌入到组合空间中x大众年轻+老虎x大众年轻+猫x大众年轻+马应该作为所有生成的合成的通用锚xa，o=p a，o（va，o）。对视觉组成xa+o进行正则化以重构图像嵌入xa，o：Lre c（xa+o，xa，o）=d（xa+o，xa，o）。（三）单词组合。有四个词组成，即， xa+o=g（xa，xo ），xa<$$>+o=g （xa <$ ，xo ），xa+o<$=g （xa ，xo<$），xa<$+o<$=g（xa <$，xo<$）。在所有看不见的组成概念中，单词组成是主要的都包含一个虎式的年轻人，如图4所示。的视觉上的虎式young和否定词cat/horse之间的不一致实际上反映了否定词子概念cat/horse在多大程度上违反了偏向于虎的正面视觉子概念young。我们提出通过计算混合成分与其对应的词成分之间的距离来度量不一致性，并进一步将其用作边缘调整的自适应伪监督，即，如图所示关注看不见的概念学习。在图4中，d1=d（x≠vw，x=y（g+cat），且d2=最近的一项研究[27]建议将组合物x大众年轻+马，x=y（ng+horse）。我们可以期待一个更大的d2与常规的正、负组合物xa+o、x a <$+ o <$不同，xa <$+ o和xa+o<$是半负样本。问题在于“半n g at i v e”本身--严格地把x a <$+ o和x a + o <$当作n g at i v e是令人厌恶的东西-因为马型幼崽离老虎更远，比猫型的年轻。现在我们考虑的边缘调整参数问题。根据上面的例子，我们计算d0=对作曲概念的学习有很大的帮助。相比之下，我们x大众年轻+老虎，x=y（g+tigr）作为到d1的基准距离将它们视为具有可变三重边际的自适应半正样本，并将合成损失公式化为Lcomp（xa，o，xa+o，xa<$+o，xa+o<$，xa<$+o<$）=m ax. 0，d（xa，o，x<$a+o）−d（xa，o，x<$a<$+o<$）+m<$积极阴性�系我��xx�系我��10253+max0，d（xa，o，xa+o）−d（xa，o，xa）+βmand d2. 当选择x=y-ung+cat作为半隐式时，样本，裕度调整参数由β1=σ （ d0−d1 ）给出，其中σ（·）表示S形函数。对于x∈y-ung+horse，我们有β2=σ（d0−d2）. 当d1 β2. 如图4所示，+最大值0，d（x.a，o，xa<$+o）−d（xa，o，xa<$+o<$）+αmΣβ1将x_y_o_ng+c_a_t拉得更靠近锚x_y_o_ng，t_r，并将其从n_g_iv_e组合物（x_y_o_d+c_a_t，in这个例子）。一般来说，保证金调整参数、（四）10254i=1i=1a+oa<$+oa+oa+oa<$+oa+o<$.Σa+o一一一OOO�P于我��1�P于我��算法一：用于不可见概念识别的层次分解和组合（HiDC）模型的训练过程。数据：训练数据Ds，尺度参数λ结果：最优e，e，pw，pw，p得双曲余切值.一O啊，啊1初始化：fa，f o，h a，h o，e a，e o，pv，pv，pw，pw，pa，o，g;x年轻，老虎�x�young+tiger�P于我��22.不收敛时，一OaO3从Ds中抽取一个批次作为{Ia，o}n带有标签�系我��P于我��系我��{（ya，yo）}n;样本对应阴性n年轻+老虎年轻+老虎labels{（ya<$，yo<$）}i=1随机;4、对该批样品做0= (,)5例腐烂。图像特征：.Σ猫猫young+cat�P于我��va=fafa，o（Ia，o），vo=fofa，o（Ia，o）;6构建概念子空间：xa=pv（va），xo=pv（vo），1（，）a.你好Σa.你好Σ=xa=pwea（ya），xo=pweo（yo），xa<$=pwea（ya<$），xo<$=pweo（yo<$）;a O�系我��P于我��7Generatecom. 从概念子空间的位置：年轻+马X=pf（I），x=g（x，x），a，oa，oa，oa，oa+o a o2= (,)xa+o=g（xa，xo），xa<$+o=g（xa<$，xo），xa+o<$=g（xa，xo<$），xa<$+o<$=g（xa<$，xo<$），图4.上图：利润率调整策略示意图，其中vwa+ovwa+o<$=g（xa，xo），xwv=g（xa，xo<$），xwv=g（x∈a，xo），=g（x{\displaystylex}）;为简洁起见，将对应于不同负样本的三元组置于相同坐标中。下：从混合组合中利用伪监督的概念性说明，其中89端部通过下式计算α、β、Lcls、Lconc、Lrec、Lcomp等式（5）（6）（1）（2）（3）（4）;为了更清楚地显示，将幼仔与虎/猫/马人工分开。等式中的α和β（4）计算为101112端部Ltrain=Lcls+Lconc+Lrec+Lcomp;Update network parameters using ∇Ltrain;α=σ。λ。d（x<$wv，x<$β=σ.λ。d（xvw，xa+oa+o）−d（x<$wv，x<$）−d（x<$vw，x<$a<$+oa+o<$）中国，（5））中国，（6）正如I的预言：P（I）=argmind（x，x∈a+o），（7）y∈Y其中σ（·）表示S形函数，λ缩放其输入以调整S形函数的敏感区域。3.3. 训练和测试训练训练过程总结在Al-出租m 1中，其中图像特征分解由等式中的Lcls引导。（1）中，两个概念子空间由等式（1）中的Lconc（2），并且组成由等式（1）中的Lrec和Lcomp调节（3）（4），其中Lcomp中的α和β由等式（3）给出。（5）（6）。Test. 训练后的模型在看不见的集合D u上进行测试。给定一幅不可见的图像I进行测试，我们首先提取其视觉特征并将其映射到组合空间x=pa ，ofa ，o（I），然后生成单词组合x=g.pw.e（y）n，pw.e（y）从所有n个候选者中选出�系我��x~x~10255˜˜i=1其中，对于传统的BTL，Y=Yu，并且Y=Yu <$Ys关于GZSL4. 实验在本节中，我们提出了消融研究和参数分析，以验证所提出的HiDC的有效性，并将HiDC与几种最先进的方法进行比较，以验证其优于当前方法。4.1. 实验装置数据集。我们提出的HiDC和基线在两个流行的基准数据集上进行了评估，[11]第32话，我的朋友们MIT-States包含53，753张日常图像，具有广泛的属性（115类）和对象（245类）。每个图像都用属性-对象概念进行注释属性对象对{（ya，yo）}n.我们计算并存储如“幼虎”，共有1962对。我们x和每个x之间的距离为a+o，然后选择标签y=（ya，yo）ofx=a+o对应于最短距离使用组成分裂[17]，即，Ys中的1262对用于训练，Yu中的700对用于测试。10256数据集属性类对象类看到的对（图像）看不见的对（图片）[11]第十一话1152451262（34，562）七百（一万九千一百九十一）[32]第三十二话1612八十三（二万四千八百九十八）三十三（四千二百二十八）表1.带有属性/对象类和可见/不可见对（图像）数量的数据集描述模块麻省理工-州UT捷步达康#LclsL浓度L组分L记录α，β关闭开放H均值关闭开放H均值1C12.62.33.939.04.88.62CC13.32.54.242.15.39.53CCC15.012.313.550.647.248.84CCCC14.713.013.852.347.349.75CCCC15.214.314.752.451.552.06CCCCC15.414.615.053.451.552.4表2.对五个拟议模块进行烧蚀研究结果以两个数据集上的三个评估指标下的不可见对识别准确度（%）报告注意，α，β下的C表示启用了裕度调整策略。UT-Zappos包含50，025张鞋子的图像，其中每张图像都用属性-对象概念进行注释，例如有16个属性类和12个对象类。遵循[18，27]中的相同设置，我们在实验中使用29，126张图像的子集，即，83Ys中的属性-对象对用于训练，Yu中的33对用于测试。表1总结了两个数据集的详细信息。评估指标。我们遵循[18，27]中在三个度量下报告看不见的属性-对象概念识别的前1准确度1) 闭合，其中测试候选属性-对象对来自Yu。封闭度量评价了对未知概念的识别该度量将测试候选项限制为不可见的对，在大多数情况下，由于减少了测试候选项的数量而产生更高的准确性。2) 打开，其中测试候选属性-对象对嵌入e（·）是从头开始训练的完全连接的层三重态裕度m被设置为2。我们的模型在PyTorch（版本1.1.0）中使用ADAM [12]优化器实现。该守则将向公众提供。4.2. 消融研究和分析损失函数。我们消融我们的模型来评估所提出的模块的有效性：1) 基本模型，仅由MLP和后续分类器组成训练由Lcls指导，我们通过直接预测测试集图像的属性/对象标签与分类器进行测试2) 添加Lconc，其进一步并入属性/对象子空间约束。培训指导通过Lcls+Lconc，我们用与上面相同的方法测试它来自YuYs，对应于GALML设置。开放3) 添加Lcomp （不进行边际调整）。火车-该指标评估了两种视觉上的一般识别能力，看不见的概念。该度量通常产生相对较低的准确性，因为所有可见和不可见的属性-对象对都包括在测试候选中，因此对于现实世界的应用更实用。3) H-Mean，即调和平均值，它合并了封闭和开放指标。H均值定义为A封闭×A开放通过Lcls+ Lconc+ Lcomp来指导。L_comp中的容限调整参数α和β都固定为0。五、我们按照3.3节所述进行测试，如下所示。4) 添加Lrec. 培训由Lcls+Lconc+Lcomp+ Lrec，其中α和β仍然为0。五、5) 添加α和β（不含Lrec）。训练由Lcls+ Lconc+Lcomp指导，其中α和β现在是由方程给出的变量。（5）（6）。AH=2×关闭 +A打开、（8）6) 全模型。如表2所示，每个拟议的模块包括：其中，AH、AClosed 和AOpen分别是在H均值、Closed和Open度量H-Mean惩罚Closed和Open度量之间的巨大性能差异，这在GML中被广泛采用，用于评估整体的可推广性。实施详情。视觉特征提取器fa，o（·）被实现为ResNet-18[7]在Ima-geNet [24]上预训练，没有进行微调以与所有基线进行公平比较。投影p（·）被实现为全连接层，并且g（·）也是如此。另外，Word向整体表现致敬。与Closed度量相比，我们的基本模型在Open度量下的表现要差得多，因为它缺乏学习组合子概念之间的上下文关系的能力，因此无法从可见概念中传递知识看不见的人。相比之下，我们提出的Lcomp模型的上下文关系，通过正则化的组合生成的子概念，其中Lconc确保强大的概念子空间和Lrec的组合能力的好处。结合α和β提供的自适应学习能力，一10257麻省理工-州UT捷步达康方法关闭开放H均值属性对象关闭开放H均值属性对象HiDC（含Lquin）14.612.213.320.425.852.747.149.751.177.4HiDC（带L补偿器）15.414.615.022.626.953.451.552.455.877.6表3. 在Eq. （4）和[ 27 ]中的Lquin。结果以两个数据集上的三个评估指标下的不可见对识别准确度（%）报告。此外，属性/对象识别准确度（%）报告为补充。MIT-状态关闭18打开16141210864200.1 0.2 0.5125 10λUT-Zappos关闭54打开535251504948470.1 0.2 0.5125 10λ配对并使用贝叶斯概率张量因子分解（BPTF）为未见过的配对生成分类器权重。3) RedWine[17]为属性/对象子概念训练线性SVM，并使用神经网络对看不见的对转换SVM权重4) 与RedWine相比，LabelEmbed[6]使用预先训练的GloVe [21]词嵌入而不是分类器权重来组成词向量表示。图5.尺度参数λ的分析。结果以不可见对识别准确度（%）随λ变化的形式报告。我们的完整模型在封闭和开放指标下都取得了良好的性能。可以说，向每个损失添加权衡参数可以有益于准确性，但是我们不涉及所提出的HiDC的通用性和实用性的任何权衡。保证金调整的效果为了进一步验证我们的自适应学习能力，我们将所提出的Lcomp与现有技术中的五元组损失Lquin进行比较[27]，其中我们用Lquin代替Lcomp来实现我们提出的HiDC。如表3所示，我们提出的L_comp全面优于L_quin，因为L_comp提高了整体识别性能，特别是在挑战下。开放度量。此外，得益于自适应学习能力，Lcomp能够比L quin更准确地捕获细粒度属性概念。尺度参数λ的影响。尺度参数λ用于控制sigmoid函数的输入规模。计算公式中的α和β的方法（5）（6），当使用不同的数据集时可以提供帮助。粗略地说，sigmoid函数的敏感区域是[−5，5]，在我们的实验中，它的输入量大约是-1。我们在{0. 1，0。2，0。5，1，2，5，10}，并在图5中报告识别精度。最佳性能可以是当λ被设置为2左右时观察到。合适的λ能够减少封闭和开放度量之间的性能差异，有助于从可见概念到不可见概念的泛化4.3. 与最新技术水平的比较基线方法。我们将我们提出的HiDC与七个基线进行比较：1) VisProd[16]训练两个独立的线性SVM来预测属性和对象。2) AnalogousAttr[4]为每个所见训练线性SVM5) LabelEmbed+[18]通过incor提高LabelEmbed移植图像特征和训练输入表示。6) AttrAsOperator[18]将属性视为运算符，并进行属性条件转换以学习不可见的属性-对象对。7) AdvFineGrained[27]定义了半阴性样本，并使用五元组损失对其进行调节为了公平的比较，我们报告的结果没有使用多尺度特征，以保持与其他方法的一致性。定量结果。如表4所示，我们提出的HiDC在所有评估指标下始终优于所有七个基线。除了AttrAsOperator和AdvFineGrained之外，所有其他基线在Open度量下的表现都比Closed差得多，这实际上表明对概念子集的过度拟合。相反，HiDC在Closed和Open指标之间表现出最小的性能差异，验证了其从可见概念到不可见概念的卓越通用性。正如我们在第2节中所讨论的，AttrAsOperator不平等地对每个组合子概念进行建模，因此无法在UT-Zappos上很好地泛化，并且表现得比同等对待子概念的AdvFineGrained和HiDC受益于我们的自适应学习策略，HiDC能够捕捉更准确的细粒度成分关系，并在所有指标下优于最先进的AdvFineGrained。与UT-Zappos相比，MIT-States的整体性能更差是由于大量的不可见对，每对的训练图像数量更少，而且图像更复杂。定性结果。我们的训练模型可以直接用于检索相关图像，其中文本查询作为看不见的属性对象对（ya，yo）。我们将查询（ya，yo）和所有图像候选I嵌入到组合空间中作为x<$a+o和x，并存储x<$a+o和每个x之间的距离。选择相应的最近图像作为结果。图6给出了相似概念的检索结果，只是属性不同。我们的方法优于同行识别准确率（%）识别准确率（%）10258麻省理工-州UT捷步达康方法关闭开放H均值关闭开放H均值VisProd [16]11.12.43.946.84.17.5AnalogousAttr [4]1.40.20.418.33.55.9红葡萄酒[17]12.53.15.040.32.14.0标签嵌入[6]13.43.35.325.85.28.7标签嵌入+[18]14.85.78.237.49.415.0[18]第十八话12.011.411.733.223.427.5[27]第二十七话13.912.313.152.148.450.2HiDC（我们的）15.414.615.053.451.552.4表4.我们提出的HiDC和七个基线之间的比较结果以两个数据集上的三个评估指标下的不可见对识别准确度（%）报告Young Tiger绵羊皮短靴AttrAdv我们AttrAdv我们旧老虎皮踝靴图6.在麻省理工学院检索年轻的老虎，老老虎的定性结果，以及在UT-Zappos检索绵羊皮脚踝靴，皮革脚踝靴报告了AttrAsOperator [18]、AdvFineGrained [27]和我们提出的HiDC的前6个结果。正确和不正确的结果分别用绿色和红色边框标记。方法[18，27]，并且更好地区分类似概念。尽管如此，由于模糊的视觉特征和很少的训练图像，像old5. 结论在本文中，我们提出了一个层次分解和组合（HiDC）模型看不见的组成概念识别。我们建议将每一个看到的图像分解为视觉元素，并在独立的子空间中学习相应的子概念。我们从这些子空间中以三种层次的形式生成组合，并在统一的组合空间中学习组合概念。我们定义半正概念来描述子概念之间的细粒度上下文关系，并从生成的组合中利用自适应伪监督来学习准确的组合概念广泛的消融研究和实验验证了有效性，我们提出的HiDC的有效性，并证明其优越性超过国家的最先进的方法。尽管如此，HiDC仅限于具有两个可见子概念的组合。扩展到包含更多子概念（甚至在训练过程中看不见的子概念）的作品将是我们未来的工作。确认本研究得到了陕西省重点研发项目-陕西省重点产业创新链资助项目（2018 ZDXM-GY-176和2019 ZDLGY03-02-01），国家重点研发计划（2017 YFE 0104100，2016 YFE 0200400 ， 2018 AAA 0100704 ， 2016 YFB1001003 ），国家自然科学基金（ 61972250 ， U19B2035 ， U1609220 ， 61672231 ）， STCSM（18DZ1112300），和 (ARCFL-170100117，DP-180103424）。10259引用[1] Peter W Battaglia，Jessica B Hamrick，Victor Bapst，Al-varo Sanchez-Gonzalez ， Vinicius Zambaldi ， MateuszMa- linowski，Andrea Tacchetti，David Raposo，AdamSantoro，Ryan Faulkner，et al.关系归纳偏差、深度学习和图网络。arXiv预印本arXiv：1806.01261，2018。[2] Soravit Changpinyo，Wei-Lun Chao，and Fei Sha.为零射击学习预测看不见的类的视觉样本。在ICCV，第3476-3485页[3] Binghui Chen and Wehong Deng.基于混合注意力的解耦度量学习零镜头图像检索。在CVPR中，第2750-2759页[4] Chao-Yeh Chen和Kristen Grauman。推断相似的属性。在CVPR，第200-207页[5] Weihua Chen ， Xiaotang Chen ， Jianguo Zhang ， andKaiqi Huang.除了三重态损失：一个深度的四元组网络用于人的重新识别。在CVPR，第403-412页[6] Mohamed Elhoseiny、Babak Saleh和Ahmed Elgammal。写一个分类器：使用纯文本描述的零镜头学习。在ICCV，第2584-2591页[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[8] 亚历山大·赫尔曼斯、卢卡斯·拜尔和巴斯蒂安·莱布。为了防止三重丢失，进行人员重新鉴定。arXiv预印本arXiv：1703.07737，2017。[9] Elad Hoffer和Nir Ailon使用三重网络的深度度量学习在SIMBAD，第84-92页[10] 黄和，王长虎，菲利普·S·余和王长东。广义零射击学习的生成对偶对抗网络。在CVPR，第801-810页[11] Phillip Isola，Joseph J Lim，and Edward H Adelson.图像集合中的逆覆盖状态和变换。在CVPR，第1383-1391页[12] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[13] Elyor Kodirov，Tao Xiang，and Shaogang Gong.用于零触发学习的语义自动编码器在CVPR中，第3174- 3183页[14] Christoph H Lampert ， Hannes Nickisch ， and StefanHarmeling.学习通过类间属性转移来检测不可见的对象类。在CVPR，第951-958页[15] Christoph H Lampert ， Hannes Nickisch ， and StefanHarmeling.基于属性的零镜头视觉对象分类。IEEE传输模式分析马赫内特尔，36（3）：453[16] 卢策武，兰杰·克里希纳，迈克尔·伯恩斯坦，李菲菲.具有语言先验的视觉关系检测。ECCV，第852-869页，2016年[17] Ishan Misra，Abhinav Gupta，and Martial Hebert.从红酒到红番茄：有背景的作文。在CVPR中，第1792-1801页[18] Tushar Nagarajan和Kristen Grauman。作为运算符的属性：分解看不见的属性-对象组合。在ECCV，第169-185页[19] Jian Ni，Shanghang Zhang，and Haiyong Xie.广义零激发学习的对偶NeurIPS，2019。[20] Mark Palatucci，Dean Pomerleau，Geoffrey E Hinton，and Tom M Mitchell.使用语义输出代码的零触发学习。在NeurIPS，第1410-1418页[21] 杰弗里·潘宁顿，理查德·索彻，

下载后可阅读完整内容，剩余1页未读，立即下载