没有合适的资源?快使用搜索试试~ 我知道了~
1现场指导启发式零触发学习Utkarsh购物中心、Bharath Hariharan、Kavita Bala康奈尔大学{utkarshm,bharathh,kb} @ cs.cornell.edu摘要现代识别系统需要大量的监督,以实现准确性。适应新的领域需要来自专家的大量数据,这是繁重的,并且可能变得过于昂贵。零触发学习需要一个新类别的注释属性集。注释新类别的全部属性集被证明是部署中的一项繁琐且昂贵的任务当识别领域是专家领域时尤其如此。我们引入了一个新的现场指南启发的方法零杆注释的学习者模型交互式地要求最有用的属性,定义一个类。我们评估了我们的方法与属性注释,如CUB,SUN和AWA2分类基准,并表明我们的模型实现了一个模型的性能与完整的注释,在成本显着较少的注释数量由于专家的时间是宝贵的,降低注释成本对于现实世界的部署是非常有价值的。1. 介绍现代识别系统需要大量的标记数据。这在许多领域是不可行的,特别是当所讨论的类涉及需要专家的微妙区别时:专家的时间和可用性有限,并且不能注释成千上万的图像。这激发了对零射击学习(ZSL)的研究,其目标是仅从类描述中构建有效的识别模型“zero-shot”这个名字然而,这是不正确的:在当前的ZSL系统中,注释器必须为每个类指定数千个类的数百个属性(图1(左))。例如,在我们的一个初步实验中,鸟类学家花了超过15分钟的时间来完整地描述CUB中的312个不同属性;注释所有200个类将花费专家超过50个小时!为了让ZSL真正减轻注释者过去解决这一问题的工作着眼于使用来自互联网的免费文本,例如,维基百科[7背面颜色背面图案腹部颜色腹部图案bill颜色bill长度bill形状breast颜色胸纹冠色目色额色头型腿色颈色原色形状尺寸尾纹尾形喉色尾下色下部色上部尾色上部色翅色翅纹图1.左图:对于CUB数据集中的每个新类,注释器必须标记28个属性(和312个不同的量)。属性是多维的和连续值的,右:鸟类类的字段指南没有完整的属性描述;相反,这种鸟被描述为一些关键属性,使其与近亲区别开来。16,2,23,43],或依赖于类名的词嵌入[3,8,24,1]。虽然这种类名是简洁的,并且通常可能基于位置而不是外观(例如,《北方皇家信天翁》(NorthernRoyal Albatross)。维基百科文章可能同样包括不相关的信息(例如,关于词源)和错过重要的视觉细节。因此,我们发现这些方法导致准确度大幅降低近20个点(参见图4(中间行))。这表明,专家提供的视觉特性或属性确实是至关重要的性能。我们怎样才能尽可能完整地记录关于阶级差别的专业知识可以简单地减少专家必须指定的属性的词汇表但这样做可能会排除重要的阶级区别,导致准确性急剧下降。一个更好的方法是由专家编写的培训人类新手的现场指南提供。在这些指南中,对于每个类,专家首先确定一个非常相似的先前定义的类,然后只指定区分这两个类的最重要的属性(图1(右))。这允许简洁的描述,既容易为专家编写,也足够完整的新手。如果有人用这些描述来描述ZSL会怎么样?虽然直观,但在我们的实验中,我们发现这种基于字段指南的方法甚至比简单地选择一个随机的较小的、固定的属性词汇表95469547··以.这是因为它假设专家认为重要的属性实际上是机器发现与进行阶级区分相关的属性。但机器不是人;人类认为最突出的属性实际上对机器来说可能更广泛地说,人们发现的明显的阶级区别对机器来说可能因此,我们需要一种新的方法,通过只关注重要的属性来减少注释者的工作,但关键是依赖于机器来定义属性的重要性。考虑到这些因素,我们提出了一个新的学习界面ZSL学习者向专家学习对于每个新类,专家首先识别学习者已经知道的近亲然后,学习器选择它认为对它学习最有信息量的属性,并主动向专家询问这些属性。这个学习空间将查询策略的问题带到了前面:学习者必须如何选择属性来查询,以最大化性能(达到良好的准 确性 ) , 但最 小 化 专家 的 努力 ( 选 择信 息 属性)?在主动学习中,学习者必须选择未标记的数据点来标记,这也是类似的问题。然而,在主动学习技术具有对未标记示例的先验访问以进行一系列测量(例如,预测不确定性),在我们的情况下,学习者必须选择属性来查询完全看不见的类。我们解决这个挑战,提出了多种新的查询策略,从这个新的主动ZSL接口学习。我们设计策略的基础上,一个新的措施的属性不确定性的基础上,类分类和模型预测的预期变化的概念。我们还设计了策略,当我们有机会获得一个新的类的图像,从而推广到制度相结合的零和几杆学习。我们提出的查询策略可以与现有的零杆学习器开箱即用。我们实验了三个数据集,即CUB,SUN和AWA2,并显示显着降低注释成本,同时保持性能与完整的一个符号模型。只有35%的注释,我们在SUN和CUB上获得了接近完整模型的性能我们的方法也显着优于以前的无监督ZSL工作CUB和SUN没有一个单一的属性注释。我们的贡献是:一种新的受现场指南启发的主动ZSL方法,用于收集专家注释,比使用类名/文本描述更准确,比标注完整的属性描述更省时新的查询策略(例如,基于不确定性和预期的模型变化)来主动查询专家属性以快速训练学习器。我们的研究结果表明,考虑从注释器获取什么信息,以及专家使用什么接口,是一个很有前途的方向,建立准确的识别模型,易于训练。2. 相关工作零射击学习在零次学习[13,14]中,模型通过利用属性描述等辅助信息来学习在没有任何训练图像的情况下对未见过的类进行Lampert等人的初步工作。[13]提出了首先从图像预测属性,然后基于预测的属性对图像进行分类。最近的工作着眼于将图像特征投影到属性空间中,并使用类描述测量相似性[8,1,25,12,31]。最近的工作已经使用属性描述通过将这些描述以及图像嵌入到共享特征空间中来产生改进[39,6,33,20]。诸如重建损失的辅助损失可以用于正则化问题[31,39]。我们提出的框架建立在这些想法的基础上,但利用了来自专家的关于每个类的更稀疏但更丰富的信息。由于从专家那里收集属性的成本很高,研究人员已经研究了其他类别信息的来源这些方法被通俗地称为它们包括使用类名的单词嵌入[8,24,1],类和属性嵌入[3],或类的文本描述(通常来自维基百科)[7,16,2,23,43]而不是属性描述。请注意,虽然这些方法被称为无监督方法,但它们仍然需要诸如用于单词嵌入或文本文章(由领域专家编写)的大型训练语料库等信息。此外,这些信息源通常不被设计用于可视地识别类别虽然我们有着相同的目标,降低注释成本,我们提出了一个改变原生主动学习框架的属性注释。我们的论文还考虑了超越零镜头的可能性,并假设注释者可以为我们提供一个图像的小说类。这种将图像与零镜头属性信息相结合的概念首先由Tsai等人引入。[32 ]第32段。Schonfeld等人[27]介绍VAE模型,用于在潜在空间中对齐图像特征和属性,以执行组合的少镜头和零镜头学习。由于现场指南具有图像和独特的属性,因此结合这两者的模型值得探索。主动学习。主动学习已经在机器学习和计算机视觉领域中被广泛探索。这些方法的目的是通过选择有用的未标记的数据首先进行标记,以使司法使用的一个符号预算。已经提出了几种方法,基于目标选择要标记的数据,例如最近,许多新技术利用对抗学习来获取大多数信息数据的标签[41,30,42,37]。我们的工作受到其中一些技术的启发,但适用于一个完全不同的新问题:选择要标记的属性由于我们9548∈B∈ N联系我们.∈N∈ BB{∈N}专家注释员初始属性描述符(一'树燕'有彩虹色的蓝色翅膀学习者未知的属性(c)第(1)款更新属性学习者专家注释器(b)第(1)款与专家注释者的一些类似于现场指南的交互。特别地,对于每个新类y,注释者 首先给学习者最相似的类S(y)从基本类的集合中。接下来,学习器逐渐向注释器询问属性的值,一次一个属性。学习者的目标是学习从尽可能少的属性查询中识别新的类 我 们 称 这 种 新 的 学 习 界 面 和 相 关 的 技 术 ZSL-Interactive(图2)。“树燕”的翅膀是什么颜色的?图2.我们的现场指南启发工作流程概述。(a)注释专家通过首先提供一个类似的基类来向学习者介绍一个新的类。(b)然后,学习者使用Acquistion函数交互式地询问不同属性的值(c)专家注释器提供属性的值,学习器更新其状态和类描述。方法不能访问未标记的数据,传统的尽管如此,我们从以前的工作中获得灵感,以定义一系列更适合零拍摄设置的新技术向专家学习。还有其他的管道是出于向专家学习的问题。Misra要在这种交互式设置中设计学习者,必须回答两个问题:(a)我们应该如何学习不完整的属性描述?、以及(b)我们应该如何选择要查询的属性?我们将在下一节中解决第一个问题,然后讨论我们的策略,以解决选择要注释的属性这一更具挑战性的问题。3.2.从稀疏属性标注中对于每个新的类y,学习器被告知最相似的类S(y),并且它查询属性索引I(y)0d的子集的值。对于缺失新类信息的属性,我们使用来自S(y)的值估算属性描述符。等人[18]提出了一种通过交互学习的视觉问答系统。不幸的是,目前尚不清楚这是否系统可以推广到一般的识别设置。耳-A′(y)[i]=A(y)[i]i∈I(y)A(S(y))[i]i∈/I(y)(一)Lier工作利用专家自动校正部件位置[4]或定义用于细粒度分类的补丁[22]。然而,这些模型明确地依赖于识别模型的基于部件的设计也有关于识别技术的工作,在推理过程中查询人类以进行相似性比较[36]和属性描述[34,5]。相比之下,当我们学习一个新的类时,我们会向人类3. 方法3.1. 问题设置我们的目标是产生一个学习者,可以学习新的类,从很少的互动与专家注释。与传统的零次学习一样,我们假设学习者首先在一些“基础”或“看到”类上进行训练。 对于每个基类y,学习者知道属性向量A(y)Rd,其中d是属性的数量(我们在这项工作中假设实值属性,与ZSL的先前工作一致)。学习器还被提供有用于由图像xi,i = 1,. . . ,n和对应的标签yi。一旦被训练和部署,学习者就会得到一组hith-erto看不见的类来识别。正是在这里,我们的问题设置不同于传统的零次学习。传统的零触发学习系统需要所有新颖类的完整属性描述: A(y)y. 在相反,在我们提出的设置中,学习者必须使用非常9549输入向量A′(y)被用作零激发模型中新类y的属性注意该方法是模型不可知的,并且可以与任何开箱即用的零激发模型一起使用。3.3. 属性查询策略我们现在描述我们如何迭代地挑选属性以收集稀疏属性注释。假设学习者正在学习新的类y,其中S(y)作为其最相似的基类。假设它已经查询了属性的子集I(y),从而得到估算的属性向量A’(y)。有了这个信息,它现在必须选择一个新的属性来查询。学习者将使用查询策略或获取函数π来做出这种选 择 ; 所 选 择 的 属 性 是 π ( S ( y ) , I ( y ) , A′(y))。查询策略的概念让人想起主动学习,其中学习者必须选择它想要标记的未标记数据点。然而,在主动学习中,学习者可以访问未标记的数据,因此它可以使用自己对未标记数据点的信念来进行调用。例如,它可以选择标记最不确定的数据点,或者注释最有可能显著改变其状态的数据点。相比之下,在我们的例子中,学习者面对的是一个完全看不见的类。当学习者从未见过这门课时,他如何识别信息属性?下面,我们提出两个解决方案来应对这一挑战。第一个解决方案使用基类上的分类法来查找9550转关于我们ΣΣ埃埃巴尔的摩金莺莺n.冠黄鹂斯科特·奥利尔属性有时属于组。 例如,在CUB中,许多不同的属性都对应于身体颜色:每个属性捕获不同的颜色,并且身体颜色属性一起定义不同颜色上的多项式分布。对于这样的属性组,我们只看最大变化属性来找到同胞方差。如果是这样的话,那么,如果是这样的话,那么,如果是这样的话,那么,低方差属性:翅膀形状、身体颜色、喙形状高方差属性:项色图3.而“翅形”、“喙形”等属性信息属性第二种方法使用估算的属性向量,并查看表示空间相对于属性变化的变化。3.3.1基于分类的查询类分类法在许多领域中是常见的(例如,鸟类)并且可以由领域专家容易地定义。这种分类法中的兄弟姐妹可能彼此相似,共享几个共同的属性,并且可能仅在几个属性上彼此不同例如,在鸟类领域,“黄鹂”超范畴的所有类别都有黑色的翅膀,黄色的身体和圆锥形的因此,查询黄鹂类的翅膀颜色、身体颜色或喙形相反,我们可能想查询颈背的颜色,这在金莺中有所不同:“戴帽金莺”的颈背比“巴尔的摩金莺”的颈背更黄。因此,一般来说,我们希望查询相关子树中的类之间差异很大的属性我们可以利用这种直觉,通过利用类分类法来智能地选择要查询的属性设Rz是基类z的兄弟类的集合,包括类z本身。当注释器为新类y提供类似的基类S(y)时,我们查看兄弟类RS(y)中每个属性的方差。具有较低方差的属性对于所有同级类都是通用的,因此提供的信息较少对于类似的新颖类Y。相比之下,具有较高方差的属性在该子树中变化很大,因此查询它们的值是谨慎的。因此,兄弟类别RS(y)中的每个属性的方差是哪些属性对于这组类更有信息性的度量我们将兄弟姐妹之间的方差度量定义为新类别y的同胞方差(由Qsv(y)表示):该组的方差被定义为,Qsv(y)[g]=maxVar(A(si)[j];si RS(y))(4)j∈g我们选择具有最大值的整个属性组Sibling-variance用于注释。注意,该方法类似于基于不确定性度量的主动学习方法。学习者首先挑选在学习者不确定的情况下用于注释的属性。但是我们测量这种不确定性的方式与这些方法不同,因为我们没有关于新类的信息。3.3.2基于表示变化许多零激发学习器将属性和图像编码在一个共同的潜在空间中,并在该空间中训练分类器。 这些方法中的属性编码器可以学习 以执行各种有用的功能,例如,如果属性更可识别或更有区别,则对属性进行更多的加权因为分类器在该潜在空间中操作,所以显著改变该潜在表示的注释更可能影响分类决策。这表明,我们应该查询属性时,改变导致潜在空间的最大变化我们将这种查看表示中的变化的方法称为具体地,令Ea:RdRl是将属性映射到维度l的潜在表示空间中的属性编码器函数。假设A′(y)是当前估算的属性表示(注意,A′(y)以A(S(y)开始,并且随着学习者查询注释器而逐渐填充真实的属性值A( y ) 该 属 性 向 量 在 潜 在 空 间 中 表 示 为 Ea ( A’(y))。现在我们想知道哪些属性在被扰动时会导致这是这一代表性的最大变化。由于编码器架构是非线性的,因此我们利用由编码器的雅可比矩阵表示的局部偏导数来测量这些变化。Qsv(y)[j]=Var({A(si)[j];si∈RS(y)})(2)其中j索引属性,Var表示a的方差JEa(x)=Ea(x)x····Ea(x)x(五)值的集合,并且s的范围在S(y)1d我信息量最大的属性是具有max-我们将属性i的Representation-change定义为:最大同胞方差因此,我们选择属性以同胞方差的降序标记:Q(y|A′(y))[i]=¨Ea(x).(六)rcxi.x=A′(y)¨2πsv(S(y),I(y),A′(y))= argmaxQsv(y)[j](3)j∈/I(y)偏导数的l2范数测量了对该特定属性的一个小扰动改变了9551|我在潜在空间中进行编码。然后,学习器查询具有最大Representation-change的属性。πrc(S(y),I(y),A′(y))= arg maxQrc(y A′(y))[j](7)j∈/I(y)对于分组属性,类似于同胞方差,我们将表示变化测量为该组属性内的最大表示变化表示变化类似于基于“预期模型变化”的这些方法基于对模型的最大更改来选择实体期待中。类似地,表征改变挑选在潜在空间中改变编码最多的属性。3.3.3使用图像数据进行在实践中,专家可以容易地提供小说类的单个图像。直到最近,ZSL技术才开始利用这些信息[32,27]。在这里,我们展示了如何使用这张图像来更好地选择要标记的属性,使用以下基于图像的策略。这里的关键直觉是,图像为类提供了一个因此,学习器可以识别图像中的属性,并且尝试基于专家注释来调和所识别的属性与所估算的属性描述之间的差异。具体地说,假设小说中的形象CUB:不可见的准确性605040302005101520二 十 五 个#每个类的属性注释SUN:不可见的准确性6050403020100204060801 0 0人#每个类的属性注释AWA2:不可见的准确性65605550454035300 20 40 60 80#每个类的属性注释CUB:谐波广义精度555045403530252005101520二 十 五 个#每个类的属性注释SUN:谐波广义精度403530252015100204060801 0 0 人#每个类的属性注释AWA2:谐波广义精度65605550454035300 20 40 60 80#每个类的属性注释类y是xy。还假设我们有一个训练的图像编码器Ei,它将图像映射到潜在空间,以及一个属性解码器Da,它将这个潜在表示解码成属性向量;许多最近的方法训练这些[27]。使用这些模块,学习器可以从图像中获得属性向量:A~(y)=Da(Ei(x))。通常,A~(y)将不匹配估算的属性A′(y).假设将A′(y)中的第i个估算属性替换为A~(y)中的图像衍生的对应物将产生新的属性描述Ai(y):图4.我们的方法在前1名的每类分类准确率方面的性能与在使用CADA-VAE作为基础模型的部署期间,注释器提供的注释数量。ZSL-Interactive在所有基准测试中的表现都优于传统的ZSL,在CUB和SUN上的表现也优于无监督基线,证明了其有效性。零触发基准数据集:CUB-200-2011 [35](CUB)、Animals with Attributes 2 [38] ( AWA 2 ) 和 SUNattribute数据集[21](SUN)。CUB使用312个基于部件的属性进行注释;AWA 2和SUN分别具有85个和102个这些属性是为每个类标记的我们A(y)=.A′(y)[j] ji(八)对所有基准测试使用[38]中的标准训练测试分割Da(Ei(xy))[j]j=i然后,基于图像的策略挑选属性j,该属性j最大限度地推动最接近于n个类别图像编码的假设的at- 边界向量Aj(y)的嵌入:QI(y|A′(y),xy)[i]=||Ea(Ai(y))−Ei((xy))||-21(9)π(I(y),A′(y),x)=arg maxQ(y|A′(y),x)[j](10)最相似基类的专家注释:我们的问题-LEM设置要求注释器为每个新类提供最相似的由于CUB是一个需要鸟类专业知识的专门领域,我们与一位专业的鸟类观察者合作,为每一个新的类注释这些信息。AWA2和SUN不需要专家知识,因此我们使用3个注释器收集我们采取了多数票,并在案件时,所有我4. 结果yIyj∈/I(y)3不同意我们要求他们达成共识。我们将在接受后公开发布这些专家注释。Taxonomy:对于SUN,分类法已经可用4.1. 数据集和实施详细信息对于所有实验,我们使用来自ResNet-101 [11]的2048传统ZSL ZSL-交互式w/ce同胞-瓦里安CADA-VAEGAZSL+ADA-VAECAAP公司简介W2v前1精度前1精度前1精度前1精度前1精度前1精度9552维特征。我们比较我们的方法在三个以及数据集。我们通过查看生物学命名法中的家族手动创建了AWA2的分类对于CUB,我们使用通用类名作为分类法中的父类(Hooded Oriole →Oriole)。9553········CUB:不可见的准确性605040302005101520二 十五 个#每个类的属性注释CUB:谐波广义精度555045403530252005101520二 十 五 个#每个类的属性注释具有较新的主链(CADA-VAE和TF-VAEGAN)。虽然最后三个通常被认为是无监督的,但它们确实需要一个具有属性和类的大型文本语料库来学习单词嵌入,或者精心策划的文本文章通常由专家编辑,因此间接需要大量的专家时间,我们的目标是最小化。请注意,无监督ZSL方法的报告数字通常使用不同的类划分,以确保每个新类具有密切相关的基类。相反地,图5.我们的方法与TF-VAEGAN作为基础模型的性能。ZSL-Interactive的性能优于传统的ZSL和无监督基线,证明了ZSL-Interactive对其他零炮模型的通用性。基本零触发学习器:为了显示我们的方法在不同模型上的泛化,我们用两个基本零触发学习器进行了实验:CADA-VAE[27]和TF-VAEGAN [19]。CADA-VAE在基类上训练两个变分自动编码器,以学习用于属性描述和图像的公共嵌入空间然后,它在这个潜在空间中训练新的类分类器架构和训练的所有超参数都按照[27]的规定保存。TF-VAEGAN使用VAE-GAN [15]从属性生成真实特征,并使用这些从看不见的类生成的特征我们显示了该模型6次不同运行的平均结果。度量:我们测量在未见过的类上的每类分类准确度以及广义零触发学习的可见和未可见分类准确度我们将这些指标绘制为每种方法的注释预算的函数。4.2. 交互式ZSL是否准确且高效?我们首先问我们提出的交互式设置相比,以前的工作ZSL的准确性和负担的注释。我们将建议的设置与以下基线进行比较:具有完整属性注释的传统ZSL。这里减少注释工作只能通过使用较小的属性词汇表来实现。给定注释预算,均匀地随机选择属性的相应较小子集,并且用所选择的属性重新训练新的ZSL模型。在部署中,所有的类都必须用这个简化的词汇表来描述。W2V:这种无监督的ZSL方法使用类的word2vec嵌入向量,而不是属性向量[1]。CAAP:这种方法使用类和属性的词嵌入来找到未看到的类的属性向量[3]。ZSLNS [23]和GAZSL [43]:使用维基百科文章而不是属性。由于原始论文使用ZSL的旧主干,我们显示了原始模型和使用ZSLNS(或GAZSL)提取的描述符的数量我们在基于属性的ZSL基准中使用所提出的分割[38]。我们使用了作者提供的原始代码,并在可用的地方更改了拆分。我们将我们表现最好的采集函数(同胞方差)与上述基线进行比较。我们在图4(CADA-VAE)和图5(TF-VAEGAN)中绘制了作为注释量的函数的准确度我们发现:专家注释的最接近基类是非常信息化的。仅用这一个注释,就可以恢复接近三分之二的完整零触发学习系统的性能请注意,使用随机抽样的类作为“最相似的我们的方法可以大大减少注释者的负担。在CUB和SUN上,我们的方法只有三分之一的注释(每个类只有10个交互),与传统的ZSL一样好。我们的方法推广到其他ZSL模型。我们的方法甚至在TF-VAEGAN用作基础模型时也比基线表现得更好(图5)。这表明,随着新的ZSL方法的发展,我们的方法应该通用化,并可以与它们一起使用有关其他数据集的TF-VAEGAN结果,请参见部分属性比无监督的ZSL提供更多信息。虽然一些方法在AWA2上的信息较少的情况下比我们的方法执行得更好,但我们的方法在CUB和SUN上击败了所有基线。在像维基百科这样的语料库中,对于像SUN和CUB中的细粒度类别,找到有区别的信息这就是为什么在细粒度域中执行ZSL时,基于属性的系统是必不可少的仅提供最相似的类注释(即, 字段指南方法)比使用文本或单词嵌入作为属性明显更有用。4.3. 不同的采集功能如何执行?我们的方法比基线表现更好,主要有两个原因,现场指导界面和智能采集功能。我们评估不同的获取功能如何执行属性注释成本。在我们提出的各种查询策略 中, 一般 来 说, 性能 最 好的 查询 策 略是Sibling-variance。ZSLNSZSLNS+ance兄弟瓦里给我L-InteractZSA-VAEZSLZSLZSL+CAD附加的GAGATraCADA-VAEVAPW2CA前1精度前1精度955460.057.555.052.550.047.545.042.540.0CUB:不可见的准确性05101520二 十 五 个#每个类的属性注释CUB:谐波广义精度54525048464442ZSL-交互式w/随机属性40ZSL-交互式w/同胞方差ZSL-交互式w/Representation-change05101520二 十 五 个#每个类的属性注释4.5.收购功能比专家更好吗?有人可能会问,我们的交互式方法与从专家那里收集信息相比如何如第1节所讨论的,字段指南提供了专家发现的独特属性差异,而没有任何交互。我们评估这与学习者主动查询相比如何为此,对于CUB数据集的50个新类中的20个,我们还要求专家确定10个最重要的信息。图6.在CUB上用CADA-VAE实现两种采集功能这两个功能的性 能 都 优 于 随 机 采 集 功 能 。 Sibling-variance 的 性 能 优 于Representation-change,但后者不需要分类信息。有关其他数据集的结果,请参见补充资料。肯定属性,按重要性顺序将每个新类与其最相似的基类区分开来。我们使用此信息以及类似的类来构建专家属性基线。Representation-change往往比Sibling-variance具有更弱的性能,但它不需要分类法来起作用,因此仍然有用。图6比较了2个采集函数与随机采集函数,作为CUB与CADA-VAE的基线(其他模型和数据集见补充资料)。我们提出的查询策略远远优于随机属性选择以及传统的ZSL管道,无论是什么标签CUB:不可见的准确性80706050403005101520二 十五 个#每个类的属性注释CUB:谐波广义精度656055504540353005101520二 十 五 个#每个类的属性注释预算是。这对于仅不可见评价以及一般评价都是如此4.4. 我们能用图像做得更好吗?图7显示了当注释器给出一个图像以及CUB的交互属性注释时,我们的方法的性能。几乎我们从上一节得出的所有结论都可以继续下去,除了Representation-change开始时比随机选择属性查询的基线弱此外,请注意,在不使用任何其他分类信息的情况下,Image-based的性能与Sibling-variance相当这表明,使用图像派生属性和估算属性之间的不一致性其他基准的结果见补充资料。图8.针对专家选择的CUB属性(20个新类)的交互式方法的性能。选择属性的学习者比提供属性的专家表现得更好我们发现,交互式方法在询问有用的属性方面比领域专家给出的要好得多(图8)。这是一个令人惊讶的结果,因为它表明零杆学习者与人类专家不同地学习该领域。在由专家选择的集合中,专家给予诸如“鸟的大小”和“眼睛颜色”的属性重要性虽然该信息对于鸟类观察者在鸟类之间进行分类和区分是有用的,但是该模型发现难以理解鸟类的大小,因为它是相对属性。像“眼睛颜色”这样的其他属性因此,向网络提供这些属性不是非常有用的,并且最好让学习者选择有用的属性。4.6. 查询选择是否良好?60.057.555.052.550.047.545.042.5CUB:不可见的准确性05101520二 十 五 个#每个类的属性注释CUB:谐波广义精度545250484644424005101520二 十 五 个#每个类的属性注释我们看看我们的方法Sibling-variance查询的属性的类型不同的父类别的CUB。查询的属性应根据同级类而有所不同。图9显示了Swallows和Cuckoos的前3个属性,它们首先被Sibling-variance方法它还显示了通过测量所有类的方差选择的前3个属性。虽然嘴的长度和整体形状在所有类别中具有很高的差异,但在燕子内(和在燕子内),嘴的长度和整体图7.我们的方法的性能,零+一杆设置,其中注释器提供了一个单一的图像的小说类以及交互式查询的属性。 所有方法的性能均优于基线;Image-based的性能与Sibling-variance相当,而不需要在基类上使用额外的分类法。Cuckoos)的方差不大,因此不应首先进行注释对于燕子,从图像中可以看出,喉咙、头顶和前额颜色在类别内变化对于杜鹃,下部,OSL+ ZSL-交互式w/随机OSL+ ZSL-交互式w/同胞方差OSL+ ZSL-交互式,带表示更改OSL+ ZSL-交互式,带基于图像的OSL+传统ZSLAnge站ch来表示活性剂,含ZSLZSL-InteraTraditiona利安斯专家兄弟姐妹vactive w/ctive w/ZSL-InteraZSL-Intera前1精度前1精度前1精度前1精度前1精度前1精度9555总方差:喙长、喉色和整体形状燕子树燕谷仓燕崖燕同胞-变异:喉色、冠色和额色杜鹃黑嘴杜鹃黄嘴杜鹃红树杜鹃4.7. 分类法有多大帮助?从前面几节的结果中可以看出,同胞方差允许我们选择信息属性。在本节中,我们将评估是否需要使用分类法。我们不是测量兄弟类内的方差,而是测量所有类的方差。这个变体总是将某些类型的属性优先于其他类型的属性,而不管类是什么,并且忽略同级中的局部变化。因此,我们预计它的性能会比已知的分类信息差。同胞-变化:下部颜色,冠部颜色和腹部颜色图9.通过分类法中父类的同级方差选择的属性 从里面的图像可以看出类别、整体形状和票据长度没有太大变化,并且测量方差以挑选所有类别的属性不是信息性的,并且我们查看兄弟的方法是必要的。CUB:不可见的准确性60504030200510152025三 十个#每个类的属性注释CUB:谐波广义精度55504540353025200510152025三 十 个#每个类的属性注释冠部和腹部颜色不同(有关其他示例和数据集,请参见补充资料)。我们还通过交互式问题和响应来可视化学习的进展。图10显示了2个CUB类和最相似的基类的t-SNE可视化。类的完整属性描述符(较大的点)被由相同颜色的较小点表示的该类的图像包围具有红色和黑色边缘的点示出了随着学习者分别使用同胞方差和随机我们看到,同胞方差产生了一个更快的进展,从类似的例如,使用“Tree Swallow”的同胞方差的属性描述符编码补充资料中有更多例子8.758.508.258.007.757.507.257.006.75图10.CADA-VAE潜在空间中2个新CUB类(图例中的第一类)及其最近基类(第二类)的t-SNE可视化较小的点表示测试图像,较大的点表示类属性嵌入。红色边缘显示了学习者使用同胞方差进行交互时新类属性的进展。带黑边的点表示具有随机函数的级数图11.将同胞方差与CUB上分类未知的变体进行如果兄弟类不用于测量兄弟方差,则模型会失去准确性。图11比较了没有分类信息的方法和已知分类的模型正如预期的那样,此方法会降低性能,因为无法测量类的局部变化,因此无法选择这些属性。但是,即使没有分类法,该方法的性能也优于ZSL,并且对于分类法未知或难以获取的情况非常有用(参见补充资料以了解其他数据集的性能)。最后,我们还表明,我们的方法是不是很敏感,只要专家选择一个类,是不是很不同的期待(见补充)相似的基类选择。5. 结论在这项工作中,我们表明,一个交互式的字段指南启发的注释方法识别信息丰富的属性查询,并可以通过明智地使用注释预算实现高性能。我们提出了不同的方法来获取信息稀疏注释从注释器,并表明,这是更好地让机器选择的属性,贡品要求(即使是在比较的领域的专家)。鉴于这些有希望的结果,有许多途径,未来的工作:可以得到更具有成本效益的选择不同数量的属性为不同的类的基础上类的信心?我们还需要弥合人类和机器对属性理解的差距,因为我们的研究结果表明,人类专家和神经网络并不会发现相同的属性同样有用。鸣谢。我们感谢我们资金机构TCS、NSF1900783和DARPA LwLL计划(HR001118S0044)的支持。树燕崖燕345678910巴尔的摩黄鹂同胞方差无分类法的同胞方差前1精度前1精度9556引用[1] Zeynep Akata , Scott Reed , Daniel Walter , HonglakLee,and Bernt Schiele.细粒度图像分类的输出嵌入评价。CVPR,2015。一、二、六[2] Ziad Al-Halah和Rainer Stiefelhagen。自动发现、关联估计和学习上千个类别的语义属性在CVPR,2017年。一、二[3] ZiadAl-Halah , MakarandTapaswi , andRainerStiefelhagen.恢复缺失的环节:预测无监督零触发学习的类属性在CVPR,2016年。一、二、六[4] 史蒂夫·布兰森,皮埃特罗·佩罗纳,和塞尔日·贝隆吉。从弱注解强监管:可变形零件模型的交互式训练。见ICCV,2011年。三个[5] Steve Branson,Grant Van Horn,Catherine Wah,PietroPerona,and Serge Belongie.无知的人被瞎子领着:一种用于细粒度分类的人机混合视觉系统。IJCV,2014年。三个[6] Soravit Changpinyo,Wei-Lun Chao,Boqing Gong,andFei Sha. 用于零镜头学习的合成分类器在CVPR,2016年。二个[7] Mohamed Elhoseiny、Babak Saleh和Ahmed Elgammal。写 一 个 分 类 器 : 使 用 纯 文 本 描 述 的 零 镜 头 学 习 。InICCV,2013. 一、二[8] Andrea Frome 、 Greg S Corrado 、 Jon Shlens 、 SamyBengio 、 Jeff Dean 、 Marc'Aurelio Ranzato 和 TomasMikolov 。 Devise : 一 个 深 度 视 觉 语 义 嵌 入 模 型 。InNeurIPS,2013.一、二[9] 亚林·加尔和祖宾·加赫拉马尼。Dropout as a BayesianApproximation : Representing model uncertainty in deeplearning.InICML,2016. 二个[10] 约 书 亚 · 古 德 曼 。 最 大 熵 模 型 的 指 数 先 验 。 HLT-NAACL,2004年。二、五[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在CVPR,2016年。5[12] Elyor Kodirov,Tao Xiang,and Shaogang Gong.用于零触发学习的语义自动编码器在CVPR,2017年。二个[13] Christoph H Lampert , Hannes Nickisch , and StefanHarmeling. 基于属性的零镜头视觉对象分类。TPAMI,36(3):453-465,2013. 二个[14] Hugo Larochelle、Dumitru Erhan和Yoshua Bengio。零数据学习新任务。在AAAI,2008年。二个[15] Anders Boesen Lindbo Larsen ,Søren Kaae Sønderby,Hugo Larochelle,and Ole Winther.使用学习的相似性度量对像素之外的像素进行自动编码。InICML,2016. 六个[16] Jimmy Lei Ba,Kevin Swersky,Sanja Fidler,等.使用文本描述预测深度零触发卷积神经网络。CVPR,2015。一、二[17] David D Lewis和William A Gale。训练文本分类器的顺序1994. 二个[18] Ishan Misra 、 Ross Girshick 、 Rob Fergus 、 MartialHebert、Abhinav Gupta和Laurens van der Maaten。通过提问学习。在CVPR,2018年。三个[19] Sanat
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功