没有合适的资源?快使用搜索试试~ 我知道了~
创造力激发的零射击学习
15784创造力激发的零射击学习Mohamed Elhoseiny1,2Mohamed Elfeki31Facebook AI Research(FAIR),2阿卜杜拉国王科技大学(KAUST)3中佛罗里达mohamed. kaust.edu.sa,elfeki@cs.ucf.edu摘要Zero-shot learning(Zero-shot learning,简称ZRL)的目标是在没有训练样本的情况下理解未知类别。为了提高零镜头学习的区分能力,我们从人类创造力产生新颖艺术的心理学中获得灵感,对未看到的类别的视觉学习过程进行建模。我们通过观察零机会学习是关于识别看不见的东西,而创造力是关于创造一个可爱的看不见的东西,来将零机会学习与人类的创造力联系起来。我们引入了一个学习信号的灵感来自创造性文献,探索看不见的空间与幻觉类描述,并鼓励他们的视觉特征代从看到的类的谨慎偏差,同时允许知识转移从看到的类。从经验上讲,我们使用CUB和NABIrds数据集,从我们关注的嘈杂文本中,在最大的可用基准上,我们显示出对几个候选人的持续改进。我们还展示了我们的方法在三个附加数据集(AwA2,aPY 和 SUN ) 上 基 于 属 性 的 XML 的 代 码 可 在https://github.com/mhelhoseiny/CIZSL上获得。1. 介绍现实世界中有成千上万的对象类别和无数未被发现的物种,要维持每个类别数百个示例来满足大多数现有识别系统的训练需求以乔治·齐普夫(George Zipf,1902 - 1950)命名的齐普夫有几个例子可用于训练,在语言中更早地验证(例如,[60,61])和后来的视觉(例如,[43])。当我们以细粒度级别的识别为目标时,这个问题变得更加严重。例如,有成千上万的鸟类和花卉物种,但最大的可用基准只有几百个类,这激发了大量关于对看不见的类进行分类的研究,称为零射击学习(Zero-ShotLearning,简称ZRL)。图1:推广零触发模型的学习需要偏离可见类,以适应识别不可见类。我们仔细地模拟了一个学习信号,该学习信号归纳地鼓励看不见的类与看不见的类的偏离,但没有被推得太远,以至于一代人落在右边的负享乐不现实的范围内,并且失去了从看不见的类的知识转移。有趣的是,这条曲线与人类创造力文献中著名的冯特曲线(Martindale,1990)[33]相似。人们有很强的能力从文本描述中识别出看不见的视觉类别,比如“凤头海雀是鸟类的亚种,有深灰色的身体、尾巴和翅膀,以及橙黄色的喙。它以其前额的羽冠而闻名,羽冠是由黑色的向前弯曲的羽毛制成的。参见图1(下图)。我们可能会以不同的方式想象“凤头海雀”的外观这种想象概念在最近的研究方法中得到了改进(例如,[19,29,20,59,55])成功地采用深度生成模型来合成给定其语义描述的不可见对象的视觉示例。在训练之后,该模型为每个看不见的类生成虚构的数据,从而使用所生成的数据将CNOL转换为然而,这些生成的类的方法不guarantee之间的歧视看到和看不见的类,因为代没有动机与学习信号偏离看到的类。例如,在15785独特我们的工作的核心是解决如何从文本描述中产生不可见的视觉类的有区别的生成的问题,通过明确地学习偏离可见的类,同时允许转移到不可见的类。 让我们想象一下,从强度图上的类描述中产生的条件视觉空间,其中亮区域意味着可见,暗区域意味着不可见。这些类描述表示在看不见的(暗)和看不见的(亮)类之间的共享空间中,因此可以预期传输在现有的方法中,该传递信号是通过鼓励生成器产生仅以所见类别的描述(仅亮区域)为条件的质量示例来制定的。在这种归纳零激发学习中,未看到的类的类描述在训练期间不可用,因此不能用作学习信号以明确地鼓励在未看到的类和看到的类之间进行区分从黑暗的看不见的空间中探索性地建模出一个归纳和区分的学习信号是我们工作的核心。零射击学习的创意灵感。 我们提出了一种从人类创造力心理学中得到启发的区分性学习信号来扩展生成式零触发学习科林·马林代尔[33]提出了一种心理学理论来解释人类创造力的感知该定义通过“最小努力原则”将艺术作品的可爱性与新颖性一件艺术作品的审美情趣首先是在偏离现有作品到一定程度时增加,然后在偏离太远时减少这意味着很难将这种艺术与我们熟悉的东西联系起来,因此认为很难理解和欣赏。这一原则可以通过冯特曲线来可视化,其中X轴代表新颖性,Y轴代表可爱性,就像一个倒U形;类似于图1中的曲线。我们将创造性艺术中的冯特曲线拟合与理想的广义广义参见图1。由于混淆,不能使未看见的类的代与看见的类的实例偏离的生成式CPDL模型预计在广义零射击识别中表现不佳;见图1(左)。 随着偏差能力的增加,预期性能会变得更好,但当偏差太大时,性能同样会下降,从而产生不切实际的生成并减少所需的来自可见类的知识转移;参见图1(中间和右侧)。我们的关键问题是如何正确地制定从生成类似于现有类的特征,同时平衡所需的迁移学习信号。捐款. 1)我们提出了一个零杆学习approach,明确模型生成看不见的类,通过学习仔细偏离看到的类。我们研究参数化的熵度量,以便于学习如何偏离所看到的类。我们的方法是从人类创造力的心理学中得到启发的;因此 , 我 们 将 其 命 名 为 创 造 力 启 发 的 零 射 击 学 习(CITRAL L)。2) 我们的创造力启发的损失是无监督的,正交于任何生成的方法。因此,它可以集成到任何GALML,同时不添加额外的参数,也不需要任何额外的标签。3) 通过对包含基于维基百科和基于属性的描述的七个基准点进行广泛的实验,我们的方法在零射击识别,零射击检索和广义零射击学习方面始终优于最先进的方法。2. 相关工作早期零触发学习(Early Zero-Shot Learning,缩写为ZRL)方法促进零触发学习的一个关键思想是找到一个可见和不可见类都可以共享的公共语义表示。属性和文本描述被证明是有效的共享语义表示,允许将知识从可见的类转移到不可见的类。Lampert等人[26]提出了一种直接属性预测(DAP)模型,该模型假设属性的独立性,并通过组合属性预测概率来估计测试类的后验。Farhadi等人开发了一个快速开发但类似的模型。[13]第10段。视觉语义嵌入算法。放松不真实的独立性假设,Akata等人。 [2]提出了一种属性标签嵌入(ALE)方法,该方法将零拍摄学习建模为线性联合视觉语义嵌入。原则上,该模型类似于现有的方法,即学习从视觉空间到语义空间的映射函数[57,46]。这也在相反的方向上进行了研究[57,46],以及联合学习映射到公共空间的每个空间的函数[56,28,3,42,47,12,1,31,30,48]。生成式学习方法最近提出了生成人工示例的概念,以模拟零次学习,将其简化为传统的分类问题[19,29,20,59]。早期的方法假设视觉空间的高斯分布先验于每个类别,并且未看见的类别的概率密度被建模为已看见的类别分布的线性组合[19]。Long等人。 [29]提出了一种一对一的映射方法,其中合成的示例受到限制。最近,Zhu et al. [59],Xian et al. [55]和Verma et al.[25] 放 松 了 这 一 假 设 , 并 建 立 在 生 成 对 抗 网 络(GAN)[17,39]的基础上,从看不见的类描述中生成示例与ACGAN [36]不同,Zhu等人添加了一个视觉枢轴正则化器(VPG),鼓励每个类的生成接近其相应真实特征的平均值。15786K我语义表示(例如,属性、描述)。根据定义,《指南》要求提供额外的信息(例如,看不见的类的语义描述)以使得能够识别它们取得了相当大的进展,训练参数θD,以将来自真实分布p数据的样本分类为真实(1),并且将由生成器产生的样本分类为假(0);参见Eq 2。Σ在研究属性表示[26,27,2,15,57,最小LG=最小log(1−D(G(zi)(1)56、28、3、42、1]。属性是语义特征的集合,这些语义特征被填充以唯一地描述不可见的θG最小LD=最小θG zi∈RnΣ- logD(xi)−log(1 −D(G(zi))))θDθD x∈D,z∈Rn班另一个网络语言的趋势是使用在线文本描述,[11,12,38,40,28].文本描述可以(二)可以很容易地从维基百科等在线资源中以最小的开销提取Elho- seiny等人。 [11]提出了一种基于维基百科的零射击学习的早期方法,该方法结合了域转移和回归,以从TF-IDF文本表示中预测视觉分类器[44]。乔等人[38]提出通过鼓励神经权重对文本术语的稀疏性来抑制维基百科文章中的噪声。最近,提出了基于部分的零射击学习模型[12],该模型能够在没有部分文本注释的情况下将文本术语连接到对象的相关部分。最近,Zhu et al. [59]表明,抑制非视觉信息是可能的,因为他们的模型具有预测能力,可以从嘈杂的维基百科文本中合成大小视觉特征。我们的工作还专注于基于维基百科文章识别对象的挑战性任务,也是一个生成模型。与现有的不同,我们明确地建模看不见的类代从可见的类的仔细偏差。视觉创意。计算创造力研究生成具有现实和美学特征的原始项目的构建机器[32,34,7]。虽然GAN [17,39,22]是一个强大的生成模型,但它并没有经过严格的训练来创建超出训练数据的新内容。例如,在艺术作品上训练的GAN模型可能会再次生成这与一些现有的风格转换工作[16,8]没有什么不同,因为这些模型中没有生成新内容的动机。更多的近期作品采用计算创造性文学来创造新颖的艺术和时装设计[9,45]。受[33],Elgammalet al。[9]通过鼓励模型偏离现有的绘画风格,调整GAN以生成无条件的创造性内容(绘画)时尚是一个价值2.5万亿美元的产业,对我们的日常生活产生影响,这促使[45]开发一种模型,例如可以创造一种看不见的时尚形状“裤子到延伸的袖子”。这些模型背后的关键思想是增加额外的新颖性损失,以鼓励模型探索其中zi是从先验分布采样的噪声向量pz和x是来自数据分布pdata的实样本。为了学习偏离所看到的绘画风格或时尚形状,[9,45]提出了一个额外的头部用于判别器D,它预测图像的类别(绘画风格或形状类别)。在训练过程中,鉴别器D被训练为通过其附加头来预测真实数据的类别,除了原始的真实/虚假损失之外。生成器G然后被训练以生成不仅被分类为真实的示例,而且更重要的是被鼓励使用附加的前缀难以分类的更具体地说,LG=LG真/假+λLG创造力(3)[9]和[45]的共同目标是在现有类上产生具有高熵分布的新一代,但它们在损失函数上不同在[9]中,LG创造力被定义为由额外的绘画风格产生的每种绘画风格的二元交叉熵(BCE)。头部和均匀分布(即,1,K是类的数量)。因此,该损失是所有类别的BCE损失的总和。相比之下,Sbai等人。 [45]在现有类别的分布和均匀分布之间采用了多类别交叉熵(MCE)。据我们所知,创造性的产生之前没有被探索过,这是以文本为条件的,也是为了促进对看不见的类的理解,这是我们工作的两个关键区别。将计算创造力与零射击学习联系起来是我们工作中的一个新颖方面,它鼓励生成模型偏离可见的类。然而,学习信号的适当设计对于以下方面至关重要:(1)使类文本描述产生幻觉,其视觉生成可以帮助仔细的偏差,(2)允许有区别的生成,同时允许在可见和不可见的类之间转移,以促进零触发学习。4. 该方法问题定义。我们首先定义零触发学习设置。我们将语义表征未知类和已知类的集合为tu=φ(Tu)∈ T,图像生成的创造空间锡克3. 背景我不是 ∈ T,其中T是语义空间(例如,维基百科文章的特征φ(·)让sssSN SKSGAN [17,39]使用参数训练生成器G将数据视为D={(xi,yi,ti)}i=1,其中N是数字。θG,以产生鉴别器D认为训练(可见)图像示例的BER,其中xs∈ Xde-他们是真实的 另一方面,鉴别器D,注意视觉空间中第i个15787我我文本GGZ文本文本图2:生成器G被训练成仔细地从可见类偏离到不可见类,而不合成不真实的图像。上半部分:G被提供了一个幻觉文本th,并被训练来欺骗机器人相信它是真实的,但它鼓励通过最大化给定th的可见类的熵来偏离可见类的学习。底部:G被提供了一个可见的类t s的文本,并被训练来欺骗C,使其相信它是真实的,并带有相应的类标签(低熵)。X,ys是相应的类别标签。我们将唯一可见类标签的数量表示为Ks。我们将可见和不可见类标签的集合表示为S和U,其中前面提到的ys∈ S。请注意,可见和不可见的类是脱节的,即,S ∩ U=。对于看不见的类,我们给出它们的语义表示,每个类一个,{tu}Ku,其中Ku是未见过类的数量。的tor被训练,然后它被用来对看不见的类产生幻觉,传统的分类器可以像我们后面在4.3节中详细介绍的那样训练。生成器G是关键的想象力组件,我们的目标是训练它,以推广到由来自CNOD的信号引导的看不见的类。在第4.1节中,我们详细介绍了创意激发零触发信号的定义,i i=1零激发学习(zero-shot learning,简称ZRL)任务是预测标签yu∈ U一个看不见的类可视示例xu∈ X。在更具挑战性的广义类集L(Generalized ClassL)中,目标是在给定x可能属于可见或不可见类的情况下预测y∈ U S方法概述。图2显示了我们的创造力启发的零次学习模型(CITML)的概述。我们增强和提高了遗传算法的学习能力。阿托尔湾在第4.2节中,我们展示了如何将我们提出的损失轻松集成到对抗生成训练中。4.1. 创造力激发零投篮失误(CITHUL)我们明确地探索看不见的/创造性的空间,生成器G具有幻觉文本(thph)。 我们-方法建立在GAN之上[17],同时调节h文本从原始维基百科文本描述看不见的类的语义表示。 我们将生成器记为G:RZ×RT−θ−→G RX和作为D的θ:RX−θ−D→精细p文本,作为幻觉文本上的概率分布很可能是看不见的描述和对可见类的硬否定。 为了取样,我们首先挑选两个S S h{0,1}×Lcls,其中θG和θD分别是生成器和子的参数,Lcls是S随机文本特征ta,tb ∈ S. 然后我们抽样检验在它们之间插入,th=αts+(1 −α)ts通过(四)所看到的类标签(即,S={1···K})。对于发电机a bG和在 [55],然后将文本表示进行连接-用从高斯分布N(0,1)采样的随机向量z∈RZ表示;见图2。在[59]的架构中,编码文本tk首先被馈送到全连接层,以降低维数并在与z级联之前抑制噪声。在我们的工作中,训练的CNOD不仅从训练图像中预测真实的图像和生成的图像的假图像,而且还识别输入图像的类别。 我们表示真/假问题-其中α在0. 2和0。8. 我们丢弃接近0或1的α值,以避免对非常接近可见特征的文本特征进行采样。我们还尝试了不同的方法来采样α,它修改了ph比如固定α=0。5或αN(µ=0. 5,σ=0。5/3),但我们发现从0.2到0.8的均匀采样是简单而有效的;参见abla-补充说明(第5节)。我们基于G(th,z)定义我们的创意灵感零射击损失LC如下D对输入图像产生的能力为Dr(·),给定图像的可见类k∈ S的分类得分为LC= −Ezp,thps[Dr(G(th,z))](五)Ds,k(·)。因此,特征是从编码的+λEzp,thph[Le({D (G(t,z))}k=1→Ks)]15788s,kht e xt描述tk,如下xk←G(tk,z)。那么,辨别第一个头是用于二进制真/假分类的FC层。第二个头是K-way分类器对所见的类进行分类. 一旦我们的基因-z文本我们鼓励G(th,z)是真实的(第一项),但很难分类到任何可见的类(第二项),因此实现了对可见类的更多区分;见图1。215789文本GG文本Ks,khG数据文本e1K(顶部)。 更具体地说,第一个术语鼓励性别补充(第2节)。注意,我们还学习了γ和β,给予h骗他们相信我们用SM损失训练我们的模型。它是真实的(即,最大化Dr(G(th,z))。这种损失促使生成的示例在偏离可见类的同时保持真实。 在第二个学期,我们量化了通过最大化我们在本节稍后定义的熵函数Le来 尽量减少LC连接到马丁代尔等人的最小努力原则。1990年,夸张的新颖性会降低从看到类的可转移性(见图中的可视化)。①的人。促进上述高熵分布在分判别生成中。然而,它并不阻止从可见类的知识转移,因为不可见的世代被鼓励成为可见类的熵组合。 我们没有模拟偏离所见4.2. 将CITML整合到对抗训练中我们的方法的积分是简单的,在等式5中定义的LC只是被添加到发电机损耗;参见Eq 7。类似于现有的方法,当生成器G被提供有描述所看到的类ts的文本时,其被训练以欺骗分类器相信它是真实的并且预测对应的类标签(ts的低熵对th的高熵);参见图2(底部)。请注意,我们在这里详细介绍的其余项是为了我们的方法的具体性,与现有的生成式方法类似[55,59]发电机损耗发电机损耗是四个术语,定义如下类作为一个附加类,标签为Ks+1,我们al-C r s方法将G(th,z)分类为,因为这减少了来自所见类的知识转移,如我们在结果中所示。Le的定义:Le定义在所见类的概率上s,kLG=LG−Ez<$pz,(ts,ys)<$ps1ΣK[D(G(t,z))+ksyslog(Ds,k(G(ts,z)]k=1{D(·)}k=1→Ks(即,softmax输出超过所见类)。 我们尝试了不同的熵最大化损失。它们的基础是最大限度地减少+||Ez<$pz[G(tk,z)]−EKsk=1k[x]||2数据(七)softmax分布由给定幻觉文本特征和均匀分布的卷积器产生具体地,发散度(也称为相对熵)在{D(G(t,z))}k=1→Ks))之间最小化第一项是我们在4.1节中所描述的创造性启发的零射击损失LC。 请注意,鼓励{tk}k=1→Ks预测低熵分布,因为当相应的和{1}s;参见等式6。 值得注意的是,类似的损失类是以高概率预测的因此,SEC-k=1→K在艺术和时尚的创造性视觉生成的背景下进行了研究(例如,[9,45])。然而,这里的重点主要是无条件生成,没有必要将输入文本th幻觉到生成器中,这在我们的情况下是必要的;参见第3节。相反,我们的工作还涉及两 种不同的模式(即, 维基百科文本和图像)。ΣK第二项欺骗生成器对视觉生成进行从看到的文本ts作为真实的。第三个术语鼓励生成器能够生成基于给定可见文本的视觉特征。第四项是我们从[59]中采用的附加视觉枢轴正则化器,它鼓励每个类k的生成(假)示例的中心(即,其中G(t,z))接近中心LKL=ek=11Ds,k(G(th,z))KsK从pk对于相同的类k。ksSM1s,kh1−γΣ1γ1−β与现有方法类似,定义为:Le(γ,β)=β−1(D)k=1(G(t,z))(Ks ))1−γ−1RSR(六)已经提出了几种发散/熵度量,LD=Ez<$pz,(ts,ys)<$ps[D(G(t,z))]−Exp数据[D(x)]ks信息论文献[41,49,23,4,21]。我们采用了两种散度损失,著名的库尔贝克-KL+LLip−1Ex,yp2数据 [k=1ksyklog(Ds,k(x))]Leibler(KL)散度与双参数Sharma-Mittal(SM)[21]LSM中的发散,不太清楚;见Eq 6。在[4]中显示,-Ezpz,(ts,ys)ps2文本[k=1yslog(Ds,k(G(ts,z))](八)散度测度是Sharma-Mittal(SM)散度的特殊情况,通过设置其两个参数γ和β得到。当β→1(单参数)时,它等价于Re′ nyi[41],Tsal-其中y是采样图像x的可见类别标签的独热矢量编码,t和y是文本描述的特征,并且对应的热标签从当γ=β(单参数)时,Bhat-查看类ps. 前两项近似于瓦瑟-SX轴15790文本当β → 0时,tacharyya发散。5和γ→0。5、KL当β→1和γ→1(无参数)时的发散。因此,当我们实现SM损失时,我们还可以最小化上述特殊情况措施;详情见真特征与伪特征分布的斯坦距离功能.第三项是执行Lipschitz 约束 t的梯度惩罚:LLip=(||x||2−1)2,其中x是实特征x的线性插值,15791G文本[001 pdf 1st-31files]fa k efeaturex;see[18]。最后两项是所看到的真实特征和来自所看到的类别标签的文本描述的假特征的类融合损失训练我们构造了两个小批量来训练生成器G,一个来自可见类ts,另一个来自halluci- nated文本th,以最小化LG(等式2)。7)特别是LC(Eq.(五)。生成器被优化以欺骗浏览器,使其相信生成的特征是真实的,无论是来自半透明文本th还是看到的文本ts。同时,我们在所看到的类上最大化它们的熵,如果gener-分类正确地分类到一个看不见的类标签。然而,这可能是不完整的度量,因为在推理时遇到也看到的类更现实。因此,我们还报告了一个广义的零杆识别度量相对于seen-unseen曲线,提出了Chao等人。[6]的文件。该指标对两种图像进行在测试时看到S和看不见的类U。然后,通过对这些模型进行分类,将图像映射到标签空间,该标签空间覆盖可见类和不可见标签T=S U。 使用平衡参数ated features comes from hallucinated textth或样本可见和不可见类测试精度对。 这双对应的类如果来自真实文本Ts。训练器类似于现有的工作;请参阅补充说明(第3节)中详细的算法和代码,以显示如何使用Adam优化器交替训练G和D注意,当Le具有用于Sharma-Mittal(SM)散度的参数(如γ和β)(等式6)时,我们也学习。4.3. 零击识别测试在训练之后,不可见类的视觉特征可以由以给定的不可见文本描述tu为条件的生成器合成,如xu=G(tu,z)。我们可以通过对同一文本tu采样不同的z来生成任意数量的生成的视觉特征。有了这些不可见类别的合成数据,零炮识别就变成了一个传统的分类问题。我们使用最近邻预测法,我们发现它简单有效.5. 实验我们研究了我们的方法在两个类级语义设置上的性能:文本和属性描述。由于基于文本的语义学习是一个更难的问题,我们用它来运行零射击检索和广义语义学习的消融研究。然后,我们对这两种设置进行了实验,以验证我们的工作的通用性。交叉验证我们在方程5中损失的权重λ是一个超参数,我们发现它很容易在我们所有的实验中调整。我们首先将数据分为训练和验证部分,所有设置的比例接近80-20%。在训练之前随机选择训练和验证类然后,我们计算在3000次迭代中每100次迭代进行80%分割时训练模型的验证性能。我们研究了λ的各种值,并选择在推理时使用最后,我们结合训练和验证数据,并评估测试数据的性能。Zer-Shot性能测试我们使用了两个广泛用于评估BML识别性能的指标:标准的Zero Shot识别,带有Top-1不可见类精度和Seen-Unseen广义零炮性能与Seen-Unseen曲线下面积[6]。Top-1准确度是来自未见过的以 ( x , y ) 坐 标 绘 制 , 形 成 可 见 - 不 可 见 曲 线(SUC)。我们遵循[59]使用SUC下的区域评估类级文本零次识别的泛化能力,以及SUC对基于属性的零次识别的调和均值。在我们的模型中,我们使用经过训练的GAN来合成训练类和测试类的视觉特征。5.1. 基于维基百科的测试结果(4个基准测试)文本表示。每个类别的文本特征都是从[11,12]收集的相应原始维基百科文章中提取的。我们使用词频-逆文档频率(TF-IDF)[44]特征向量,CUB的维度为7551,NAB的维度为13217。视觉表示。我们在VPDE-net中使用基于部件的FC层的功能[57]。将图像进行224×224的预处理后,将图像前馈到VPDE网络,提取每个检测部分的特征激活,其激活率为512维度CUB和NAB的视觉特征维度分别为3583和3072。CUB和NAB共有六个语义成分此外,CUB具有额外的部分,即更多详情见补充资料(第6节)。数据集。我们使用两种常见的细粒度识别数据集进行文本描述:加州理工学院UCSD鸟类-2011(CUB)[51]和北美鸟类(NAB)[50]。CUB数据集包含200种鸟类及其维基百科文本描述,共计11,788张图像。与CUB相比,NAB是一个更大的鸟类数据集,包含1011个类别和48,562张图像。分裂。对于这两个数据集,有两种方案将类划分为训练/测试(总共四个基准):超类别共享(SCS)或容易分裂和超类别排他性分裂(SCE)或硬分裂,在[12]中提出。这些分割表示可见类与不可见类的相似性,使 得 前 者 表 示 比 后 者 更 高 的 相 似 性 。 对 于 SCS(easy),故意挑选看不见的类,使得对于每个看不见的类,至少有一个具有相同超类别的可见类因此,可见类和不可见类之间的相关性非常高,15792度量前1位准确度(%)可见-不可见AUC(%)数据集CUB NABCUB NAB分流模式容易硬容易 硬容易硬容易硬CITRAL SM-熵(我们的最终版本)44.614.436.59.339.211.924.56.4CITRAL L SM-熵(将公式5中的第2项替换为将th分类为新类别)43.211.3135.68.538.39.521.65.6CITHUL SM-熵(减去公式5中的第一项43.410.135.28.335.08.220.15.4CITHUL SM-熵:(减去等式5中的第二项)41.711.233.48.133.310.121.35.1CITALLBACHATERA-熵(γ = 0. 5,β = 0。第五章)44.113.735.98.938.910.324.36.2CIOML Renyi熵(β→1)44.113.335.88.838.610.323.76.3CL KL-熵(γ→1,β→1)44.514.236.38.938.911.624.36.2CITARL Tsallis熵(β=γ)44.113.836.78.938.911.324.56.3CITAL SM-熵:(减去等式5中的第1项和第2项)=GAITAL [59]43.710.335.68.635.48.720.45.8表1:在CUBNAB上使用Zero-Shot识别的消融研究每个数据集有两个分割设置。[59]第59话我的朋友认为零发射识别和检索问题相对容易。在频谱的另一端,SCE(硬)方案,看不见的类不与看到的类共享超类别。因此,可见和不可见类之间的相似性较低,使得问题更难解决。请注意,容易分裂在文献中更常见,因为它更自然,但故意设计的硬分裂显示了我们也可能期望的超级猫没有看到时的进展。图 3 : 对 于 GANUL [57] 和 GANUL [57]+CINUL,长尾小鹦鹉Auk-let(Seen,y轴)与 凤 头 小 海 雀 ( CrestedAuklet )(Unseen,x轴)的可见和不可见曲线消融研究(表1)。我们的损失是由两项组成的,这两项鼓励了公式5中的谨慎偏离。第一项鼓励从幻觉文本生成的视觉特征欺骗相信它是真实的人,这限制了合成的视觉特征是真实的。第二项使用偏差度量使熵最大化。在我们的工作中,学习Shama-Mittal(SM)熵参数γ和β,并因此使对应的数据和分裂模式适应匹配的发散函数,从而产生最佳结果,特别是在广义SUAUC度量中;参见表1中的第一行我们首先调查偏离幻觉文本的影响,通过将其分类到一个新的类KS+1,其中KS是所看到的类的数量。我们发现性能明显更差,因为丢失将显著增加对可见类的不一致性,因此减少了向不可见类的可见知识转移;见表1中的第2 当我们去除第一项(现实约束)时,性能下降,特别是在广义Seen-Unseen AUC度量下,因为生成的视觉特征变得不现实;参见表1中的第3行(例如,CUB Easy的AUC下降39.2%-35.0%,CUB Hard的AUC下降11.9%-8.2%)或者,当我们去除第二项(熵)时,我们还观察到性能的显著下降,表明两种损失彼此互补;参见表1中的第4行(例如,CUB Easy的AUC下降 39.2%-33.5%,CUB Hard的AUC下降11.9%-10.1%)在我们的消融中,应用我们的方法而不使用两项(我们的损失)相当于[59],表1中的最后一行显示为性能最差的基线之一。请注意,我们的损失也适用于其他生成式BML方法,正如我们在本节后面的最新比较我们还比较了不同的熵措施,以鼓励-(a) CUB与SCS(简单)分割(b)CUB与SCE(硬)分割(c)NAB与SCS(简单)分离(d)NAB与SCE(硬)分离图4:两次分割的可见-不可见准确度曲线:SCS(简单)和SCE(困难)。我们的指示是GAZOL + CIZOL年龄与所见类别的偏差:Kullback-Leibler(KL),R e′nyi[41],Tsallis[49],Bhatta c haryya[23];参见表1中的第5-8条。所有这些发散度量都是我们实现的两个参数(γ,β)Sharma-Mittal(SM)[21]发散的特殊情况。例如,Renyi [41]和Tsallis [49]只学习一个参数,并实现了相当但较低的性能。Bhat- tacharyya [23]和KL没有可学习的参数,与SM相比,性能较低。[55]和[59]中的零射击识别和通用性。图3显示了我们的CITRAL L损失的关键优势,将[57]的能力从0.13 AUC降低到0.27 AUC,以区分两种非常相似的鸟类:长尾小鹦鹉海雀(可见类)和凤头海雀(不可见类),200种分类法;详见补充资料(第1节)。表2显示了CUB和NAB数据集SCS(简单)和SCE(硬)分割(共四个基准)的最新比较。与现有技术相比,我们的方法显示出显著的优势,特别是在1.0-4.5%的通用Seen-Unseen AUC度量中。15793前1名准确度(%)可见-不可见HAwA2 aPY SUN AwA2 aPY SUN指标Top-1准确度(%)可见-不可见AUC(%)行动党[27] 46.1 33.8 39.9数据集CUB NAB CUB NAB分离模式Easy Hard Easy Hard Easy HardWAC线性[11] 27.0 5.0WAC-Kernel [10] 33.5 7.7 11.4 6.0 14.7 4.4 9.3 2.3埃斯波西托[42] 28.5 7.4 24.3 6.3 18.5 4.5 9.2 2.9[38] 29.1 7.3 24.5 6.8 14.7 4.4 9.3 2.3SynC快速 [5] 28.0 8.6 18.4 3.8 13.1 4.0 2.7 3.5[12] 12.6 12.6 3.5通用电气[55] 43.9 9.8 36.2 8.7 34.1 7.4 21.3 5.6[55]第五十五章:一个女人四十四点二+0。3十二点一加二。336.3+0。十九点八+1。137.4+2。7九点八加二。424.7+3。46.2+0。6巴西[59] 43.7 10.3 35.6 8.6 35.4 8.7 20.4 5.8[59]第五十九章:一个女人四十四点六+0。9十四点四加四。136.6+1。09.3 +0。七三九点二+3。811.9+3。2二十四点五加四。16.4+0。6沪公网安备31011502000114号SJE [3] 61.9 35.2 53.7 14.4 6.9 19.8地板[53] 55.8 35.2 55.3 20.0 0.2 19.5埃斯波西托[42] 58.6 38.3 54.5 11.0 4.6 15.8国际劳工组织[2] 62.5 39.7 58.1 23.9 8.7 26.3CONSE [35] 44.5 26.9 38.8 1.0同步[5] 46.6 23.9 56.3 18.0 13.3 13.4SAE [24] 54.1 8.3 40.3 2.2 0.9 11.8DEM [57] 67.1 35.0 61.9 25.1 19.4 25.6[15] 10.7 10.8 10.8 10.8 10.9格鲁吉亚[59] 58.9 41.1 61.3 15.4 24.0 26.7[59]第五十九章:一个人的世界942.1+1。063.7 +2。424.6+9。225.7+1。727.8+1。1[55] 20.5 20.6 20.6 20.7 20.7 20.7[55]第五十五章:你是我的女人843.8+1。259.4 -0 619.1+1。524.0+2。626.5+1。6循环-(U)WGAN [14] 56.2 44.6 60.3 19.2 23.6 24.4cycle-(U)WGAN [14] + CITRIL63.6+7。445.1+0。5 六十四点二加三九百二十三点九+4。726.2+2。627.6+3。2表2:来自CUB和NAB数据集具有两个分割设置。表3:AwA2、aPY和SUN数据集的类级属性上的零触发识别。百分之二十五幼崽百分之五十百分百百分之二十五NAB百分之五十百分百西班牙语[42]27.927.322.728.927.820.9[第38话]29.229.523.928.827.322.1[12]第十二话42.342.036.336.935.731.3[59]第五十九话49.748.340.341.637.831.0[59]第五十九章:一个女人50.3+0。6四十八点九+0。646.2+5。941.0- 0。640.2+2。434.2+3。2表4:使用CUB和NAB的平均精度(mAP)(%)和SCS(简单)分割的零发射检索。改进.图4显示了我们的四个基准CUB(东部和硬分裂)和NABIrds(容易和硬分裂)的Seen-Unseen曲线,与识别未见过的类的最新技术相比,我们的具有显着优势;请参见图4中的SU曲线下的区域,以对抗亚军GANURL。简单分割的平均相对SU-AUC改善为15.4%,而硬分割为23.56%也就是说,随着分裂难度的增加,我们损失的优势变得更加明显,表现出更好的辨别性知识转移能力。我们通过将其与另一种特征生成方法嵌入来展示我们的方法的通用性,该特征生成方法是EARGEN [55],从而实现了一致的改进。所有方法都使用相同的文本和视觉表示。零击回收我们研究了我们的模型公共检索度量在表4中,我们报告了不同设置的性能:在每个类中检索25%、50%、100%的图像。我们遵循[59],通过为给定文本生成60个示例,然后计算平均值,来获得不可见类的因此,给定视觉中心,目标是在视觉特征空间中基于最近邻策略检索图像我们的模型表现最好,在CUB和NAB上分别将MAP(100%)即使当模型无法检索到确切的不可见类时,它也倾向于检索视觉上相似的图像;参见补充资料中的定性示例。5.2. 基于属性的Zero Shot学习数据集。虽然这不是我们的重点,我们也investi-门我们的模型的零射击识别能力的性能,使用不同的语义表示。我们遵循GBU设置[54],其中图像通过其属性而不是文本描述来描述,认为该问题比文本描述零拍摄学习相对容易。我们在以下数据集上评估了我们的方法:具有属性 的 动 物 ( AwA 2 ) [26] 、 aPas- cal/aYahoo 对 象(aPY)[13]和SUN场景属性数据集[37]。它们由涵盖不同范围的各种类别的图像组成:动物、物体和场景。AwA包含属性标记的类,但aPY和SUN数据集的属性签名计算为属于每个类的实例的平均值零射击识别。在AwA 2,APY和SUN数据集上,我们在表3中显示了我们的CITML损失改进了三个生成零射击 学 习 模 型 , 包 括 GAITML [59] , CITGEN [55] 和cycle-(U)WGAN [14]。该表还显示了我们与最先进技术的比较,我们大多获得了卓越的性能。即使在AWA 2上获得比最先进水平略低的分数,我们的损失也为非创造性的GASML增加了9.2%的Seen-Unseen H绝对改进[59]。我们还评估了CUB-T1(属性)基准点[54]上的损失,其中GA
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功