广义零次学习的语义解缠

97 浏览量更新于2023-10-14 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8712--广义零次学习的语义解缠支晨1雅丹罗1邱瑞红1王森1黄子1李晶晶2张征31澳大利亚昆士兰大学2电子科技大学3哈尔滨工业大学深圳陈志，罗毅sen.wang @uq.edu.auhuang@itee.uq.edu.au，darrenzz219@gmail.com，lijin117@yeah.net摘要注释属性广义零次学习（GZSL）的目的是在假设某些类别在训练期间不可观察的情况为了弥合可见类和不可见类之间的差距，大多数GZSL方法试图将可见类的视觉特征与属性相关联，或者直接生成不可见样本。然而，在现有方法中使用的视觉特征不一定对共享的语义相关信息进行编码。语义无关的视觉特征，例如，耳朵形状条纹大尾巴肌肉食草动物北极树国内领域布什猎人潜行者觅食夜间长牙强海洋植被长腿毛茸茸的Strainteeth臭走得快慢双足动物肉活动垫爪子长颈蹄属性引用，这将模型泛化降级到看不见的类。为了解决这个问题，在本文中，我们提出了一种新的语义分解框架，用于广义零射击学习任务（SDGZSL），其中未见过类的视觉特征首先由条件VAE估计，然后分解为语义一致和语义无关的潜在向量。特别地，应用总相关惩罚来保证两个分解表示之间的独立性，并且其语义一致性由导出的关系网络来度量。在四个GZSL基准数据集上进行的大量实验由所提出的SDGZSL解开的语义一致特征在标准和广义零激发学习的任务中更可推广。我们的源代码可在https://github.com/uqzhichen/ SDGZSL上获得。1. 介绍人类有一种非凡的能力，可以在没有事先看到的情况下，根据先前的经验学习新的例如，给出斑马看起来像马但有黑白条纹的线索，如果他/她以前见过马，就可以很快认出斑马。然而，与人类不同的是，监督机器学习算法只能对属于在训练阶段已经出现的类的样本进行分类，并且它们不能处理来自以前未见过的样本图1：与注释属性无关的视觉特性（红框）的图示。从语义上不相关的这种视觉特征学习可能会危及模型泛化到看不见的类。类别这一挑战激发了通过从中间语义（例如，属性），其通常是指零激发学习（ZSL）。intro特别地，ZSL [19，34，1，17]的核心思想在于学习在语义空间和视觉空间之间映射特征，从而缩小可见和不可见类之间的差距虽然有效，但传统的ZSL技术是建立在测试集仅包含来自看不见的类的样本的假设上的，这在实践中可以容易地被破坏。因此，考虑一种称为广义零拍摄学习（GZSL）的新协议是更合理的，其中可见和不可见的图像都要被识别。现有的GZSL技术可以大致分为两种类型：基于嵌入的[9，34，22，21，13]和基于嵌入的[ 9，34，22，21，13 ]。基于生成的[38，35，28，24，15]方法。for- mer组学习投影或嵌入函数以将所看到的类的视觉特征与相应的语义向量相关联，而后者基于所看到的点和两个类的语义表示来学习用于未看到的类的视觉生成器。然而，大多数GZSL方法直接利用从预训练的深度模型中提取的视觉特征，例如8713作为ResNet101 [11]在ImageNet上预训练，这不是为ZSL任务量身定制的。在[31]中，观察到并不是提取的视觉特征的所有维度都与预定义的属性在语义上相关，这引发了学习语义视觉对齐的偏见，并导致对看不见的类的负迁移。给定来自图1中所示的AWA数据集的示例，尽管动物的耳朵的特征当对猫等看不见的类别进行一般化时，它们很容易被误分类为老虎，因为与“大、强、肌肉”概念相对应的视觉特征从这种情况下，我们相信GZSL将受益于使用可以与相应的语义属性一致地对齐的视觉特征我们将这种类型的视觉特征定义为语义一致的特征，这些特征对可见和不可见的类都是不可知的。相比之下，那些与手动注释的属性无关的视觉特征被定义为语义无关。为了从原始视觉空间中解开语义一致和语义不相关的特征，我们提出了一个新的框架，即用于广义零次学习的语义解开（SDGZSL），如图2所示。具体地，我们将提取的视觉特征的潜在信息分解为两个不相交的潜在向量hs和hn。它们是在具有关系模块和总相关惩罚的编码器-解码器架构中学习的。编码器网络将原始视觉特征投影到hs和hn。为了使h_s与语义嵌入保持一致，关系模块计算h_s与语义信息之间的相容性得分来指导h_s的学习。我们进一步应用全相关惩罚来加强HS和HN之间的独立性。之后，我们从两个潜在表征中重建原始视觉特征x¯。该重构目标确保两个潜在表示覆盖语义一致和语义不相关的信息。解缠模块被并入到条件变分自动编码器中并且以端到端的方式被训练。所提出的框架进行评估，各种GZSL基准，并取得更好的性能相比，国家的最先进的方法。本工作的主要贡献总结如下：• 我们提出了一个新的特征分解框架，即语义分解的广义零射击学习（SDGZSL），解开的视觉特征的潜在信息到两个潜在的代表，这是语义一致和语义无关，分别。与直接使用从预先训练的CNN模型提取的纠缠视觉特征相比，利用语义一致的表示可以显著提高GZSL的性能。• 为了促进语义一致和语义不相关的表示的特征解纠缠，通过在我们的框架中引入总相关性惩罚，我们达到了语义注释特征的更准确的表征。• 在四个基准数据集上进行的大量实验证明，该方法的性能优于最先进的方法。2. 相关工作最近国家的最先进的方法GZSL使用generative模型已经取得了可喜的成绩。生成模型可以从看不见的类的边信息合成无限数量的视觉特征，例如，手动注释属性。有了这些综合的特征，ZSL问题成为一个相对直接的监督分类任务。两种最常用的生成模型是生成对抗网络（GAN）[10]和变分自编码器（VAE）[14]。通常，这两种模型共同用于形成ZSL任务的生成架构。 f-CLSWGAN[35] 利用 WassersteinGAN（WGAN）[3]来合成生动的视觉特征。CADA-VAE[28]利用两个对齐的变分自动编码器来学习不同模态之间的共享潜在SE-ZSL [18]采用一个自动编码器，然后是一个属性回归器来训练一个具有三个对齐的模型：视觉到属性、属性到视觉和视觉到属性。E-PGN[37]通过将视觉原型生成和类语义推断公式化到对抗框架中，将元学习方法集成到ZSL中。TF-VAEGAN[24]在VAE-GAN模型中提出了一个反馈模块，以调制生成器的潜在表示。然而，CNN视觉特征包含语义无关的信息，例如，背景噪声和未注释的特征，这可能会危及语义-视觉对齐，我们建议分解出语义无关的特征，并利用剩余的语义一致的特征作为生成目标。在大多数文献中，解纠缠是指一个表示的特征之间的独立性[4，7，12，5]。总相关性[33]是多个随机变量独立性的度量。在信息论中，总相关是互信息对随机变量的许多推广之一。它已成为近年来解缠结方法中的关键组分。Fac-torVAE [16]提出通过使表示的分布为阶乘来解开特征，从而实现跨维度的独立性。具体而言，维度独立性是通过在原始表示及其随机排列表示上应用总相关性惩罚来实现的。相反，我们的目标是加强8714（一）}（一）i=1{X Y}联系我们（j）}（j）j=1AAk=1A{}∩联系我们Su图2：我们提出的SDGZSL的说明，包括：（i）用于视觉特征生成的条件VAE模型（在橙色框中）;（ii）解开模块以学习两个因子分解的潜在表示（在绿色框中）。特别地，学习推理网络Q以从可见样本的视觉特征X和语义嵌入a推断潜在变量z，其中z然后被应用以恢复不可见的视觉特征。编码器E随后被训练以分解语义一致的h_s和语义不相关的h_n表示，并且它们之间的独立性由总相关性惩罚来保证。通过将hs与随机语义向量a连接，导出的关系模块R将匹配的对与不匹配的对区分开，从而迫使hs在语义上相关。两个表示而不是保持每个维度彼此独立。据我们所知，DLFZRL3.1. 预赛假设{Xs，Ys}是具有S个可见类的数据集，其中[31]这是唯一一个考虑特征分离的工作为ZSL的glingDLFZRL提出了一种分层的二齿-包含Ns个训练样本Xs={xsNsi=1 和核心-gling方法来学习有区别的潜在特征。该方法以两步方式设计，从特征选择开始，然后学习生成所选择的特征。原始视觉特征被分解为三个潜在表征，包括语义、非响应类标签Ys={ys}N。类别标签从1跨越到S，ysLs= 1，…S.给定另一数据集u，u，其中类与所见数据集相关（例如，两个数据集中的所有类别都对应于动物）。数据集有U个不可见的类，包括语义和非歧视性特征。但是我们...Nu个数据实例Xu={XuNuj=1 与相应的认为非语义视觉特征与语义嵌入不一致。因此，很难将非语义视觉特征从可见的类转移到不可见的类。在我们的方法中，我们过滤掉这种非语义的视觉特征。此外，我们结合了生成模型和解开模块，以便我们的方法可以以端到端的方式进行训练。3. 该方法本节首先介绍问题公式和符号，然后描述GZSL的因子化语义一致表示的建议方法标签Yu={y u}N。因此，类别标签的范围从S +1到S +U，y uLu= S +1，… S +U。可见类和不可见类是互斥的，即， LsLu=。对于语义信息=a（k）S+U，来自可见和不可见两者的每个类与类级语义向量相关联，所述类级语义向量可以是嵌入或属性。我们将s和u表示为可见类和不可见类的语义向量。3.2. 语义解纠缠我们首先定义了三个概念，在GZSL关注的视觉特征和语义信息。特征生成骨干变分解码器P解开解码器D+...图像鉴别器Dis语义解缠兼容性评分分批排列关系模块R解开编码器E总相关变分编码器Q8715一转Σ}ΣΣ转不超过∼|（吨）1，y（t）语义一致的表示。我们定义语义一致的表示来表示用属性注释的图像的特征。图像的视觉特征由深度模型提取，ResNet101，在ImageNet上预训练。这些视觉特征对于ZSL数据集不是特定于任务的，其中类通常是相关的（例如，它们都对应于鸟类）。因此，提取的视觉特征可能意外地涉及可能损害语义-视觉关系学习的冗余信息。ZSL的最佳解决方案是基于属性的学习，它包括引入中间语义空间。这样的空间使得能够在类之间共享参数。理想情况下，如果视觉特征仅包含与注释属性hs相对应的信息，则可以从可见的类中适当地学习视觉语义关系，并进一步将其转移到不可见的类，这可能对GZSL任务有利。语义无关的表示。与h类似，我们也就是说，D ω：Rl+mRd.重建目标可以公式化为：Lrec=x−Dω（hs，hn）2，（2）x∈Xs其中，我们计算原始视觉特征x和重建视觉特征x¯=Dω（hs，hn）之间的均方误差。3.2.2语义-视觉关系学习采用关系网络（RN）[30]通过最大化潜在表示hs和相应的语义嵌入as之间的兼容性得分（CS）来学习语义一致的表示h s。关系模块Rk学习潜在表示和语义向量之间的成对关系。Rκ的输入是一对潜在表示hs和Nc唯一定义语义无关的视觉表示hn代表语义嵌入Abatch={a（c）第（1）款Ncc=1 从训练重新发送视觉特征中包含的信息，这些信息可能有助于分类，但不对应于注释属性，例如，在图1中，耳朵形状是直观地显示的。有助于区分动物batch训练实例。匹配对的地面实况CS被设置为1;失配对为0，其可以公式化为：但不出现在注释属性中。h之间的独立性S. 在GZSL中，核心错误-和hnCS（h、a） =.0，y（t）y（c）（c）第（1）款、（3）目的是将视觉与语义的关系从视觉看不见的班级然而，由于hn的视觉概念与手动注释的语义信息不一致，因此难以将语义空间的在H和H的定义中，其中t和c是指训练批次中的第t个语义一致的表示和第c个唯一语义嵌入，y（t）和y（c）表示h（t）和a（c）的类标签。利用等式3中定义的CS，我们现在用公式表示语义嵌入A批和A批的损失函数。GZSL的设置，视觉特征可以被分解为语义一致的h_s和语义不相关的h_n表示。为了实现这一点，我们强制独立在hs和hn之间。独立性可以通过互信息来度量，并且总相关性是其中之一语义一致的信息。关系模Rκ使用Sigmoid激活函数，输出每对的学习用于优化的损失函数然后可以被公式化为：CB N互信息的一般化。因此，我们的目标是通过利用总相关性来最小化两种表示Lhs =Rκ（hs（t），a（c））−CS（hs（t），a（c））2，（4）t=1c =1以测量hs和hn如何独立。3.2.1 通过重建解缠模块开发的编码器-解码器架构，加上总相关惩罚和关系模块。采用用Φ参数化的编码器E Φ来将视觉特征向量X映射到潜在表示h，即，其中l和m是语义一致和语义不相关的表示的维度。然后，我们有：Eψ（x）=h=[hs，hn].（1）为了保留h中的视觉特征，解码器D ω被学习以将h变换为原始视觉特征x，在这里我们计算出输出和输出之间的均方误差将每对hs（t）和a（c）的兼容性得分以及地面实况放在每个单个训练批次中。通常，我们将Nc B作为一个类，其可以在一个批次中包含许多采样的视觉特征向量。3.2.3 总相关惩罚为了鼓励语义一致的HS和语义无关的HN表示之间的解开，我们在我们提出的方法中引入了总相关在编码过程中，潜在的表示hγ（hx）预期包含两者语义一致和语义不相关的信息。因此，这两个人（c）第（1）款=y8716- -{X Y} A（吨）←LL L LL}（吨），{aL L LL← L.Σ≈.Σ||||t=1t=1t=1B{}Bt=1t=1t=1SLL× →→（一）}i=1{hS← L信息流对于有意义的表征学习是至关重要的。随着促进语义一致表示学习的关系网络，我们的目标是通过鼓励算法1SDGZSL训练输入：s，s，s，学习率λ初始化：和W=φ，θ，ψ，ω，κ1：不收敛时Hn和Hs之间的解缠结。从概率2：随机选择批次{xsS（吨）Bt=1S（c）第（1）款Ncc=1从这个角度来看，我们可以认为它们都来自不同的条件分布：3：对于步长= 0，…恩迪斯多4：用等式φ，θ，ψ计算h ′和h 一个hs γ1（hs|x）， hnγ2（hn|X）。（五）5：h¯和h的向量置换6：通过等式计算λ3Ldis八个因此，对于两个潜在表示，总相关性可以公式化为：TC= KL（γ||γ1·γ2），（6）其中γ：= γ（hs，hn|x）是联合条件概率7：更新+λλ3dis8：计算总体1 =cVAE +rec +λ1hs等式九二四9：更新WW+λW整体110：结束C，yH-S能力Hn. 为了有效地逼近11：随机选择批次{xsS（吨）Bt=1S（c）第（1）款Nc=1总相关性，我们应用密度比估计以对抗的方式区分来自两个分布的样本构造鉴别器Dis以输出概率Dis（h）的估计，其输入是独立的。因此，在本发明中，12：计算总体2 =cVAE +rec + λ1hs+λ2TC，等式九二四七13：更新WW+λW整体214：end while输出：训练的生成网络Pθ和编码器EψTC=Eγ日志γEγ1·γ2logDis（h），（7）1 −Dis（h）其中，第一项是两个离散点之间的KL散度。其中近似值在附录A中推导。同时，我们训练鉴别器Dis以最大化将正确标签分配给h和h~的概率：Ldis=l〇gDis（h） +l〇g（1-Dis（h~）），（8）其中h~是通过随机置换每个hs的结果和Hn。置换过程是de-（1）给定一批隐表示{h（t）}B;（2）将它们分解为{hs（t）}B和第一项是重构损失，第二项是重构损失。如图2所示，我们使用Q φ和P θ分别表示推理和生成器网络，以建模qφ（z x，a）和p θ（z a）。具体来说，给定视觉特征x和语义嵌入a，推理网络Qφ产生潜在变量z。生成器网络P θ利用推断出的潜在变量z和类嵌入a来重构视觉特征。重建的和原始的视觉特征x，x被馈送到解缠模块中。{hn（t）}B（3）对于h_s和h_n，我们置换批处理3.4.训练和推理索引在=1，...，B，产生′和′′;(4)用置换的索引，重新排序潜在表示-算法1示出了模型训练的伪代码tations{hsB'（t）}BB{h~ （t）} .，{hnB”⑴}B并将它们ing.我们使用整体框架迭代训练Disn个dis步骤，然后固定Dis中的权重来训练其他组件。在算法1中，3.3.视觉特征生成为了对以语义信息为条件的视觉特征的分布进行建模，我们利用条件变分自动编码器（cVAE）[29]作为生成模型。在GZSL中，我们的目标是将知识从可见的类转移到其他一些不可见的类。因此，我们将cVAE中的类别信息表示为类嵌入。hs、TC和dis表示为λ1、λ2和λ3。一旦SDGZSL的训练收敛，未见过的类的语义一致表示h'u可以由生成网络P θ和从高斯噪声z和未见过的语义嵌入au中分离编码器E ψ生成，即，P θ：Rz RkRd，E ψ：RdRl+m。 z表示潜在变量z的维数。然后，dingsa以启用类之间的参数共享。的我们将训练可见特征{xsNsi=1 成然后，我们的框架中的cVAE的目标函数可以ss（i），y}，{a}}γ射线8717}Ns，连同所生成的不可见语义-可以写成：LcVAE=−KL[q φ（z|x，a）||p θ（z|（a）]+Eqφ（z|x，a）[log p θ（x|z，a）]，（9）一致的表示，我们可以简单地训练一个超级分类器。可以通过监督分类来进行对可见或不可见对象的进一步预测在我们的论文中，采用Softmax分类器进行评估。8718†‡表1：四个数据集的准确度（%）的性能比较我们报告的精度看不见，看到的类和他们的调和平均GZSL，这是表示为U，S和H。对于ZSL，性能结果以平均top-1分类准确度（T1）报告T1和H的前两个结果以粗体突出显示。并分别表示基于嵌入的方法和生成方法。*表示使用了微调的主干。aPaY AWA CUB FLO4. 实验4.1. 实验环境数据集在四个广泛使用的图像分类基准数据集上评估了所提出的框架，包括两个粗粒度数据集（AttributePascal和Yahoo（aPaY）[8]和Animals with Attributes 2（AWA）[19]）和两个细粒度数据集（Caltech-UCSDBirds- 200-2011 （ CUB ） [32] 和 Oxford Flowers（FLO）[25]）。apaY包含来自42个类的18，627个图像，并使用64个属性进行注释。它结合了数据集a-Pascal和a-Yahoo，分别有30个和12个类AWA是一个相对较大的粗粒度数据集，包含来自50个动物物种的30，475张图像，其中40张被选为可见类，其余的是不可见的。数据集中的每个物种都用85个属性进行注释CUB由11，788张来自细粒度鸟类的图像组成FLO包含102个花卉类别，其中82个可见类别和20个不可见类别。FLO和CUB的语义嵌入是从细粒度视觉描述（每张图像10个句子）中提取的1，024维基于字符的CNN-RNN特征[26]用于评估GZSL任务的度量是调和平均值，其计算可见和不可见类的联合准确度用于计算调和平均值H的公式可以写为：H=（2×U×S）/（U+S），其中U和S表示平均值。图3：hs、hn和h之间的GZSL准确度（%）比较。erage每类前1的准确性看不见的和看到的类，分别。高调和平均值指示可见和不可见类两者的良好4.2. 与最先进方法的表1显示了比较方法和我们的GZSL性能，有和没有微调数据集上我们选择最近的国家-基于嵌入和生成的方法。它们分别用†和‡标记。一般来说，我们的亲方法T1USHT1USHT1USHT1USHLFGAA [22]----68.127.093.441.967.636.280.950.0----DCN [21]43.614.275.023.965.225.584.239.156.228.460.738.7----†[23]第二十三话38.9-24.132.664.058.335.141.871.2-61.263.665.870.863.467.059.5-52.653.252.060.252.356.5--------f-CLSWGAN [35]40.532.961.742.965.356.165.560.457.343.757.749.769.659.073.865.6加拿大[6]----68.949.770.258.260.647.958.152.569.758.277.666.5LisGAN [20]43.134.368.245.770.652.676.362.358.846.557.951.669.657.783.868.3CADA-VAE[28]-31.755.140.364.055.875.063.960.451.653.552.465.251.675.661.3‡f-VAEGAN-D2DLFZRL [31]-46.7-----38.571.170.357.6-70.6-63.560.961.061.848.4-60.1-53.651.967.7-56.8-74.9-64.6-[24]第二十四话----72.259.875.166.664.952.864.758.170.862.584.171.7[24]第二十四话----73.455.583.666.774.363.879.370.774.769.592.579.4OCD-CVAE [5]----71.359.573.465.760.344.859.951.3----E-PGN [37]----73.452.683.564.672.452.061.156.285.771.582.276.5AGZSL [37]41.035.165.545.773.865.178.971.357.241.449.745.282.763.594.075.7AGZSL* [37]43.736.258.644.876.469.086.576.877.269.276.472.685.273.791.981.7cVAE39.230.255.339.065.454.472.662.261.447.059.952.768.760.189.671.9SDGZSL，不带RNTC20.314.637.021.057.541.370.051.942.325.154.734.567.556.687.668.7SDGZSL，不含TC39.833.849.140.054.045.779.458.027.423.646.231.257.544.865.753.3SDGZSL，不带RN30.927.341.933.155.848.564.655.530.420.831.425.053.240.667.650.7SDGZSL45.438.057.445.772.164.673.668.875.559.966.463.085.483.390.286.6SDGZSL*47.039.160.747.574.369.678.273.778.573.077.575.186.986.189.187.88719马海豚海象鼠长颈鹿图4：cVAE和SDGZSL之间的零激发图像检索结果比较。除了AWA数据集外，提出的方法始终优于所有比较方法这些方法直接使用从预训练或微调的ResNet101模型中提取的视觉特征这项工作的直觉与DLFZRL [31]一致，我们都旨在从视觉特征中分离出更有效的表示。DLFZRL提出将区分性特征与视觉特征（语义和非语义）分离。然而，我们认为，非语义的歧视性功能不能从看不见的类转移到看不见的类。条件生成模型学习将语义向量投影到视觉空间，但直观地说，没有办法从语义角度概括非语义区分特征从性能比较中可以看出，我们的方法在所有报告的数据集上都超过了DLFZRL。我们的方法也适用于上述生成方法。值得一提的是，与在两阶段过程中设计的DFLZRL不同，我们通过将解缠模块合并到生成模型中来仔细设计我们的框架，以便可以以端到端的方式训练整个框架。4.3. 常规零触发学习结果我们的目标是解决广义零杆学习问题，在这项工作中，但有必要证明，我们的方法也可以实现国家的最先进的性能对传统的零杆学习，只旨在类，sify看不见的类样本看不见的类。表1中所示的结果证明了我们提出的SDGZSL方法与现有技术模型之间的性能可以看出，我们的方法在CUB和FLO数据集上的性能优于所有其他方法。即使DLFZRL在aPaY数据集上略高于我们的方法，我们也可以在所有其他数据集上超过它。这与数据集AWA上的E-PGN的情况相同。图5：我们在AwA上的方法的定性结果，其中六个随机的看不见的类标签显示在顶部。前3个检索到的图像以绿色突出显示，前3个检索到的错误示例以红色突出显示。4.4. 零炮回收结果我们进行的图像检索任务，以说明所提出的框架的定性结果给定特定类的语义嵌入，我们为特定类合成一定数量的语义一致表示，为了评估检索样本的性能，采用平均精度（mAP）得分。在图4中，我们将我们提出的SDGZSL方法与基础生成模型cVAE进行了比较，分别从aPaY、AWA、CUB和FLO上的所有不可见类中检索100%、50%和25%的图像。可以看出，解缠模块可以显著提高所有设置中的检索性能，这也可以从检索角度证明解缠模块的有效性图5示出了在AWA数据集上检索到的示例类名称在顶部给出，后面是具有绿色框的前3个真阳性检索图像和具有红色框的前3个假阳性检索示例。可以看出，所有假阳性图像看起来与地面实况示例非常相似。例如，大鼠的前3个失败的再试验样品都是蝙蝠，因为这两个物种具有许多共同的视觉模式。因此，基于最近邻的检索可能无法区分假阳性情况。结果表明，合成的语义一致的表示是接近的语义一致的特征空间中的同类样本。8720图6：超参数研究w.r.t.潜在维度1、关系权重λ1、TC权重λ2和鉴别器权重λ3。（一）（b）第（1）款图7：CUB上50个不可见类的不同表示的t-SNE可视化：（a）语义一致的表示h_s;（b）语义不相关的表示h_n。4.5. 模型分析消融研究。在该消融研究中，我们评估了我们提出的完整模型的各种简化版本，以验证模型的关键解缠组件的贡献在表1中，我们报告了四个基准数据集上每个版本的GZSL性能。当RN和TC都被应用时，实现最佳性能。在图3中，我们显示了hs、hn和h之间的性能比较。从对所有数据集的观察来看，语义无关特征hn的表现比原始潜在特征h差得多，这证明了在GZSL中hn的无效性。相比之下，使用语义一致的特征hs可以进一步提高性能，这验证了当将语义表示与语义无关的表示之间的连接从GZSL中的可见类转移到不可见类时h s的显著影响。值得注意的是，当取hs和hn两者时（即，h）对测试样品进行分类，性能与cVAE相似。超参数灵敏度。控制目标函数的超参数主要有四个，包括解纠缠特征维数l、总相关项的权重λ1、关系模块中损失的权重λ2和判别器损失的权重λ3。为了更好地理解解缠分量的效果，我们在图6中报告了四个超参数的灵敏度。t-SNE可视化。为了进一步验证解纠缠的性质，我们在图7（a）中可视化来自X的语义一致的表示h_s，并且在⑹中可视化来自X的语义不相关的表示h_n。我们从CUB数据集中选择所有50个看不见的类，这些类有足够的类来显示类的比较。显然，如我们所预期的，语义一致的表示h_s比语义不相关的表示h_n更具区分性。然而，我们仍然可以从h n中看到区分模式，因为存在剩余的区分特征，即使它们是语义无关的，例如，在属性中未注释的字符。我们认为，这些歧视性的功能，可以帮助这些类之间的分类，但由于非语义歧视性的特征没有注释的属性，它是直观的 im-possible转移的语义视觉关系，从看到的类看不见的类。5. 结论在本文中，我们提出了一种新的语义 disentang-gling方法广义零射击学习。具体地，从预训练的ResNet101提取的图像的视觉特征被进一步分解为语义一致和语义不相关的两个独立的表示。在我们的方法中，一个编码器-解码器的架构与一个关系模块相结合，学习的视觉语义交互。此外，我们利用总相关项，以鼓励两个表示之间解纠缠编码器-解码器模型被并入到条件变分自动编码器中在可见类上训练的生成能力被转移到不可见类，并合成缺失的视觉样本。我们在四个图像分类数据集上评估了我们提出的方法。大量的实验表明，我们的方法始终比其他国家的艺术表现更好。致谢：本研究得到了澳大利亚研究委员会DP190101985、CE200100025、DE200101610和四川省科技计划2020YFG0080的部分支持。8721引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特标签-用于图像分类的嵌入。TPAMI，第1425- 1438页，2015年。一、十、十一[2] Z. Akata、S.里德D.沃尔特，H. Lee和B.席勒细粒度图像分类的输出嵌入评估。在CVPR，第2927-2936页，2015年。十一个[3] M. Arjovsky，S.Chintala和L.博图Wasserstein生成对抗网络。在ICML，第214-223页，2017年。2[4] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新的视角。TPAMI，第1798-1828页，2013年。二个[5] R. T. Chen，X.利河，巴西-地B. Grosse和D.K. 杜弗诺变分自动编码器中解纠缠的隔离源。NeurIPS，2018。二个[6] Z.陈建，李玉. Luo，Z. Huang和Y.杨Canzsl：Cycle-consistent adversarial networks for zero-shot learning fromnatural language.在WACV，第874-883页，2020中。六个[7] C. Eastwood和C.K. 威廉姆斯解纠缠表征的定量评价框架在ICLR，2018年。二个[8] A. 法尔哈迪岛Endres、D.Hoiem和D.福赛斯按属性描述对象在CVPR，第17786[9] A.弗罗姆，G。S. Corrado，J. Shlens，S. Bengio，J.Dean，M. Ranzato和T.米科洛夫Devise：一个深度视觉语义嵌入模型。在NeurIPS，第2121-2129页，2013中。1、11[10] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NeurIPS，第27卷，2014中。二个[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。二个[12] I. 希金斯湖，澳-地 Matthey，A. 帕尔角 Burgess，X.格洛特M. Botvinick，S. Mohamed和A. Lerchner beta-vae：使用受约束的变分框架学习基本视觉概念2016. 二个[13] H.江河，巴西-地Wang，S. Shan和X.尘用于广义零激发学习的可转移对比网络在ICCV，第9765-9774页1、6[14] 迪德里克山口K. Max W.自动编码变分贝叶斯。见ICLR，2014年。二个[15] R.凯沙里河Singh和M. Vatsa.基于过完备分布的广义零触发学习。在CVPR中，第13300-13308页，2020年。1、6[16] H. Kim和A.嗯通过因子分解来解开在ICML，第2649-2658页二个[17] E. Kodirov，T. Xiang和S.龚用于零触发学习的语义自动编码器在CVPR中，第3174-3183页，2017年。1、11[18] 诉Kumar Verma，G.Arora，A.Mishra和P.荷伊通过合成的示例进行一般化的零触发学习。在CVPR中，第4281-4289页，2018年。二个[19] C. H Lampert，H. Nickisch和S.伤害。基于属性的分类，用于零镜头视觉对象分类。TPAMI，第453-465页，2013。1、6、11[20] J.李，M. Jin，K. Lu，Z.丁湖，澳-地Zhu和Z.煌杠杆化生成式零触发学习的不变侧。在CVPR中，第7402-7411页，2019年。六个[21] S. Liu，M. Long，J. Wang，and M. I.约旦. 具有深度校准网络的一般化零触发学习。在NeurIPS，第2005-2015页，2018年。1、6[22] Y. Liu，J. Guo，D. Cai和X.他外零射击学习中语义消歧的属性注意力。在CVPR中，第6698-6707页，2019年。1、6[23] S.敏，H. Yao，H. Xie C. Wang， Z. J.Zha和Y.张某广义零拍学习的领域感知视觉偏差消除。在CVPR中，第12664-12673页，2020年。六个[24] S. Narayan，A.古普塔F.S. 汗角，澳-地G. Snoek和L.邵用于零激发分类的潜在嵌入反馈和判别特征。在ECCV，第479-495页，2020中。一、二、六[25] M. E. Nilsback和A.齐瑟曼。对大量类进行自动花分类印度计算机视觉会议，图形图像处理，2008年。六个[26] S. Reed，Z. Akata，H. Lee和B.席勒学习细粒度视觉描述的深度表示在CVPR，第49-58页六个[27] B. Romera P.和P.乇一个令人尴尬的简单的方法零射击学习。在ICML，第2152-2161页，2015中。十一个[28] E. Schonfeld，S.Ebrahimi，S.Sinha，T.Darrell和Z.赤田通过对齐的变分自动编码器进行广义零次和少次学习。在CVPR中，第8247一、二、六[29] K. Sohn，H. Lee和X.燕.使用深度条件生成模型学习结构化输出表示。在NeurIPS，第3483-3491页，2015中。五个[30] F. Sung，Y.扬湖，澳-地Zhang，T.Xiang，山核桃P.H.Torr和T.M.医院学习比较：用于少拍学习的关系网络在CVPR中，第1199-1208页，2018年。四个[31] B.通角，澳-地Wang，M. Klinkigt，Y. Kobayashi和Y.非aka。零激发学习的区分性潜在特征的分层解缠。在CVPR中，第11467- 11476页，2019年。二三六七[32] C. Wah，S.Branson，P.r Welinder，P.Perona和S.贝隆吉加州理工学院-ucsd鸟类-200-2011数据集。 2011. 六个[33] S. 渡边多元相关的信息论分析IBM J. Res. Dev，第66-82页，1960年。二个[34] Y.西安Z. Akata，G. Sharma，Q.阮，M。Hein和B.席勒零触发分类的潜在嵌入。在CVPR，第69-77页，2016年。1、11[35] Y. Xian，T.洛伦茨湾Schiele和Z.赤田用于零触发学习的特征生成网络在CVPR中，第5542一、二、六[36] Y. Xian，S.夏尔马湾Schiele，and Z Akata. f-vaegan-d2：一个用于任意镜头学习的特征生成框架。在CVPR中，第10275-10284页，2019年。六个[37] Y. Yu，Z. Ji，J.Han和Z.张某基于情节的原型生成网络的零射击学习。在CVPR中，第14035-14044页，2020年。二、六[38] Y. Zhu，M.埃尔霍塞尼湾Liu，X.Peng和A.埃尔加马尔一种从噪声文本中进行零射击学习的生成对抗方法。在CVPR中，第1004-1013页，2018年。一个

下载后可阅读完整内容，剩余1页未读，立即下载