自蒸馏嵌入和对比生成用于广义零样本学习

41 浏览量更新于2023-10-26 收藏 15.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

93060En-Compactness: 自蒸馏嵌入和对比生成用于广义零样本学习0Xia Kong 1 Zuodong Gao 1 Xiaofan Li 1 Ming Hong 10Jun Liu 2 Chengjie Wang 2 Yuan Xie 3 † Yanyun Qu 1 †01 厦门大学信息学院，中国福建 2 腾讯优图实验室 3华东师范大学计算机科学与技术学院，中国上海0kongxia@stu.xmu.edu.cn, {junsenselee, jasoncjwang}@tencent.com0yxie@cs.ecnu.edu.cn, yyqu@xmu.edu.cn0摘要广义零样本学习（GZSL）需要一个在已知类上训练的分类器，能够识别来自已知类和未知类的对象。由于缺乏未知类的训练样本，分类器往往会偏向已知类。为了缓解这个问题，提出了基于特征生成的模型来合成未知类的视觉特征。然而，这些特征是在视觉特征空间中生成的，缺乏辨别能力。因此，一些方法转而寻找更好的嵌入空间进行分类器训练。他们强调已知类之间的类间关系，导致嵌入空间过度拟合已知类并对未知类不友好。相反，在本文中，我们提出了一种用于GZSL的类内紧凑性增强方法（ICCE）。我们的ICCE在嵌入空间和视觉特征空间中促进了已知类和未知类的类内紧凑性和类间可分性。通过促进类内关系而不是类间结构，我们可以更好地区分不同的类。具体而言，我们提出了自蒸馏嵌入（SDE）模块和语义-视觉对比生成（SVCG）模块。前者在嵌入空间中促进了类内紧凑性，而后者在视觉特征空间中实现了类内紧凑性。实验证明，我们的ICCE在四个数据集上优于现有方法，并在剩余数据集上取得了竞争性的结果。1. 引言0依赖大量标记数据的图像分类任务[6, 16,23]由于深度学习[13, 21,55]的进步取得了巨大的进展。然而，深度模型对数据的需求导致它们在某些类别上的表现不尽如人意。0† 通讯作者。0图1. 本文的动机。 (a)CE-GZSL等现有方法为已知类生成具有辨别性的嵌入，但为未知类生成分散的嵌入。 (b)我们的ICCE在嵌入空间中促进了已知类和未知类的类内紧凑性和类间可分性。0由于缺乏标记数据，甚至没有标记数据[47]。零样本学习（ZSL）[24,35]是通过识别来自未知类的对象来解决这个数据缺失问题。他们首先在已知类上学习一个分类模型，其中提供了训练样本，然后使用类级语义描述符[10, 24, 31,32]将模型转移到未知类，例如视觉属性[10,24]或词向量[31,32]。与ZSL不同，广义零样本学习（GZSL）[7,50]被提出来识别来自已知类和未知类的测试样本，这更具挑战性。由于训练集只包含已知类样本，在测试过程中，GZSL方法倾向于将未知类样本错误分类为已知类，这是普遍存在的强偏见问题。最近，基于特征生成的GZSL方法[11，014, 15, 26, 28,38]已经提出通过在语义描述符的条件下合成未知类的训练样本来缓解强偏见问题。将真实的已知类训练特征和合成的未知类特征合并Generalized Zero-Shot Learning (GZSL). Zero-ShotLearning (ZSL) aims to train a classiﬁer on seen classes torecognize objects from unseen classes absent in the trainingset. Provided with the semantic descriptors of both seenand unseen classes, earlier ZSL methods [24, 37, 49, 59]relate them with visual features in an embedding space.They recognize unseen samples by searching their nearestclass-level semantic descriptor in this embedding space.Unlike ZSL, which only recognizes unseen classes samplesin the test phase, the more challenging GZSL has beenproposed to identify test samples from both seen andunseen classes.However, due to the imbalanced natureof ZSL, the early ZSL methods tend to bias towards seenclasses under the GZSL scenario.To relieve the biasproblem, some methods [3,7,29] design new loss functionsto balance the predictions between seen and unseen classes,while others [9, 22, 30] solve the GZSL problem byregarding it as an out-of-distribution detection problem.Recently, feature generation based methods have beenproposed to synthesize unseen classes features conditionedon the semantic descriptors [26,28,39,51]. After that, theycombine the generated unseen samples and the real seensamples to train a softmax classiﬁer.Speciﬁcally, RFF-GZSL [15] and CE-GZSL [14] conjecture that the visualfeature space lacks of discriminative ability and searchesfor a new embedding space for GZSL classiﬁer training.However, these methods both construct the embeddingspace based on the class relevance of seen classes. As aresult, the embedding spaces are overﬁtted to seen classes,leading to inferior generalization ability on unseen classes.Instead, we reinforce the intra-class relationships but theinter-class structures.Knowledge Distillation. Knowledge distillation [17] aimsto train a smaller student network by mimicking a pre-trained complex teacher network. The pioneering work [17]is proposed to optimize the student network by encour-aging the student to mimic the teacher’s output logits,while follow-up studies utilize other learning objectives,i.e., consistency on feature maps [18] and maximizingthe mutual information [42].Recently, self-knowledgedistillation has been proposed in some image classiﬁcation93070通过生成特征，他们获得了一个完全观察到的数据集，用于训练GZSL分类模型，比如softmax分类器。早期的特征生成方法[11, 26, 28,38]在视觉特征空间中合成特征，这些特征缺乏辨别能力[8,14]。最近，一些方法[14,15]基于类间关系寻找新的嵌入空间进行GZSL分类器训练。具体而言，RFF-GZSL[15]将视觉特征映射到一个无冗余空间，并使用中心损失[48]加强该空间中已知类之间的关系。CE-GZSL[14]通过实例级和类级对比监督来提高嵌入空间的辨别能力。然而，在上述方法中，嵌入空间严格受到已知类之间的关系的约束，这对于合成的未知类特征是不友好的。此外，未知类的合成特征具有各种分布，因此将它们映射到嵌入空间将形成混乱的分布。如图1(a)所示，已知类的嵌入具有较大的类间距离，而未知类的嵌入重叠且缺乏辨别能力。因此，在这种嵌入空间中训练GZSL分类器将导致性能较差。相反，由于类内关系是与类无关的，如果我们加强这些已知类的类内关系，嵌入空间也可以分离不同的类，但对未知类具有更好的泛化能力。如图1(b)所示，虽然类间关系没有严格限制，但紧凑的类内分布可以帮助所有类（已知和未知）彼此区分。在本文中，我们提出了一种用于GZSL的类内紧凑性增强方法（ICCE）。我们的ICCE在嵌入空间和视觉特征空间中促进了已知类和未知类的类内紧凑性和类间可分性。通过更加强调类内关系而不是类间结构，我们可以更好地区分不同的类。具体而言，我们通过一个自蒸馏嵌入（SDE）模块和一个语义-视觉对比生成（SVCG）模块产生紧凑的类内分布。SDE模块采用师生结构，对来自同一类的两个不同样本之间的表示和预测的logits进行对齐。使用SDE，我们可以减少类内变化，并在嵌入空间中为每个类获得紧凑的分布。SVCG模块是一个条件GAN，它使用实例级语义-视觉对比损失在视觉特征空间中为未知类合成紧凑的分布特征。实验证明，我们的ICCE在四个数据集上优于现有方法，并在剩余数据集上取得了竞争性的结果。0广义零样本学习（GZSL）的内类紧凑性增强方法（ICCE）。我们的ICCE在嵌入空间和视觉特征空间中促进了已见类和未见类的内类紧凑性和类间可分性；（2）我们提出了一种自我蒸馏嵌入（SDE）模块，通过表示蒸馏损失和归一化的logits蒸馏损失来学习内类紧凑的嵌入空间；（3）我们提出了一种语义-视觉对比生成（SVCG）模块，通过实例级的语义-视觉对比损失来合成未见类的紧凑内类分布特征。2. 相关工作BrownTailFurryEEHHCCNtttsssResNet101GDxi~iai( , )0 IMammalxiaiwganiI+iINSceS+ix+izixiqiqivizivivivipDiscriminatorDCHsHtCsCt93080（ii）归一化的logits蒸馏（i）表示蒸馏0自我蒸馏嵌入模块0语义-视觉对比生成模块0教师学生0教师/学生嵌入函数0ip0教师/学生线性投影器0教师/学生分类器0动量更新0N L2归一化0S Softmax0连接0教师流程0学生流程0生成器流程0svc Λ0t Es E0C0C0rd Λ0图2.所提出的ICCE的架构。它包含一个自我蒸馏嵌入（SDE）模块和一个语义-视觉对比生成（SVCG）模块。SDE包含一个教师-学生架构，使用表示蒸馏损失（Lrd）和归一化对数蒸馏损失（Lnld）学习类内紧凑分布。SVCG是一个条件GAN，使用一种新颖的实例级语义-视觉对比损失（Lsvc）合成紧凑分布的视觉特征。0工作[5, 54,58]。自我蒸馏机制通过利用学生网络的知识来增强其训练效果。例如，[54]在同一训练数据的不同扭曲版本之间传递知识。[5]通过预测来自学生网络过去迭代的教师网络的输出来简化自监督训练。我们遵循[5]中的教师更新策略构建自我蒸馏模块，并通过对来自同一类别的两个样本的特征分布和概率分布进行对齐，减少类内变化。03. 广义零样本学习的自我蒸馏嵌入0如图2所示，我们的ICCE包含一个自我蒸馏嵌入（SDE）模块，用于学习紧凑的类内嵌入空间，以及一个语义-视觉对比生成（SVCG）模块，用于合成紧凑分布的视觉特征。在本节中，我们定义了广义零样本学习问题，并介绍了ICCE的SDE和SVCG。03.1. 问题定义0在零样本学习中，我们有两组类别：已知类别Ys中的S个类别和未知类别Yu中的U个类别，且Ys∩Yu=�。我们0定义一个训练集Dtr={(xi,yi)}Ni=1，其中包含N个标记实例，xi是特征向量，yi是来自已知类别Ys的相应标签。测试集Dte={xi}Ni+Mi=N+1有M个未标记实例。在传统的零样本学习中，Dte中的实例仅来自未知类别Yu。在广义零样本学习中，测试样本来自已知类别和未知类别。同时，还提供了与S个已知类别和U个未知类别相对应的类级语义描述符（属性）A={ai}Si=1。在两种不同的设置（零样本学习和广义零样本学习）下，属性在整个训练过程中作为从已知类别到未知类别的桥梁提供。03.2. 自我蒸馏嵌入0我们的自我蒸馏嵌入（SDE）模块基于传统的语义嵌入模型[2, 12,37]，它使用嵌入函数将视觉特征xi投影到嵌入空间中。但是，与传统模型不同的是，我们旨在获得该嵌入空间中的紧凑类内分布，用于已知类和未知类。由于类内关系与类别无关，类内分布更紧凑也能更好地区分不同的类别，具有更好的泛化能力。因此，我们强制要求来自同一类别的不同样本在嵌入空间中更接近。θt ← ξθt + (1 − ξ)θs,(1)Lrd(qi, q+i ) = 1 −qiT q+i||qi||2 · ||q+i ||2,(2)p+i(k) =+(k)pi(k) =93090嵌入空间。如图2所示，我们使用教师-学生架构构建了SDE，其中包含一个教师网络fθt和一个学生网络fθs，其中θt和θs是它们的网络参数。教师和学生具有相同的结构，包括三个部分：嵌入函数Et/Es，线性投影器Ht/Hs和分类器Ct/Cs。一种直接的方式是让θt和θs也相同，就像传统的自我蒸馏方法[54,57]一样。然而，我们在实验中发现，在细粒度数据集上表现不佳。相反，我们引入了一个动量教师[41]，其参数θt通过指数移动平均更新为θs，更新方式如下：0其中 ξ ∈ [0 , 1] 是衰减率。f θ t的参数是先前学生权重的集合。因此，它可以获得平滑的表示并抑制嵌入的大变化，以实现更好的知识蒸馏。通过动量教师，我们引入了表示蒸馏损失和归一化的logits蒸馏损失，以减小表示层和预测层的类内变化。表示蒸馏损失。为了最小化来自同一类别的两个样本的表示变化，我们强制学生生成与教师相同的投影。给定一个已见类别的图像 I i，我们随机选择同一类别的另一个图像 I + i。它们的视觉特征 x i 和 x + i是由在ImageNet上预训练的固定ResNet101[16]提取的。学生网络以 x i 作为输入，产生一个嵌入 z i =E s ( x i ) 和一个投影 q i = H s ( z i ) = H s ( E s ( x i ))。类似地，教师网络以 x + i 作为输入，产生一个嵌入 z + i= E t ( x + i ) 和一个投影 q + i = H t ( z + i ) = H t ( E t (x + i )) 。然后，我们引入表示蒸馏损失来最小化 ¯ q i 和 ¯q i + 之间的差异，其公式为：0其中 || ∙ || 2 是 L 2范数。通过最小化表示蒸馏损失，我们加强了表示层的类内紧密性。归一化的logits蒸馏损失。为了消除预测层的类内变化，我们减小了教师和学生logits分布（v + i 和 v i）之间的差异。使用分类器 C t 和 C s ，我们分别得到 v +i = C t ( q + i ) 和 v i = C s ( q i )。传统的知识蒸馏方法[17,57]通常使用softmax层来生成后验分布 p i，例如，给定输入 v i ，后验分布为：0p i ( k ) = exp( v i ( k ) /τ ) / K j =1 exp( v i ( j ) /τ) , k = 1 , 2 , ..., K, (3)0其中 K 是类别数量，k 是类别索引。 v i ( k )0其中 p i ( k ) 是预测的logit值和第 k 个类别的概率。τ > 0是一个温度缩放参数，用于控制输出分布的锐度。以前的研究花费了大量的精力来找到一个合适的 τ ，例如，DINO[5]设置一个较小的 τ 来获得一个更锐利的分布，而CS-KD[57]使用一个相对较大的 τ来产生一个更柔和的分布。在本文中，我们发现 τ也极大地影响GZSL分类性能。因此，我们在附录1.1中研究了 τ 的影响，并发现 τ可以被视为对教师logits幅度的补偿。因此，我们给出以下定理来解决超参数搜索问题：定理1.如果教师和学生logits的幅度被归一化，则方程式3中的温度不需要再考虑（τ 总是等于 1 ），即：0p i ( k ) = exp( ¯ v i ( k ) ) / K j =1 exp( ¯ v i ( j )) , k = 1 , 2 , ..., K, (4)0|| v i || 2 表示L 2归一化的logits。定理1的详细证明可以在附录1.1中找到。根据定理1，我们得到教师和学生的软概率分布如下：01 / K j =1 exp(¯ v + ( j ) i ) , k = 1 , 2 ,..., K, (5)01 / K j =1 exp(¯ v ( j ) i ) , k = 1 , 2 , ...,K, (6)0|| v + i || 2 .我们希望同一类别的投影具有相同的预测概率，因此我们引入了归一化的logits蒸馏损失：0Lnld(pi,p+i)=DKL(p+i||pi)=0k=1p+i(k)log(p+i(k))0pi(k)),0(7)其中DKL(p+i||pi)表示p+i和pi之间的KL散度。通过规范化的逻辑蒸馏，我们更加关注内类紧凑性，并忽略了τ的调整过程。我们还使用交叉熵损失来监督分类器使用类标签：0Lce(vi,yi)=−log(exp(v(yi)i)�Kk=1exp(vi(k)))。(8)0SDE的总损失。通过在表示级别和预测级别集成损失，我们的SDE模块的最终优化目标可以表示为：0Lsd=E[Lrd(qi,q+i)]+βE[0+γE[Lce(vi,yi)],(9)BB̸sdrd �iinld �iiγE[Lce(vi, yi)].(12)93100其中β和γ表示损失权重。我们将Lsd最小化，以便于学生参数，而教师参数根据公式1进行更新。03.3.语义-视觉对比生成0SVCG模块的目标是合成具有紧凑内类分布的未见类特征。SVCG是一个条件GAN（CGAN），它使用生成器G来合成训练特征�x=G(a,ϵ)，条件是高斯噪声ϵ�N(0,I)和语义描述符a。同时，鉴别器D通过G来训练，以区分真实对(x,a)和(�x,a)。G和D通过带有梯度惩罚的WGAN损失进行优化：0Lwgan=0λE[(||�ˆxD(ˆx,a)||2−1)2]，(10)0其中ˆx=αx+(1−α)�x，α�U(0,1)，λ是惩罚系数。使用CGAN，我们可以合成多样且逼真的未见类特征来训练GZSLsoftmax分类器。然而，CGAN只考虑合成和真实对之间的分布关系，以及特征和语义描述符之间的成对关系，即数据到类别的关系。它错过了考虑实例之间的关系信息的额外机会，即数据到数据的关系。因此，未见类的合成特征可能与松散的内类分布和许多异常值大相径庭，这不利于训练一个无偏的GZSL分类器。为了生成具有紧凑内类分布的特征而不牺牲它们的多样性，我们试图保持数据到数据的关系，并引入一种基于实例的语义-视觉对比损失(Lsvc)，如图3所示。在每个训练批次中，我们有B个合成特征{�xi,yi}Bi=1及其标签yi∈Ys，以及B个真实特征{xj,yj}Bj=1和yj∈Ys。为了合成更一般的特征，我们在每个训练批次中为一个类采样多个真实特征。我们的目标是最大化具有相同标签的合成特征和真实特征之间的相似性，并在特征对具有不同标签时最小化相似性。为了实现这一点，对于一对样本�xi和xj，我们首先使用公式计算它们的相似性sij：0∥ � xi ∥2∥xj∥2。然后我们将我们的任务视为一个二元分类问题：来自同一类的样本被分类为1，否则为0。最后，我们将我们的目标Lsvc制定为：0Lsvc=1B20j=1(1yi=yjlog(σ(sij))+1yi�=yjlog(1−σ(sij)))，0(11)其中σ(∙)是sigmoid函数。除了在视觉特征空间中的紧凑性约束之外，我们还要求投影嵌入。0图3.我们的基于实例的语义-视觉对比损失(Lsvc)的示意图。合成特征被强制与具有相同类别标签的多个真实视觉特征保持一致。0为了使合成特征的类内变化较小，我们提出的自我蒸馏嵌入模块可以强制两个样本的嵌入相似。因此，我们借鉴了SDE中的师生网络来实现这个目标，通过强制来自同一类别的生成特征和真实特征在嵌入空间中更接近。具体来说，给定由G生成的假样本 � x i ，我们将其输入到学生网络中产生 � q i = H s ( E s ( � x i )) 和 � v i = C s ( � q i ) 。在对 � v i进行L2归一化和softmax操作后，我们得到概率分布 � p i。类似地，来自同一类别的正实特征 x + i 作为 � x i的参考，我们希望它们的特征投影和概率分布保持一致。因此，我们进行 L rd ( � q i , q + i ) ， L nld ( � p i , p + i ) 和L ce ( � v i , y i )，将它们组合成合成自我蒸馏损失作为训练G的辅助任务：0为了稳定训练G，我们冻结整个SDE，损失只反馈给G。03.4. 优化0我们的ICCE通过自我蒸馏嵌入模块和语义-视觉对比生成模块同时增强了嵌入空间和视觉特征空间中的类内紧凑性。ICCE的总目标函数如下所示：0最小 G,E s ,H s ,C s 最大 D L wgan + L sd + η L synsd + ϕ L svc , (13)0其中 η 和 ϕ 是超参数，表示L syn sd 和 L svc对生成器的影响。最后，我们使用生成器G为未见类别合成特征，并使用来自已见类别的真实特征通过学生嵌入函数 Es将它们映射到嵌入空间。然后，我们训练一个softmax分类器作为我们最终的GZSL分类器。HDEVISE [12]NIPS’1313.468.722.417.174.727.811.570.919.89.944.216.23.578.46.7ESZSL [37]ICML’156.675.612.15.977.811.012.663.821.011.456.819.02.470.14.6ALE [1]TPAMI’1616.876.127.514.081.823.923.762.834.434.413.321.94.673.78.7COSMO [4]CVPR’1952.880.063.6---44.457.850.259.681.468.8---GXE [27]CVPR’1962.777.069.156.481.466.747.447.647.7------DAZLE [19]CVPR’20---60.375.767.156.759.658.1------RGEN [53]ECCV’20---67.176.571.560.073.566.1---41.830.437.2CN-GZSL [20]ICLR’2163.173.467.860.277.167.649.950.750.3------HSVA [40]NIPS’2159.376.666.856.779.866.352.758.355.3------f-CLSGAN [51]CVPR’1857.961.459.6---43.757.749.759.073.865.632.961.742.9cycle-CLSWGAN [11]ECCV’1856.964.060.2---45.761.052.359.272.565.1---f-VAEGAN-D2 [52]CVPR’19---57.670.663.548.460.153.656.874.964.6---LisGAN [26]CVPR’1952.656.362.3---46.557.951.657.783.868.333.256.941.9ZSML [45]AAAI’2057.471.163.558.974.665.860.052.155.7---36.346.640.9OCD-CVAE [22]CVPR’20---59.573.465.744.859.951.3------RFF-GZSL [15]CVPR’2059.875.166.5---52.656.654.665.278.271.1---TF-VAEGAN [33]ECCV’20---59.875.166.652.864.758.162.584.171.1---93110方法会议 AWA1 AWA2 CUB FLO APY0非生成型0生成型0GCM-CF [56] CVPR'21 - - - 60.4 75.1 67.0 61.0 59.7 60.3 - - - 37.1 56.8 44.90CE-GZSL [14] CVPR'21 65.3 73.4 69.1 63.1 78.6 70.0 63.9 66.8 65.3 69.0 78.7 73.5 - - -0FREE [8] ICCV'21 62.9 69.4 66.0 60.4 75.4 67.1 55.7 59.9 57.7 67.4 84.5 75.0 - - -0ICCE 我们的方法 67.4 81.2 73.6 65.3 82.3 72.8 67.3 65.5 66.4 66.1 86.5 74.9 45.2 46.3 45.70表1.与最先进的GZSL方法的比较。U和S分别是未见类和已见类的Top-1准确率。H是U和S的调和平均值。前九种方法是非生成方法，后面的十一种方法是生成方法。最佳和次佳结果分别用粗体和下划线标记。04. 实验0数据集。我们在五个广泛使用的ZSL数据集上进行实验：Animals with Attributes 1&2 (AWA1 [25] & AWA2[50])，USCD Birds-200-2011 (CUB) [46]，OxfordFlowers (FLO) [34]，Attributes Pascal and Yahoo(APY)。AWA1和AWA2共享相同的50个动物类别，具有85维属性。AWA1包含30,475张图像，AWA2包含37,322张图像；CUB包含200种鸟类的11,788张图像；FLO包含102个花卉类别的8189张图像，APY包含32个不同类别（例如建筑和动物）的12,051张图像。AWA1、AWA2和APY使用手工设计的属性向量，CUB和FLO使用从文本描述生成的1024维属性[36]。请注意，AWA1、AWA2和APY是粗粒度数据集，而CUB和FLO是细粒度数据集。我们遵循ProposedSplit (PS)[50]的设置，将每个数据集上的所有类别分为已见类和未见类。评估协议。在测试过程中，我们测量传统ZSL中未见类的平均每类Top-1准确率[50]。在GZSL场景下，我们评估已见类（S）和未见类（U）的Top-1准确率，以及它们的调和平均值（定义为H = 2 × S × U / (S +U)）。实施细节。在预处理步骤中，我们将视觉和语义特征归一化到[0,1]，如[26]中建议的那样。我们将嵌入函数Et/Es设计为一个2048×2048的线性层，使用LeakyReLU激活函数。0方法 AWA1 AWA2 CUB FLO APY0LATEM [49] 55.1 55.8 49.3 40.4 35.2 DEVISE [12] 54.2 59.7 52.045.9 39.8 SJE [2] 65.6 61.9 53.9 53.4 32.9 ALE [1] 59.9 62.5 54.948.5 39.7 ESZSL [37] 58.2 58.6 53.9 51.0 38.30cycle-CLSWGAN [11] 66.3 - 58.4 70.1 - DLFZRL [43] 71.3 70.361.8 - 46.70GXE [27] 70.9 71.1 54.4 - 38.0 f-CLSWGAN [51] 68.2 - 57.3 67.2- f-VAEGAN-D2 [52] - 71.1 61 67.7 - TF-VAEGAN [33] - 72.264.9 70.8 - CE-GZSL [14] 71.0 70.4 77.5 70.6 - HSVA [40] 70.6 -62.8 - -0我们的ICCE 74.2 72.7 78.4 71.6 49.50表2.传统ZSL的结果。前五种方法是早期的传统ZSL方法，接下来的八种方法是最近提出的GZSL方法。最佳和次佳结果分别用粗体和下划线标记。0创新。投影仪Ht/Hs使用2048×512全连接（FC）层将嵌入映射到512维度。分类器Ct/Cs对所有类别（S和U）输出logits。我们的生成器G和判别器D的架构都是多层感知器（MLPs），包含一个4096单元的隐藏层，使用LeakyReLu激活函数。对于AWA1和AWA2，我们将小批量设置为512，对于CUB、FLO和APY，我们将小批量设置为64。生成器中的输入噪声与相应的属性具有相同的维度。所有网络都使用Adam优化器进行优化，其中β1=0.5，β2=0.999，初始学习率为0.0001。惩罚系数λ设置为10。我们经验性地将损失权重η和ϕ设置为0.001。in93120案例 SDE SVCG AWA1 AWA2 CUB FLO APY0Lrd Lnld Lsynsd Lsvc U S H U S H U S H U S H U S H0基线 57.7 81.9 67.7 56.5 81.1 66.6 70.7 58.5 64.0 62.4 80.5 70.3 16.6 74.8 27.1 (a) � 63.0 79.7 70.4 63.0 76.8 69.3 71.1 59.0 64.5 62.9 81.7 71.7 14.963.3 24.1 (b) � 60.8 80.6 69.3 49.8 84.1 62.6 70.6 56.2 62.6 60.7 81.9 69.7 18.1 68.2 28.6 (c) � � 64.5 82.8 72.5 62.0 85.3 71.8 69.3 61.0 64.9 66.8 79.372.5 33.5 51.2 40.5 (d) � � � 66.7 80.8 73.1 64.1 82.3 72.1 68.4 63.5 65.9 67.3 83.4 74.5 40.9 42.2 41.5 (e) � � � � 67.4 81.2 73.6 65.3 82.3 72.8 67.3 65.566.4 66.1 86.5 74.9 45.2 46.3 45.70表3.对我们提出的损失函数在五个数据集上的有效性进行消融研究，最佳结果用粗体标记。0案例教师 AWA1 AWA2 CUB FLO APY0U S H U S H U S H U S H U S H0（1）常数随机 63.0 80.1 70.5 60.8 79.5 68.9 71.8 57.2 63.7 62.6 82.8 71.3 17.0 62.6 26.8（2）学生复制 65.3 79.8 71.8 62.9 82.9 71.571.3 57.2 63.5 63.3 82.3 71.6 43.2 38.8 40.9（3）上一个时期 66.6 77.2 71.5 63.1 75.7 68.8 68.5 57.2 62.3 62.0 83.5 71.1 12.0 75.120.7（4）上一个迭代 65.3 79.0 71.5 62.9 81.4 70.9 73.0 56.3 63.6 63.3 84.5 72.4 31.2 29.7 30.5（5）动量 67.4 81.2 73.6 65.3 82.372.8 67.3 65.5 66.4 66.1 86.5 74.9 45.2 46.3 45.70表4. SDE模块中不同教师的评估。我们的ICCE采用动量教师，最佳结果用粗体标记。0对于AWA1和AWA2，我们设置β = γ =0.01。对于CUB、FLO和APY，我们设置β = γ = 0.001。04.1.与最先进的方法比较0在表1中，我们将我们的ICCE与最先进的GZSL方法进行比较，包括非生成方法和生成方法。与其他生成方法相比，我们的ICCE在AWA1、AWA2、CUB和APY的调和平均数上进一步提高了4.5%、1.3%、0.3%、0.8%。我们的ICCE在FLO上获得了第二好的H。值得注意的是，我们的方法在AWA1、CUB、APY的未见类别上取得了最好的结果，并在AWA2和FLO上取得了第二好的结果。同时，对于已见类别，我们在AWA1、AWA2和FLO上取得了最佳性能。这表明我们的ICCE在已见类别上表现良好，并且也可以推广到未见类别。此外，我们还在传统的ZSL设置下报告了我们方法的结果，如表2所示。我们的ICCE在AWA1、AWA2、CUB、FLO和APY上至少超过了最先进的方法2.9%、0.5%、0.9%、0.8%和2.8%。这些结果一致地证明了我们的ICCE在传统的ZSL中仍然有效。04.2.消融研究和讨论0不同组成部分的重要性。在这里，我们进行消融实验来展示我们ICCE中每个组成部分的影响。基线模型与我们的ICCE相同，但在SDE模块中没有教师分支。我们只使用分类损失Lce和WGAN损失Lwgan来训练我们的基线模型。总共，我们使用ICCE的整个架构进行五个其他实验，但使用不同的损失函数：（a）仅使用Lrd进行表示蒸馏；（b）仅采用Lnld进行归一化对数蒸馏；（c）应用Lrd和Lnld进行知识蒸馏；（d）在（c）中添加Lsynsd进行生成模块训练；（e）在（d）中添加Lsvc进行0语义-视觉对比生成模块训练。根据表3中报告的结果，我们有以下观察：（1）我们的SDE模块和提出的知识蒸馏损失可以明显提高性能（与基线（a），（b）和（c）进行比较），并且使用Lrd和Lnld的组合可以取得更好的结果。这表明在表示级别和预测级别上减少类内变化更加有效。（2）使用Lsynsd和Lsvc，我们可以进一步提高所有数据集上的分类结果（将（c）与（d）和（e）进行比较）。这表明使用我们的SVCG模块可以为未见类别合成更好的特征，以训练一个无偏的GZSL分类器。（3）我们的ICCE从SDE和SVCG的组合中受益。因此，学习嵌入空间和视觉特征空间中紧凑的类内分布对于GZSL是必要的。动量教师的有效性。在表4中，我们将五种不同的策略与以前的学生实例构建教师进行比较。（1）常数随机：教师网络的权重在训练过程中随机初始化并固定；（2）学生复制：教师的权重与学生相同；（3）上一个时期：使用上一个时期的学生网络作为教师；（4）上一个迭代：使用上一个迭代的学生网络作为教师；（5）我们的动量教师。如

下载后可阅读完整内容，剩余1页未读，立即下载