没有合适的资源?快使用搜索试试~ 我知道了~
78850区分已见和未见的广义零样本学习0苏宏祖1 李晶晶1,2* 陈智3 朱磊4 卢科101中国电子科技大学 2中国电子科技大学广东电子与信息工程研究所3昆士兰大学 4山东师范大学0摘要0广义零样本学习(GZSL)旨在识别那些在训练中可能没有见过的样本。将未见类别识别为已见类别或反之往往导致GZSL性能较差。因此,区分已见和未见领域自然而然地成为GZSL的一种有效而具有挑战性的解决方案。在本文中,我们提出了一种新颖的方法,利用视觉和语义模态来区分已见和未见类别。具体而言,我们的方法使用两个变分自编码器在共享的潜在空间中生成视觉和语义模态的潜在表示,通过Wasserstein距离对两种模态的潜在表示进行对齐,并使用彼此的表示重构两种模态。为了学习一个更清晰的已见和未见类别之间的边界,我们提出了一种两阶段的训练策略,利用已见和未见的语义描述,并搜索一个阈值来分离已见和未见的视觉样本。最后,使用一个已见专家和一个未见专家进行最终的分类。在五个广泛使用的基准测试上进行的大量实验证明了所提方法可以显著提高GZSL的结果。例如,在分离领域时,我们的方法可以正确识别超过99%的样本,并将AWA1上的最终分类准确率从72.6%提高到82.9%。01. 引言0传统的视觉分类任务处理训练和测试阶段中相同的对象类别,即训练集和测试集中的样本具有相同的标签空间。通常,这些任务的方法不能正确识别未出现在训练类别中的样本。不幸的是,由于训练数据集是有限的,未见类别经常出现在许多现实世界的应用中。零样本学习(ZSL)旨在通过利用语义信息来处理未见或新颖的实例。0* 李晶晶为通讯作者。邮箱:lijin117@yeah.net0在传统的零样本学习(ZSL)中,模型只能识别来自未见过的领域的样本。广义零样本学习(GZSL)是一项更具挑战性的任务,它处理来自已见和未见领域的视觉样本。早期的ZSL方法专注于将视觉和语义表示嵌入到共享空间中,例如将视觉特征映射到语义空间,或者反之,并测量两种模态之间的相似性。最近,广泛采用生成未见视觉特征的方法。生成方法首先训练一个生成模型,如GAN或VAE,并使用未见的语义属性合成一批特征。然后,使用已见样本和合成的未见样本训练分类器以区分不同的类别。由于GZSL涉及已见和未见类别,将已见和未见领域分离是一个合理的解决方案。一旦已见和未见领域被分离,GZSL问题就可以分解为一个传统的零样本学习任务,并且可以采用任意的已见和未见专家来完成分类。虽然分离已见和未见领域是有希望的,但是区分已见和未见的视觉特征是非常具有挑战性的。例如,如图1所示,虎鲸和座头鲸是在训练阶段可以访问的类别,海豚是测试阶段的未见类别。这三个物种共享大量的共同视觉特征和语义属性。生成器很容易生成与训练阶段中类别海豚的视觉先验不同的特征,使得海豚的样本在测试阶段很容易被错误地识别为虎鲸或座头鲸。这种现象导致了对未见类别的分类准确率较低。由于训练的监督信息来自已见类别,对于在已见领域中具有相似样本的未见类别来说,这是一场灾难。因此,区分已见和未见样本对于提高GZSL性能至关重要。在本文中,我们专注于准确地区分已见和78860海豚(未知)0座头鲸0虎鲸0特征空间0决策边界0图1.AWA2中相似物种的示意图(最佳观看效果为彩色)。海豚的样本位于虎鲸簇和座头鲸簇附近。0当存在相似类别时,用于区分未知类别的方法。为此,我们提出了一种特殊的类别,称为虚构类别,用于在潜在空间中分离相似的视觉特征。在我们的方法中,视觉和语义模态的潜在表示都被按类别嵌入到潜在空间中。然后我们分析每个类别的嵌入边界,并搜索一个阈值来分割已知和未知样本。具体而言,我们使用超球面VAE[13]模型分别对视觉和语义模态进行训练,并在类别级别上对两个模态的潜在表示进行对齐。为了利用虚构类别,我们提出了一个两阶段的训练方案。具体而言,我们首先使用已知样本和相应的语义属性训练视觉和语义VAE模型。然后我们生成虚构类别,并使用虚构样本和未知语义属性训练语义VAE。我们测量两个模态的潜在表示之间的相似性,并搜索一个阈值来区分已知和未知领域。通过这样做,已知和未知样本可以成功区分。此外,我们提出了一个未知专家,通过注意机制对未知视觉样本进行分类。总结起来,本文的主要贡献有三个:(1)我们提出了一种新颖的方法来区分GZSL中的已知和未知领域。我们设计了一个两阶段的训练方案,通过利用已知和未知的语义属性显著提高了模型的性能。(2)我们提出了利用新颖的虚构类别来分离相似的视觉表示。借助虚构类别,我们可以成功地分离无法区分的已知和未知样本。此外,我们提出了一个带有注意机制的未知专家来识别未知样本。值得注意的是,未知专家在所有测试数据集上的训练时间不到一分钟。(3)我们在五个开放基准上进行了大量实验。结果验证了所提出的方法可以显著改善先前最先进方法的结果。02. 相关工作0零样本学习。传统的零样本学习(ZSL)[15, 26, 36, 43,47]旨在对训练集中没有出现的类别进行分类。在本文中,我们关注0在更现实但具有挑战性的ZSL设置中,称为广义零样本学习(GZSL)。与传统的ZSL不同,GZSL的测试集包含已知和未知类别。0在GZSL中,大多数先前的研究都集中在使用视觉样本进行分类任务上。这个任务的解决方案主要可以分为三类,即嵌入方法[2, 3, 14, 30, 38, 48],生成方法[9, 27, 33, 37, 43,45]和领域感知方法[7,31]。关于嵌入方法,Ivan等人[38]提出了一种方法,通过类别归一化将语义描述映射到视觉空间,并且明显优于其他方法。另外,生成方法使用对应的语义属性合成未知类别的样本,然后将这些样本注入到训练数据中。例如,f-CLSWGAN[43]是一种代表性的基于GAN的方法,它使用WassersteinGAN[4]生成视觉特征。领域感知方法旨在明确区分已知和未知领域。例如,DVBE[31]学习在无语义空间和语义对齐空间中区分已知和未知视觉特征。DVBE将语义描述嵌入到视觉空间中,以单个模型区分已知和未知类别。COSMO[5]设计了一种基于置信度的门控机制来分离已知和未知样本。该模型由三部分组成,即已知分类器、未知分类器和门控二分类器。门控分类器以已知和未知分类器的预测结果作为输入,并为两个分类器预测门控分数。陈等人[7]提出的另一种代表性方法在潜在空间中嵌入视觉特征和语义描述,以分割已知和未知样本。0我们的方法属于领域感知组。具体而言,我们使用两个VAE模型在潜在空间中对视觉特征和语义描述进行对齐,并进行两阶段的训练策略。同时,我们在潜在空间中学习一个分类器来区分已见和未见表示。请注意,尽管我们的方法与OOD[7]有相似的思路,但我们的方法和OOD的公式有显著的不同。一方面,我们的方法进行了两阶段的训练,并使用未见语义属性生成了合成特征。然而,OOD由于缺乏未见视觉特征,无法利用未见知识。另一方面,我们提出了一个新颖的虚构类别来区分相似的已见和未见视觉表示,即使它们在视觉和语义特征上非常相似,也能准确地区分已见和未见样本。此外,我们提出了一个带有注意机制的未见专家来分类未见类别,而OOD直接采用了在f-CLSWGAN[43]中训练的未见分类器。在实验中,我们将展示我们的方法在所有评估数据集上明显优于OOD,并且更加详细的结果将在第4节中说明。自从Vaswani等人提出了注意机制[40]以来,注意机制已被广泛采用。文献中的方法[12,20-22,49]已经证明,零样本学习也可以从注意机制中受益。例如,Huynh等人[20]应用密集注意力来捕捉特定区域的视觉特征,然后将其与相应的语义属性嵌入。在Huynh等人的另一项研究中[21],他们提出了一种多注意力方法来匹配视觉和语义模态之间的共享表示。与他们不同的是,我们的未见专家在视觉模态上应用自注意力和嵌入模型,以增强视觉特征的主要表示。78870黑色 : �棕色 : �毛茸茸的 : � 大 : �游泳 : � ……0黑色 : �棕色 : � 大 : �毛茸茸的 : � 游泳 : �0� w10� ���0已见 已见0未见 虚构0� ������ � ����0�� �� �� ��0�� ��0�� ��0视觉VAE 语义VAE0�� ��0�� �� ��0�� �� ��0�� ��0� ������10图2.我们框架的示意图。Ev,Dv,Es和Ds分别表示视觉编码器,视觉解码器,语义编码器和语义解码器。符号zx,zas,z~x和zau分别表示已见视觉样本的潜在表示,已见语义描述的潜在表示,虚构的视觉样本和未见语义描述。请注意,我们的方法使用语义编码器和视觉解码器生成虚构类别。红线表示虚构类别的生成。0具体问题设置将在第4节中详细说明。自从Vaswani等人提出了注意机制[40]以来,注意机制已被广泛采用。文献中的方法[12,20-22,49]已经证明,零样本学习也可以从注意机制中受益。例如,Huynh等人[20]应用密集注意力来捕捉特定区域的视觉特征,然后将其与相应的语义属性嵌入。在Huynh等人的另一项研究中[21],他们提出了一种多注意力方法来匹配视觉和语义模态之间的共享表示。与他们不同的是,我们的未见专家在视觉模态上应用自注意力和嵌入模型,以增强视觉特征的主要表示。03. 方法03.1. 问题设置0本文关注使用已见和未见图像进行评估的广义零样本学习(GZSL)。在GZSL中,我们有一个数据集S = {Xs,Ys,As},其中包含Ns个已见类别,以及另一个数据集U ={Xu,Yu,Au},其中包含Nu个未见类别。0未见类别。已见视觉样本Xs和未见视觉样本Xu的标签分别表示为Ys和Yu。As和Au分别是已见类别和未见类别的语义描述。请注意,已见数据集S和未见数据集U是不相交的。按照GZSL中广泛使用的设置,已见数据集进一步分为训练集Str和测试集Ste。03.2. 我们方法的总体思路0如图2所示,我们的方法学习两个变分自编码器,一个用于零样本学习的每个模态。训练过程可以分为两个阶段。在第一阶段,我们将视觉特征和语义描述映射到一个共享的潜在空间中,在其中对齐0两个模态的潜在表示并学习一个用于已知类别的分类器。在这个阶段之后,我们模型编码的表示预期对于这些已知类别是模态不变的。在第二阶段,我们明确利用未知类别的语义描述来合成在视觉空间中形成虚构类的人工样本,其中我们像在第一阶段一样利用未知类别的模态不变特征。我们在潜在空间中部署另一个分类器来分离虚构类和已知类。经过两阶段的训练,两个模态的潜在表示按类别对齐,每个类别的边界可以很容易地找到。通过分析这些已知类别的边界,我们计算出一个可以将已知和未知样本分开的阈值。一旦分开了已知和未知类别,可以采用任意的已知或未知专家进行视觉分类。03.3. 对齐已知潜在表示0受到ZSL领域一些最近的工作的启发[7, 13,37],我们在SVAE[13]的基础上,在共享的超球面空间中对语义和视觉表示进行对齐。SVAE首先由Davidson等人[13]提出,它将超平面替换为超球面作为潜在空间,因为超球面表示可以更好地解释方向数据等数据类型[13]。并且采用vonMises-Fisher分布构建超球面潜在空间。SVAE已经验证了超球面空间在低维数据中的有效性。最近,Chen等人[7]采用了这种结构,并在零样本学习中取得了显著的改进。鉴于其有效性,我们在我们的方法中采用了SVAE来学习潜在表示。我们为每个模态部署一个特定的SVAE,并通过最小化它们之间的Wasserstein距离来对齐两个模态的潜在表示。Wasserstein距离的优点是即使两个分布不重叠,它也能很好地工作。LW 1 =infγ∈Π(Pzx,Pzas )E(zx,zas)∼γ[∥zx − zas∥],(1)Lcr = E [|as − Ds(zx)| + |x − Dv(zas)|] ,(2)78880清晰的边界0之前之后0重叠0已知虚构未知0图3.虚构类的示意图。橙色、红色和蓝色圆分别表示已知类别、未知类别和虚构类的边界。红色和橙色三角形分别表示未知类别和已知类别的类中心。0分布不重叠[4]。形式上,Wasserstein距离定义为0其中 z x 和 z a s分别表示已知类别的视觉和语义潜在表示。 P z x 和 P zas 分别是 z x 和 z a s 的边缘分布。 Π ( P z x , P z as ) 表示 z x 和 z a s的所有可能的联合分布。为了进一步鼓励模型学习模态不变的表示,我们在潜在表示上施加以下循环一致重构损失,0其中 z x 和 z a s分别是视觉和语义模态的潜在表示。两个VAE模型的训练损失如下:0+ E q φ 2 ( z as | a s ) � log p θ 2 ( a s | z a s ) � − λ KL �q φ 2 ( z a s | a s ) ∥ p ( z a s ) � , (3) 其中 λ是KL散度的惩罚系数。在第一阶段,我们使用来自已知类别的样本训练视觉和语义VAE模型。为了区分已知类别并学习更具辨别力的潜在表示,我们的模型引入了一个分类器。该分类器的损失定义为0L cls 1 = - E [ p z x log q z x ] - E [ p z as log q z as ], (4)0其中 p z x 和 p z as 分别是 z x 和 z a s 的标签向量。q z x和 q z as 是分类器的预测。03.4. 生成虚构类别0用已见样本训练的视觉VAE模型很容易将未见样本投影到已见样本的潜在空间中的同一区域。因此,该模型很容易被来自不同类别的相似特征所混淆。然而,这一直以来都是以前方法的一个长期困扰,也是我们工作的直接动机。0在我们的方法中,我们提出在潜在空间中使用语义属性明确地生成虚构类别来表示这些未见类别。然后,我们部署一个分类器来区分来自已见类别和虚构类别的样本。最后,该分类器能够在测试阶段识别真实的已见和未见样本。具体而言,我们首先考虑一个特定的未见类别,该类别的样本容易被分类为已见类别。很容易观察到,这个未见类别的视觉表示位于相应语义表示和这些已见类别的视觉表示之间。如图3所示,这些样本可以被称为已见和未见类别之间的重叠,其中包含已见和未见的潜在表示。因此,我们可以通过最小化它们之间的重叠区域来分离已见类别和未见类别。由于我们方法的目标是识别已见和未见领域,我们可以通过将它们分类到相应的类别来分离已见和未见的视觉表示。然而,在训练过程中无法获得未见类别的视觉表示。在本文中,我们提出使用未见语义属性明确地生成这些表示,可以表示为:0z ˜ x = E v (˜ x ), ˜ x = D v ( E s ( au )), (5)0其中 au ∈ Au表示未见属性,Ev、Dv和Es分别表示视觉编码器、视觉解码器和语义编码器。一个虚构类别由对应于一个未见类别的潜在表示 z ˜ x组成。为了分离已见类别和虚构类别的表示,我们明确地在它们上训练一个分类器。该过程可以表示为最小化以下目标:0- E [ p z x log q z x ] - E [ p z ˜ x log q z ˜ x ], (6)0其中 z x 和 z ˜ x分别表示已见类别和虚构类别的潜在表示。值得注意的是,生成样本的数量可以是无限的。因此,无法确定分类器应该训练哪些样本。在本文中,我们转而利用ZSL的不变性,并用相应的语义表示替换视觉表示来学习一个稳健的分类器。为此,我们首先明确地对齐生成的虚构类别的表示和相应的语义属性,增强它们之间的一致性。然后,我们直接用相应的语义表示替换方程(6)中的视觉表示。最后,我们将方程(6)转换为:0L cls 2 = - E [ p z as log q z as ] - E [ p z au log q z au ], (7)0其中 z a s 和 z a u分别表示已见和未见语义描述的潜在表示。,������������⊙⊕0.110.050.200.0678890我们在这项工作中利用语义和视觉VAE进行上述的对齐,但是在这个阶段我们并不打算训练视觉VAE,因为缺乏真实的未见过的视觉特征。因此,我们只优化语义VAE模型。0L s = Eq φ 2 ( z au | a u ) [log p θ 2 ( a u | z au )] - λ KL ( q φ 2 ( z a u | a u ) ∥ p ( z a u )) .0最后,我们将对齐的优化目标定义为0LW2 = inf γ ∈ Π(Pz˜x,Pzau)E(z˜x, zau) � γ [ ∥z˜x −zau∥],(9)03.5. 整体训练策略0如前所述,我们的模型通过两个阶段进行训练,一个基于已见视觉样本和已见属性,另一个基于未见属性和虚构类别。根据第3.3节中的所有公式,第一阶段的整体损失为0L1 = LVAE + λrcLcr + λclsLcls1 + λwLW1,(10)0其中λrc、λcls和λw用于平衡损失惩罚。根据第3.4节,第二阶段的整体损失由以下公式给出0L2 = λwLW2 + λclsLcls2 + Ls,(11)0总之,两阶段训练在我们的方法中形成了一个相互增强的循环。我们的模型学习了两种模态的潜在表示,并在第一阶段以类别为单位对其进行对齐。然后,我们使用未见属性生成虚构类别来分离相似的表示。因此,两种模态的潜在表示更加紧密地对齐,从而在已见和未见领域之间形成了更清晰的边界。03.6. 领域区分0首先,我们计算所有训练样本与相应语义描述之间的余弦相似度。我们将这些余弦相似度收集到集合C中。然后,我们搜索一个低于C中大多数值的余弦相似度γ,如下所示0η = | { γ ≤ 0|C|,(12)0其中|C|表示集合C中的元素数量。阈值η表示相似度大于γ的百分比。通过相似度γ,我们使用以下方法识别视觉样本的领域0D = � seen, max { cos (zte, zas) | �a ∈ As } ≥ γ unseen,max { cos (zte, zas) | �a ∈ As } < γ0(13)其中zte表示测试样本的潜在表示。0�0��0�� ��00.13 ∙∙∙ ���0softmax0���0图4.未见专家的示意图(最佳观看效果为彩色)。S2V表示语义到视觉模块。φ表示注意力模型。⊙、⊕、�分别表示Hadamard乘积、加法和矩阵乘法。3.7. 零样本分类0一旦分离已见和未见样本,GZSL问题就被分解为传统的ZSL问题,并且可以部署任意已见和未见专家来识别测试样本。在我们的方法中,我们直接采用用VAEs训练的分类器来对已见类别进行分类,并提出了一个未见专家来区分未见样本。我们的未见专家的架构如图4所示。在该模型中,将视觉特征x通过自注意力进行正则化,以学习原则性表示,具体如下0ˆx = x + x ⊙ softmax(Φ(x)),(14)0其中Φ(∙)表示注意力模块,⊙表示Hadamard乘积。我们的未见专家将语义描述嵌入到视觉空间中。所有已见属性As通过语义到视觉(S2V)模型映射到视觉空间,以学习训练阶段的视觉表示ˆX。我们测量ˆX和ˆx之间的余弦相似度来对视觉特征进行分类。用于训练该模型的损失目标定义为0L = -∑0xl(x)log(softmax(cos(ˆX, ˆx))),(15)0其中,l(x)是特征x的独热标签。一旦模型训练完成,我们可以直接用未见过的属性Au替换As来识别未见样本。04. 实验 4.1. 数据集描述0为了公平比较,我们使用与[ 5 , 7]中相同的数据集。我们在五个广泛使用的数据集上评估我们的模型,包括Caltech-UCSD Birds-200-2011 (CUB) [ 2],Oxford Flowers (FLO) [ 34 ],SUN Attribute (SUN) [35 ],Animals with Attributes 1 (AwA1) [ 24 ]和Animalswith Attributes 2 (AwA2) [ 42]。前三个数据集是细粒度数据集,其他是传统数据集。具体来说,CUB包含200个鸟类别,FLO包含102个不同的花卉物种。SUN由717个场景和多达14K个样本组成。AwA1是一个包含30,475张图像和50个动物类别的大规模数据集。AWA2由来自公共来源的37,322个样本组成。heOOD (0.95) [7]0.9950.9900.9610.9010.993Ours (0.95)0.9990.9980.9870.9750.99678900表1. 与现有技术的比较。 ”U”和”S”分别表示未见类和已见类的top-1准确率。 ”H”表示调和平均准确率。最佳结果以粗体显示。”Ours + f-CLSWGAN”表示由f-CLSWGAN [ 43 ]训练的ZSL分类器的结果。”Ours”表示提出的未见专家的结果。LMILR之后的方法是最近发表的。0方法 AwA1 AwA2 CUB SUN FLO0U S H U S H U S H U S H U S H0ALE [ 2 ] 16.8 76.1 27.5 14 81.8 23.9 23.7 62.8 34.4 21.8 33.1 26.3 13.3 61.6 21.9 SJE [ 3 ] 11.3 74.6 19.6 8.0 73.9 14.4 23.5 59.2 33.6 14.7 30.5 19.813.9 47.6 21.5 DeViSE [ 17 ] 13.4 68.7 22.4 17.1 74.7 27.8 23.8 53.0 32.8 16.9 27.4 20.9 9.9 44.2 16.2 ESZSL [ 36 ] 6.6 75.6 12.1 5.9 77.8 11.0 12.663.8 21.0 11.0 27.9 15.8 11.4 56.8 19.0 Ivan et al . [ 38 ] 63.1 73.4 67.8 60.2 77.1 67.6 49.9 50.7 50.3 44.7 41.6 43.1 - - -0f-CLSWGAN [ 43 ] 57.9 61.4 59.6 52.1 68.9 59.4 43.7 57.7 49.7 42.6 36.6 39.4 59.0 73.8 65.6 cyc-CLSWGAN [ 16 ] 56.9 64.0 60.2 - - - 45.7 61.0 52.349.4 33.6 40.0 59.2 72.5 65.1 LisGAN [ 26 ] 52.6 76.3 62.3 - - - 46.5 57.9 51.6 42.9 37.8 40.2 57.7 83.8 68.3 CADA-VAE [ 37 ] 57.3 72.8 64.1 55.8 75.063.9 51.6 53.5 52.4 47.2 35.7 40.6 - - - LMILR [ 28 ] 61.5 75.0 67.6 57.5 83.9 68.2 52.4 57.9 55.0 47.9 36.4 41.4 - - -0TF-VAEGAN [ 33 ] - - - 59.8 75.1 66.6 52.8 64.7 58.1 45.6 40.7 43.0 62.5 84.1 71.7 APN [ 44 ] - - - 62.2 69.5 65.6 65.7 74.9 70.0 49.4 39.2 43.7 - - -OOD [ 7 ] 59.0 94.3 72.6 55.9 94.9 70.3 53.8 94.6 68.6 57.8 95.1 71.9 61.9 91.7 73.9 SDGZSL [ 9 ] - - - 64.6 73.6 68.8 59.9 66.4 63.0 48.2 36.1 41.362.2 79.3 69.8 GCM-CF [ 46 ] - - - 60.4 75.1 67.0 61.0 59.7 60.3 47.9 37.8 42.2 - - - AGZSL [ 12 ] - - - 65.1 78.9 71.3 41.4 49.7 45.2 29.9 40.2 34.3 - -- GEM-ZSL [ 29 ] - - - 64.8 77.5 70.6 64.8 77.1 70.4 38.1 35.7 36.9 - - - CE-GZSL [ 19 ] 65.3 73.4 69.1 63.1 78.6 70.0 63.9 66.8 65.3 48.8 38.6 43.169.0 78.7 73.5 FREE [ 6 ] 62.9 69.4 66.0 60.4 75.4 67.1 55.7 59.9 57.7 47.4 37.2 41.7 67.4 84.5 75.00Ours + f-CLSWGAN 66.7 98.9 79.7 63.8 98.8 77.5 54.6 99.3 70.5 57.9 99.3 73.1 62.1 99.3 76.4 Ours 71.3 98.9 82.9 67.3 98.8 80.1 54.5 99.3 70.3 60.699.3 75.2 59.4 99.3 74.30表2.区分已见和未见的结果。H,FPR,AUC分别表示调和平均准确率,误报率和曲线下面积。0方法 AwA1 CUB SUN0H AUC FPR H AUC FPR H AUC FPR0COSMO [ 5 ] 56.6 91.2 39.8 44.8 80.5 70.7 40.1 72.2 82.5 OOD [ 7 ] 70.1 95.0 12.5 67.7 99.42.5 71.0 99.5 1.60我们的方法 (0.95) 81.5 99.9 0.4 69.3 99.9 0.0 74.0 99.9 0.1 我们的方法 (0.99) 82.9 99.9 0.7 70.399.9 0.0 75.2 99.9 0.10表3. 与OOD方法的余弦相似度比较。越高越好。0方法 AwA1 AwA2 CUB SUN FLO04.2. 实验方案0评估指标。对于GZSL的结果,我们采用广泛使用的每类top-1准确率指标来评估我们的模型。具体来说,它被用于评估我们的模型在已见类和未见类上的性能,分别表示为S和U。已见类和未见类的调和平均值,表示为H = (2 × U × S) /(U +S),被用于评估GZSL的性能。对于分割已见和未见域的结果,我们根据Atzmon等人的方法[ 5],测量真正阳性率(TPR),误报率(FPR)和曲线下面积(AUC)。TPR和FPR分别表示将已见样本分类为已见域和将未见样本分类为已见域的百分比。AUC是通过公式(12)搜索的阈值进行测量。实施细节。我们遵循Xian等人的方法[ 43 ],0从ResNet-101骨干网络上预训练的ImageNet中提取视觉数据的特征。我们的模型使用PyTorch实现,并在NVIDIARTX 2080TiGPU上进行训练。视觉和语义编码器都是一个具有512个单元隐藏层的三层MLP,通过它将视觉特征和语义属性映射到64D的潜在表示。视觉和语义解码器遵循相似的结构,即一个具有512个单元隐藏层的三层MLP,将64D的潜在表示映射到原始特征或属性。分类器采用广泛使用的线性LogSoftmax结构,并输入64D的潜在表示。我们采用Adam优化器[23]从头开始更新网络的参数。Adam的超参数设置为β1=0.5和β2=0.999。我们设置λrc=1.0,λcls=1.0和λw=0.1。值得注意的是,方程(12)中的阈值设置为0.99。我们的未见专家的注意力模块是一个带有softmax的全连接层。S2V映射是一个具有两个隐藏层的四层MLP,每个隐藏层有1024个单元。此外,S2V模块的每个隐藏层都添加了类归一化[38]。我们采用Adam优化器[23]以学习率0.005训练未见专家。04.3. GZSL的结果0我们将我们的方法与其他方法在五个基准数据集上进行比较,并在表1中报告结果。从结果可以看出,我们的方法能够显著优于先前的最先进方法。与表1中的第二好结果相比,我们的方法在AwA1、AwA2、SUN、CUB和FLO上的准确率分别提高了10.3%、8.8%、3.3%、AUCUSHUSHUSHUSHUSH1632128256304050607080AwA1FLO0.010.050.10.51510cls304050607080AwA1FLO0.010.050.10.51510w020406080100AwA1FLO0.010.050.10.51510cr304050607080AwA1FLO78910表4. 消融研究的结果。在表中,“CLS”、“CR”、“WD”、“FC”分别表示分类损失、循环一致重构、Wassertein距离最小化和虚构类。“w/o”是“without”的缩写。“DUS-VAE”表示我们的方法。我们没有报告“DUS-VAE无CLS”的准确率结果,因为分类器对于分类是必要的。结果是在相应的阈值0.99下报告的。0设置 AwA1 AwA2 CUB SUN FLO0DUS-VAE无WD 99.43 37.82 90.29 99.11 44.95 86.85 98.98 5.69 98.86 98.87 5.20 99.42 99.60 2.94 99.39 DUS-VAE无FC 99.01 12.64 97.22 99.13 11.53 97.23 99.151.75 99.86 98.76 2.77 99.56 98.79 0.78 99.93 DUS-VAE无CLS 98.89 4.95 99.49 99.09 7.19 98.99 98.92 0.23 99.99 99.14 1.45 99.88 99.00 0.69 99.93 DUS-VAE无CR98.98 2.33 99.58 99.24 4.27 99.10 98.92 0.06 99.99 98.91 0.27 99.94 98.50 0.51 99.970DUS-VAE(完整模型) 99.10 0.70 99.90 98.91 2.92 99.30 99.30 0.03 99.99 99.30 0.13 99.98 99.30 0.34 99.970DUS-VAE无WD 37.66 99.43 54.63 33.18 99.11 49.71 50.34 98.98 66.74 54.09 98.21 69.76 60.47 99.60 75.25 DUS-VAE无FC 55.58 98.82 71.15 55.27 99.24 71.0053.42 99.18 69.44 55.83 97.71 71.06 61.95 98.55 76.07 DUS-VAE无CR 64.72 98.98 78.26 61.11 99.24 75.64 54.63 98.91 70.39 57.84 98.91 73.00 62.05 98.50 76.140DUS-VAE(完整模型) 66.75 98.95 79.72 63.81 98.87 77.56 54.67 99.3 70.52 57.91 99.22 73.10 62.16 99.30 76.460维度0(a)潜在维度的影响0(b)λcls的影响0(c)λw的影响0(d)λcr的影响0图5. 参数敏感性分析。我们以AwA1和FLO为例。报告了调和平均准确率的结果。0在AwA1、AwA2、SUN、CUB和FLO上,调和平均准确率分别提高了0.1%和1.4%。使用f-CLSWGAN[43]获得的ZSL分类器,我们的方法在AwA1上的准确率提高了7.1%,在AwA2上提高了6.2%,在SUN上提高了1.2%,在FLO上提高了1.4%。一个令人兴奋的观察结果是,我们的模型能够识别几乎所有的已见样本。在已见准确率方面,我们在AwA1上达到了98.9%,在AwA2上达到了98.8%,在CUB、SUN和FLO上都达到了99.3%。与最近发布的其他方法(除OOD外)的结果相比,我们观察到我们的方法在SUN数据集上的调和平均准确率提高了30%以上。我们推测这种现象是由于偏差问题引起的,即其他方法在已见和未见领域之间的相似样本上产生了混淆。例如,GEM-ZSL[29]的准确率从ZSL的62.8%下降到GZSL的38.1%。我们通过提出的虚构类和两阶段训练策略来解决这个问题。04.4. 域分类的结果0我们在表2中报告了识别已知和未知域的结果。为了公平比较,我们分别在阈值为0.95和0.99时报告了我们的结果。我们将我们的方法与COSMO [5]和OOD[7]进行了谐波均值准确性、假阳性率和曲线下面积的比较。从报告的结果中,我们可以观察到我们的方法明显优于其他方法。0在AwA1上,FPR的结果为0.7,在CUB上为0.0,在SUN上为0.1,这表明我们的模型几乎无法将未知样本分类为已知域。AUC的结果在所有数据集上都为99.9%,这也验证了我们的方法能够完美地区分已知和未知样本。这些结果表明,所提出的虚构类能够在已知和未知样本的潜在表示之间建立清晰的边界。所提出的虚构类的另一个效果是使两种模态的嵌入潜在表示更加紧凑。如表3所示,我们测量了潜在视觉和语义表示之间的余弦相似度。与OOD相比,我们可以观察到我们的模型在所有测试数据集上都实现了更高的余弦相似度。为了直观理解,我们将t-SNE[39]的可视化结果与OOD在图6中进行了比较。04.5. 模型分析0消融研究。我们在表4中分别报告了我们的模型在没有分类损失、循环一致重构、Wasserstein距离最小化和虚构类的情况下的结果。由于我们的模型旨在分离已知和未知样本,我们报告了TPR、FPR、AUC以及已知、未知和谐均值的准确性。阈值η设为0.99。从结果中,我们可以观察到所有报告的四个部分都对整体性能有所贡献。其中,我们提出的虚构类和Wasserstein距离最小化对主要的贡献。mary improvement. This result indicates that the fictitiousclass is able to distinguish similar latent representations. Wecan observe that fine-grained datasets, e.g., CUB, SUN andFLO are relatively not vulnerable to missing componentscomparing with conventional datasets AwA1 and AwA2.Parameter Sensitivity. We conduct extensive experimentsto investigate the effects of λcls, λrc, λw and latent rep-resentation dimension. We report a series of analysis onAwA1 and FLO datasets to study the effects of parametersin Figure 5. From the results in Figure 5(a), we can observethat FLO dataset is not easily affected by latent dimensionbut AwA1 is more sensitive to latent dimension. The resultsshown in Figure 5(b) indicate the best effect of our modelcan be achieved when λcls is set to 1.0. From the resultsin Fi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功