基于情节的零样本学习原型生成网络

18 浏览量更新于2023-10-24 收藏 12.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Base Selected for training Refine training Model TrainingModel RefiningEpisode 1Episode 2Episode k.........140350基于情节的零样本学习原型生成网络0于云龙1� 纪忠2� 韩俊功3 张忠飞401 浙江大学信息科学与电子工程学院，中国 2天津大学电气与信息工程学院天津市重点BII室，中国 3 英国华威大学WMG数据科学，英国4 美国宾汉姆顿大学计算机科学系0yuyunlong@zju.edu.cn, jizhong@tju.edu.cn, jungong.han@wick.ac.uk, zhongfei@cs.binghamton.edu0摘要0我们引入了一个简单而有效的基于情节的零样本学习（ZSL）训练框架，其中学习系统需要仅根据相应的类别语义来识别未见类别。在训练过程中，模型在一系列情节中进行训练，每个情节都被设计为模拟一个零样本分类任务。通过训练多个情节，模型逐渐积累在预测模拟未见类别方面的集成经验，这将在真实未见类别上很好地推广。基于这个训练框架，我们提出了一种新颖的生成模型，它根据类别语义原型生成视觉原型。所提出的模型通过将视觉原型生成和类别语义推理形成对抗框架，并配合参数经济的多模态交叉熵损失来捕捉判别信息。在传统ZSL和广义ZSL任务下的四个数据集上进行的大量实验证明，我们的模型在性能上大大优于现有方法。01. 引言0随着深度学习的复兴，在各种视觉任务上取得了巨大的突破[12, 5,21]。然而，深度学习技术通常依赖于人工平衡的训练数据的可用性，这对于构建真实视觉世界的综合模型构成了重要瓶颈。近年来，零样本学习（ZSL）[16, 9, 32, 37,36]因其解决数据稀缺问题的潜力而受到了广泛关注。零样本学习（ZSL）旨在识别未见0� 对应作者为于云龙和纪忠。0训练数据0测试数据0模型10预测结果0模型20模型 k0训练数据0测试数据0图1.ZSL的基于情节的框架示意图。训练过程由一系列情节组成，每个情节将训练数据随机分成两个互斥的子集：一个用于训练基础模型，另一个用于改进模型。随着情节的进行，模型的泛化能力逐渐增强。最终模型用于预测测试数据。0在训练阶段没有可视实例的类。这种严酷但现实的情况对于传统的分类方法来说是痛苦的，因为没有标记的视觉数据来支持对未见类别的参数训练。为了解决这个任务，现有的方法大多采用了迁移学习，即假设在已见类别上训练的模型可以应用于未见类别，并专注于学习一个可迁移的模型。尽管已经取得了有希望的性能，但大多数现有方法[1, 2, 32, 22,9, 25, 27,23]专注于设计与已见类别的视觉-语义交互模型，不能保证很好地推广到未见类别，因为已见类别和未见类别位于不相交的域中。此外，用已见数据训练的模型有利于将未见的测试实例误分类为已见类别，这往往会产生明显的不平衡分类偏移问题。现有的生成方法[15, 17, 34]转移了140360将零样本分类任务转化为传统分类问题，通过合成一些未见类别的视觉特征，可以在一定程度上缓解上述问题。然而，由于训练的不稳定性和模式崩溃问题，它们在广义零样本学习任务中仍然面临困难。受到元学习在少样本学习任务中的成功启发[26,28]，我们引入了一种基于情节的训练范式，以学习一个零样本分类模型，以减轻上述问题。具体而言，训练过程由一系列情节组成。每个情节将训练数据随机分成两个互斥的子集：一个支持集和一个细化集。通过这种方式，每个情节模拟一个虚假的零样本分类任务。支持集用于训练基础模型，该模型在视觉和类别语义模态之间建立语义交互。细化集用于通过在预定义空间中最小化真实标签与基础模型预测标签之间的差异来改进基础模型。当前情节中训练的模型使用从前一个情节学习到的模型参数进行初始化。随着情节的进行，基础模型逐渐积累了在预测虚假未见类别方面的集成经验，这将很好地推广到真实未见类别。通过这种方式，已见和未见领域之间的差距可以相应地减小。整个思想的框架如图1所示。在上述基于情节的训练框架下，基础模型在预测未见类别的过程中起着不可或缺的作用。在这项工作中，我们设计了一个优雅的原型生成网络（PGN）作为基础模型，以在类别语义原型的条件下合成类别级别的视觉原型。与现有的生成方法不同，它们涉及生成器和鉴别器之间的极小极大博弈，我们的模型由两个生成器组成，它们将视觉特征和类别语义原型映射到它们的对应物，以及一个鉴别器，用于区分真实视觉特征和真实类别语义原型的串联和虚假对应物的串联。为了捕捉判别信息，我们进一步设计了一种新颖的多模态交叉熵损失，将视觉特征、类别语义原型和类别标签集成到一个分类网络中。与现有的生成方法相比，我们的分类网络不需要额外的辅助分类网络和独立的学习参数集，因此更高效。总之，我们的贡献可以总结为以下三个方面。01.为了增强模型的适应性，我们引入了一种基于情节的零样本学习训练范式，该范式在一系列情节中训练模型，每个情节都设计成模拟一个虚假的零样本学习任务。通过0通过训练多个情节，模型逐渐积累了大量预测虚假未见类别的经验，这将很好地推广到真实未见类别。02.我们提出了一个精心设计的原型生成网络，用于在类别语义原型的条件下合成视觉原型。通过将视觉原型生成和类别语义推理都纳入对抗框架中，它对视觉-语义交互进行了对齐，并通过高效的多模态交叉熵损失捕捉了判别信息。03.在四个基准测试上进行的大量实验证明，所提出的方法在传统的零样本学习和现实的广义零样本学习任务下均取得了最先进的性能。02. 相关工作0在本节中，我们对零样本学习和基于情节的方法进行了最相关工作的概述。02.1. 生成式零样本学习0最近，生成式方法在零样本学习中占主导地位，通过利用现有的生成模型[10, 14]或其变体[24, 40,4]从类别级语义特征（例如属性和文本描述嵌入）中合成视觉特征，同时引入一些噪声。[34, 39,17]引入了Wasserstein生成对抗网络（WGAN）[3]与分类网络配对，以合成看不见类别的视觉特征，从而将零样本学习任务转化为传统的分类问题。与此不同的是，[39]还引入了视觉中心正则化来保持生成特征的类间区分性，而[17]通过将生成的视觉特征与至少一个类别元表示接近来增强类间区分性。与基于GAN的方法相比，[31,24]将特征生成形式化为变分自编码器（VAE）[14]模型，以适应类别特定的潜在分布和高度区分性的特征表示。为了结合VAE和GAN的优势，[35]开发了一个条件生成模型来合成视觉特征，并通过无条件鉴别器扩展到在转导设置下利用未标记实例。我们的模型也是一种生成式方法。我们不是合成实例级的视觉特征，而是在没有额外噪声输入的情况下，根据类别语义原型合成类别级的视觉原型。在以前的生成式方法中，有几种与我们的模型密切相关。例如，DEM[38]通过最小化生成的视觉原型与真实视觉特征之间的差异来训练一个视觉原型生成网络，该网络由一个三层神经网络组成。140370ResNet0类别语义0损失0测试标签0支持集0细化集0ResNet0类别语义0距离度量0Softmax0基础模型0V.S.Interaction0类别标签0A tr tr Y0te A0te Y0tr X0te X0图2. 提出的一集训练步骤的示意图，包括训练阶段（上方）和细化阶段（下方）。训练阶段通过对齐视觉-语义交互（V.S.Interaction）来训练基础模型。细化阶段首先在预定义空间中使用训练好的模型初始化测试数据的标签预测，然后通过最小化预测结果与真实标签之间的差异来微调模型。0合成的视觉原型与真实视觉特征之间的差异。相反，我们的方法将视觉原型生成和类别语义推断统一到一个框架中。与[6,13]将视觉特征生成和类别语义推断以循环一致的方式形式化不同，我们的模型使用两个可分离的双向映射网络来形式化这两个过程，这两个网络由鉴别器和分类网络整合，更好地对齐视觉-语义交互。此外，我们的方法在基于情节的框架中进行训练，以增强对看不见类别的适应性。02.2. 基于情节的方法0基于情节的训练策略在少样本学习任务中得到了广泛的探索[8, 19, 26,29]，将训练过程分为多个情节，每个情节模拟一个少样本学习任务。然而，很少有研究将基于情节的训练策略应用于零样本学习。在这项工作中，我们将基于情节的范式引入到训练零样本学习模型中。与现有的基于情节的少样本方法不同，我们方法中的每个情节模拟一个零样本分类任务，需要训练一个基础的视觉-语义交互模型来实现对看不见类别的预测。与我们的工作相关的一个研究是RELATION NET[28]，它也在基于情节的范式中训练零样本学习模型。然而，RELATION NET[28]学习了一个通用的度量空间，用于评估视觉实例与类别语义特征之间的关系，而不是模拟一个零样本分类任务。另一个相关的工作是3ME[7]，它通过两个不同模型的集成来提高性能。我们的方法可以0也可以看作是一种特殊的集成方法，由一组模型组成。不同的是，这些模型不是相等的投票来进行最终的分类，而是递归地累积之前的经验。03. 方法论0在本节中，我们首先介绍问题的形式化，然后详细报告我们的方法。03.1. 问题形式化0假设我们收集一个训练样本集 S = { x_i , a_i , y_i } N_i = 1，其中包含来自 M个已见类别的 N 个样本，其中 x_i ∈ R^D 是第 i 个实例的 D维视觉表示（例如，CNN特征），a_i ∈ R^K0y_i 是其 K维类别语义原型（例如，类别级属性或文本描述向量）和独热类别标签。在测试时，在传统的零样本分类设置中，任务是将测试实例分类为候选的未见类别之一，在广义的零样本分类设置中，任务是将测试实例分类为已见类别或未见类别之一。03.2. 模型0在训练阶段，我们引入了一种基于episode的训练范式，通过模拟在已见类别上进行多个零样本分类任务来训练模型。每个episode匹配一个独立的零样本分类任务。在每个episode中，已见类别 S被随机分成两个互斥的类别集合，一个支持集 S_tr = { X_tr ,A_tr , Y_tr } 和一个细化集 S_te = { X_te , A_te , Y_te}，其中 Y_tr 和 Y_te 是不相交的。xI mage F eatureCaRealFakeIFxFGxI mage F eature C lass Semantic aRealFakeI mage F eatureC lass SemanticxaFGDaDxGGaaxLA→V =�i∥G(ai) − xi∥22.(2)LW GAN = E[D(x, a)] − E[D(˜x, ˜a)]−λE[(∥∇ˆxD(ˆx, ˆa)∥2 − 1)2],(3)pVi (x) =exp(xT G(ai))�j exp(xT G(aj)).(4)140380类别语义00/1 图像特征0真实0虚假0图3. 在不同模态之间对齐语义一致性的基本模型。图像特征 x和类别语义原型 a 的组合作为真实输入，合成的视觉原型 ˜x和投影的类别语义特征 ˜a 的组合作为鉴别器 D 的虚假输入。F 和G 都是映射网络。0如图2所示，每个episode包括训练阶段和细化阶段。训练阶段学习一个基础模型来对齐语义一致性，用于从相应的类别语义原型中预测未见类别。细化阶段通过最小化预测结果和真实标签来更新模型参数。训练每个episode可以看作是在零样本分类上积累经验的过程。随着episode的进行，经验将被带入下一个episode。在接下来的内容中，我们详细介绍一个episode中的基础模型和细化模型。03.2.1 原型生成网络0为了解决零样本分类任务，学习代理需要学习一个基础模型，从相应的类别语义原型中推断出未见类别。在本文中，我们设计了一个原型生成网络（PGN）来实现这个目标。对于视觉模态，我们学习一个类别语义推理网络 F：R^D →R^K，通过回归使图像特征接近相应的类别语义原型，其形式化为：0L V→A = �0i ∥ F ( x_i ) - a_i ∥^2_2 . (1)0同样地，对于类别语义模态，我们学习一个可视化原型生成网络 G：R^K →R^D，将类别语义原型投影到视觉空间中。由于每个类别通常由许多图像实例组成，但只对应一个类别语义原型，因此映射函数 G可以被看作是一个一对多的语义到视觉特征生成器。映射函数 G 是通过训练得到的。0最小化合成视觉特征 G ( a i )（我们称之为视觉原型）与真实视觉特征 x i 之间的距离。0通过 F 和 G，我们可以构建视觉空间和类别语义空间之间的关系。然而，它们是相互独立的。为了更好地对齐语义一致性，我们引入对抗机制来规范化两个映射网络，如图3所示。具体而言，我们利用改进的WGAN [11]将投影的类别语义向量 ˜a和真实的类别语义原型 a分别输入生成器和判别器。损失函数如下所示：0其中 ˜a = F ( x ) 是推断的类别语义特征； ˜x = G ( a )是合成的视觉原型。 ˆx = τ x + (1 − τ ) ˜x 和 ˆa = τ a + (1− τ ) ˜a ，其中 τ � U (0 , 1) ，λ 是惩罚系数。D表示判别器网络。与现有的基于GAN的方法不同，提出的模型可以看作包含两个生成器和一个判别器，其中生成器分别在两个不同的模态上进行操作，而判别器将它们整合起来。上述模型对齐了视觉特征和类别语义之间的一致性。然而，训练这样的模型忽略了利用判别信息来区分类别，这对最终的类别预测是至关重要的。为了解决这个问题，我们进一步提出了一个多模态交叉熵损失，将图像特征、类别语义和独热类别标签融合到一个统一的框架中。通过上述模型，所有训练类别的类别语义原型被投影到视觉空间中，得到它们对应的类别视觉原型，这些原型预先存储在视觉特征缓冲区 G( A S ) 中，其中 G ( a i ) 表示第 i个类别的类别视觉原型。视觉样本 x与所有类别视觉原型之间的亲和度可以通过它们的内积 x TG ( A S )得到。通过以下交叉模态softmax函数，可以评估输入视觉样本 x 在视觉空间中属于第 i 个类别的概率：0类别语义空间中，所有类别语义向量都预先存储在类别语义缓冲区 A S 中，视觉样本 x 表示为 F ( x ) 。因此，pSi (x) =exp(F(x)T ai)�j exp(F(x)T aj).(5)LMCE = −�xlog pVi (x) −�xlog pSi (x).(6)140390在类别语义空间中，视觉样本 x 属于第 i个类别的概率可以定义为：0我们的目标是在视觉空间和类别语义空间中最大化上述概率，可以通过最小化以下多模态交叉熵（MCE）损失来实现：0通过最小化公式（6），使得类内实例与其对应的类别语义原型的亲和度高于与其他类别语义原型的亲和度。这样，判别信息可以在视觉空间和类别语义空间中得到有效保留。与现有的生成方法[17,34]相比，我们的分类模型不引入额外的参数，更加高效和可行。因此，我们的完整目标函数为：0min G max D L W GAN + αL V→A + βL A→V + γL MCE，(7)0其中 α、β 和 γ 是用于平衡各项的超参数。03.2.2 优化模型0通过在视觉空间中使用预定义的距离度量搜索最近的生成类别视觉原型，可以对训练好的 G进行分类。对于一个未见实例 xt，其类别标签通过以下方式预测：0ˆ y t = arg min k (d(x t, G(a k))), (8)0其中 a k 是第 k 个未见类别的类别语义原型，G(a k)是相应的生成的类别视觉原型。d(∙,∙)表示一种特定的距离度量，如欧氏距离或余弦距离。基础模型侧重于在已见类别上建立视觉-语义交互，但不能确保在预定义的度量空间中很好地推广到未见类别。为了增强模型对未见类别的适应性，我们在预定义的度量空间中对用于预测测试集 S te上的未见类别的基础模型的部分参数进行了优化。具体而言，给定距离函数d，基础模型基于与视觉空间中类别语义原型的距离的softmax 对测试实例 x t 产生一个类别分布，0p G (y = k | x t) = e0k ′ exp ( − d ( x t , G ( a k ′)))，(9)0其中 d(∙,∙) 是与 Eq. (8)中相同的距离度量。通过最小化真实类别 k 的负对数概率J(G) = −log p G (y = k | x t) 来改进映射函数G，使其在定义的度量空间中更好地推广到未见类别。我们经验性地观察到距离度量的选择非常重要，使用欧氏距离的分类性能大多优于使用余弦距离的性能。在实验中，如果没有特别指定，我们报告使用欧氏距离的结果。使用基于episode的框架训练的模型PGN简称为E-PGN。E-PGN的训练过程总结如算法1所示。0算法1：提出的E-PGN方法。0输入：已见类别集合 S，超参数 α、β 和γ。输出：视觉原型生成网络 G。初始化 F 和 G的参数。while not done do0随机从 S 中抽样得到 S tr 和 S te；对于 Str 中的样本，执行以下操作。0通过 Eq. (7) 优化 F 和 G；0对于 S 中的样本，执行以下操作。0通过 Eq. (9)计算概率分布；通过最小化负对数概率更新G。0返回 G 的参数。04. 实验0在本节中，我们进行实验来评估所提出模型的有效性。我们首先记录数据集和实验设置，然后将E-PGN与最先进的方法进行比较。最后，我们通过一系列消融实验研究所提出的E-PGN的性质。04.1. 数据集和实验设置0数据集。在最广泛使用的零样本分类数据集中，我们选择了两个粗粒度数据集，即具有属性的动物（AwA1）[16]，具有属性的动物2（AwA2）[33]，以及两个细粒度数据集，即Caltech-UCSD Birds-200-2011（CUB）[30]和OxfordFlowers（FLO）[18]。AwA1和AwA2包含来自相同50个动物类别的不同视觉图像，每个类别都带有85维的语义属性注释。CUB和FLO分别包含200种鸟类和102个花卉类别。对于CUB和FLO数据集的类别语义表示，我们对从细粒度视觉描述中提取的基于字符的1,024维CNN-RNN[20]特征进行平均（每个图像10个句子）。我们采用[33]提供的标准零样本划分用于140400AwA1 AwA2 CUB FLO0方法 T u s H T u s H T u s H T u s H0ALE [1] 59.9 16.8 76.1 27.5 62.5 14.0 81.8 23.9 54.9 23.7 62.8 34.4 48.5 13.3 61.6 21.90SJE [2] 65.6 11.3 74.6 19.6 61.9 8.0 73.9 14.4 53.9 23.5 59.2 33.6 53.4 13.9 47.6 21.50ESZSL [22] 58.2 2.4 70.1 4.6 58.6 5.9 77.8 11.0 53.9 12.6 63.8 21.0 51.0 11.4 56.8 19.00DEM [38] 68.4 32.8 84.7 47.3 67.1 30.5 86.4 45.1 51.7 19.6 57.9 29.2 77.8* 57.2* 67.7* 62.0*0GAZSL [39] 68.2 29.6 84.2 43.8 70.2 35.4 86.9 50.3 55.8 31.7 61.3 41.8 60.5 28.1 77.4 41.20CLSWGAN [34] 68.2 57.9 61.4 59.6 65.3 56.1 65.5 60.4 57.3 43.7 57.7 49.7 67.2 59.0 73.9 65.60Cycle-UWGAN [6] 66.8 56.9 64.0 60.2 - - - - 58.6 45.7 61.0 52.3 70.3 59.2 72.5 65.10SE-ZSL [15] 69.5 56.3 67.8 61.5 69.2 58.3 68.1 62.8 59.6 41.5 53.3 46.7 - - - -0LisGAN [17] 70.6 52.6 76.3 62.3 70.4* 47.0* 77.6* 58.5* 58.8 46.5 57.9 51.6 69.6 57.7 83.8 68.30f-VAEGAN-D2 [35] 71.1 57.6 70.6 63.5 - - - - 61.0 48.4 60.1 53.6 67.7 56.8 74.9 64.60CADA-VAE [24] 62.3 57.3 72.8 64.1 64.0 55.8 75.0 63.9 60.4 51.6 53.5 52.4 - - - -0ABP [40] 69.3 57.3 67.1 61.8 70.4 55.3 72.6 62.6 58.5 47.0 54.8 50.6 - - - -0RELATION NET [28] 68.2 31.4 91.3 46.7 64.2 30.0 93.4 45.3 55.6 38.1 61.1 47.0 78.5* 50.8* 88.5* 64.5*03ME [7] 65.6 55.5 65.7 60.2 - - - - 71.1 49.6 60.1 54.3 83.9 57.8 79.2 66.80E-PGN (我们的方法) 74.4 62.1 83.4 71.2 73.4 52.6 83.5 64.6 72.4 52.0 61.1 56.2 85.7 71.5 82.2 76.50表2.传统ZSL和广义ZSL的性能（以平均每类top-1准确率T、未见类别准确率u、已见类别准确率s以及它们的调和平均值H表示）比较。�表示我们使用作者发布的代码获得的结果。最佳结果以粗体标记。0数据集 K Ys Yu Xa Xs Xu0AwA1 [16] 85 40 10 30,475 5,685 4,9580AwA2 [33] 85 40 10 37,322 5,882 7,9130CUB [30] 1,024 150 50 11,788 2,967 1,7640FLO [18] 1,024 82 20 8,189 5,394 1,1550表1.四个基准数据集的统计数据，包括类别语义维度K，已见类别数Ys，未见类别数Yu，所有实例数Xa，测试集中已见实例数Xs和未见实例数Xu。0AwA1、AwA2和CUB数据集。对于FLO数据集，我们使用[18]提供的划分。表1给出了数据集概述。评估协议。在这项工作中，我们评估了我们的方法在传统ZSL和广义ZSL任务上的表现。对于传统ZSL任务，我们采用广泛使用的平均每类top-1准确率T作为评估协议。对于广义ZSL任务，我们遵循[33]提出的协议，评估方法的已见类别准确率s、未见类别准确率u以及它们的调和平均值H。实现设置。根据[33,34]的做法，我们使用在ImageNet-1K上预训练的ResNet-101的顶部池化单元作为图像特征。因此，每个输入图像表示为一个2,048维的向量。作为预处理步骤，我们将视觉特征归一化到[0,1]。在模型架构方面，我们实现了F、G和D作为简单的三层神经网络，分别具有1,800、1,800和1,600个隐藏单元。F和D都在隐藏层和输出层上应用ReLU作为激活函数，两者都跟随一个dropout层。同时，0在开发模型时，我们观察到将tanh激活函数应用于G的隐藏层可以获得更稳定和更好的结果。对于基础模型的学习率，我们设置AwA1、CUB和FLO数据集为5e-5，AwA2数据集为2e-4。对于所有数据集，我们将精化模型的学习率设置为原始基础模型的1/10。在每个episode中，基础模型使用Adam优化器和批量大小为128（AwA1数据集）或32（其他数据集）进行100个epoch的随机梯度下降训练。每个episode中的精化模型使用与基础模型相同的优化器和批量大小进行10个epoch的训练。我们使用TensorFlow框架实现了我们的模型。代码可在1处获取。04.2. 与现有技术方法的比较0表2描述了E-PGN和其他十四种竞争方法的分类性能，包括三种判别方法[1, 2, 22]，九种生成方法[38, 39, 34, 6, 15,17, 35, 24,40]，一种基于剧集的方法[28]和一种集成方法[7]。从表2中，我们观察到所提出的E-PGN在四个数据集上在T和H两个指标上相对于现有技术取得了显著的改进。具体而言，在T指标上，AwA1的整体准确率从71.1%提高到74.4%，AwA2从70.4%提高到73.4%，CUB从71.1%提高到72.4%，FLO从83.9%提高到85.7%，都是相当显著的。值得注意的是，E-PGN在AwA1和FLO数据集上的H指标分别为71.2%和76.5%，较第二名的性能提高了7.1%和8.2%。在AwA2和CUB数据集上，所提出的E-PGN也从63.9%提高到01 https://github.com/yunlongyu/EPGNAwA1TusH406080100CEMCEAwA2TusH406080100CEMCECUBTusH406080100CEMCEFLOTusH406080100CEMCE140410AwA1 AwA2 CUB FLO0方法 T u s H T u s H T u s H T u s H0PGN 72.2 52.6 86.3 65.3 71.2 48.0 83.6 61.0 68.3 48.5 57.2 52.5 81.4 63.6 77.8 70.00E-PGN（5）72.2 57.2 83.8 68.0 73.5 51.2 83.0 63.3 70.4 50.5 59.0 54.4 84.2 67.7 79.6 73.20E-PGN（10）74.4 62.1 83.4 71.2 73.4 52.6 83.5 64.6 72.4 52.0 61.1 56.2 85.7 71.5 82.2 76.50E-PGN（15）73.8 62.2 82.9 71.1 74.2 50.5 84.1 63.1 69.6 51.5 57.4 54.3 85.3 70.5 80.4 75.20表3. 每个剧集中选择的模仿未见类的性能比较（以%表示）。PGN表示没有采用基于剧集的范式进行训练的模型。0分别提高了64.6%和54.3%。与其他基于剧集的方法RELATION NET[28]相比，我们的E-PGN在四个数据集上取得了显著的改进，这表明我们的模仿策略捕捉到了更多的有区分性的迁移知识，而不是学习距离度量策略。与其他集成方法3ME[7]相比，我们的E-PGN在不同数据集上的不同指标下也有明显的改进。我们还观察到，已见类别的分类准确率s要远远好于未见类别的分类准确率u，这表明未见类别的测试实例往往被错误地分类到已见类别中。这种分类偏移问题在所有现有方法中普遍存在。从结果中，我们观察到生成方法在一定程度上缓解了这种偏移问题，从而改善了H指标。然而，这些方法通过降低已见类别的准确率来提高未见类别的准确率，这在实践中是不可取的。相反，我们的E-PGN比竞争对手更加稳健，通过提高未见类别的准确率同时保持较高水平的已见类别准确率，从而大幅提升了调和平均数H。我们的性能改进得益于渐进式的剧集训练策略和有效的基础模型。04.3. 进一步分析04.3.1 基于剧集的范式的影响0在第一个实验中，我们评估了剧集训练方案的影响以及每个剧集中选择的模仿未见类的数量对不同数据集上的性能的影响。为此，我们将每个剧集中选择的模仿未见类的数量从0到15进行了变化，间隔为5。值得注意的是，当选择的模仿未见类的数量等于0时，表示训练方法没有采用基于剧集的范式，优化过程退化为传统的基于批次的训练策略。根据表3的结果，我们观察到E-PGN在四个数据集上的表现大多优于PGN，除了AwA1数据集上的s指标，这表明了所提出的基于剧集的训练策略的有效性。0性能（%）0性能（%）0性能（%）0性能（%）0图4.传统和广义零样本分类在四个数据集上使用传统交叉熵损失（简称CE）和多模态交叉熵损失（简称MCE）的结果。0例如。与PGN相比，E-PGN在一定程度上可能破坏整个训练结构，但可以通过基于episode的训练范式逐渐积累适应新类别的知识，从而获得更好的结果。此外，我们还观察到所选的模拟未知类别的数量对分类性能有很大影响。具体而言，E-PGN（10）基本上击败了E-PGN（5）在四个数据集上。然而，随着数量的进一步增加，性能趋于下降，我们推测原因是当选择更多的模拟未知类别进行改进时，剩下的训练类别越少，用于训练基本模型的初始化就越不满意，导致对模拟未知类别的预测不准确。04.3.2 E-PGN组件的性能影响0在本研究中，我们量化了E-PGN中不同组件对性能的影响。在提出的E-PGN模型中，除了基本对抗损失外，还有三个组件：两个回归损失和一个多模态分类损失。每个损失都由一个超参数控制，即 α ， β 和 γ 。我们选择了超参数的值AwA1AwA2CUBFLOαβγTusHTusHTusHTusH✓✓73.1 60.3 82.3 69.672.6 51.3 81.6 63.071.2 50.9 59.1 54.785.0 69.2 79.7 74.1✓✓73.8 61.0 83.1 70.472.2 52.5 82.7 64.367.2 45.9 55.9 50.485.8 69.4 82.0 75.2✓✓70.8 56.2 82.2 66.870.9 43.2 79.9 56.166.8 45.2 52.5 48.886.2 70.0 79.2 74.4✓72.1 56.2 81.5 66.571.2 48.5 84.0 61.570.3 50.0 57.5 53.585.6 71.3 80.5 75.6✓✓✓74.4 62.1 83.4 71.273.4 52.6 83.5 64.672.4 52.0 61.1 56.285.7 71.5 82.2 76.560801006080100607080708090140420表4. E-PGN组件在四个数据集上的消融研究。最佳结果以粗体标记。0超参数只从0和1中选择。当超参数的值等于1时，其对应的组件为“开启”，否则为“关闭”。两种情况之间的性能差异揭示了组件的影响。从表4中的结果可以看出，大多数情况下，具有三个组件的模型在十六个指标中大多数情况下都取得了最佳性能，这表明三个校准项互补。此外，我们观察到没有MCE损失（ γ = 0）的模型在四个数据集中的性能明显下降，这表明MCE损失对分类性能有重要贡献。04.3.3 分类网络的影响0为了进一步验证提出的多模态交叉熵损失的优越性，我们将我们的E-PGN与使用传统交叉熵损失的方法进行比较。从图4中的结果可以看出，提出的E-PGN与MCE损失相比，AwA1、AwA2和CUB数据集上的性能要好得多，并且在FLO数据集上表现相当。我们认为这种优越性是因为MCE损失将类别语义信息编码到分类模块中，既保留了判别信息，又增强了视觉-语义一致性。此外，与使用传统CE损失的模型相比，使用MCE损失的模型不引入额外的训练参数，更加高效。04.3.4 距离度量的影响0在这个实验中，我们研究了距离度量如何影响分类性能。在图5中，我们比较了四个数据集上不同度量下的余弦距离和欧氏距离。我们观察到，在大多数情况下，欧氏空间中获得的性能明显优于余弦空间中获得的性能，这表明欧氏距离更适合我们的方法。余弦空间中获得的较差性能可能是因为余弦距离不是Bregman散度[26]。0AwA10TusH400性能（%）0CosEuc0AwA20TusH400性能（%）0CosEuc0CUB0TusH500性能（%）0CosEuc0FLO0TusH600性能（%）0CosEuc0图5.在四个数据集上使用欧氏距离（简称Euc）和余弦距离（简称Cos）的传统和广义零样本分类结果。05. 结论0在本文中，我们引入了一种基于情节的训练范式，以增强模型对零样本学习的适应性。它将训练过程分为一系列情节，每个情节模拟一个虚假的零样本分类任务。通过训练多个情节，模型积累了丰富的集成经验，用于预测模拟的未见类别，并在真实的未见类别上具有很好的泛化能力。在这种训练范式下，我们提出了一种有效的生成模型，用于对齐视觉-语义一致性，并配合一个参数经济的多模态交叉熵损失。在四个基准数据集上的综合结果表明，所提出的模型达到了新的最先进水平，并且大幅度超过了竞争对手。致谢。本工作部分得到NSFC（61672456，U19B2043），浙江实验室（2018EC0ZX01-2），中国中央高校基本科研业务费（No.2017FZA5007），百度公司人工智能研究基金，浙江省重点项目（No.2015C01027），海康威视和地平线机器人的资助，以及浙江大学融合媒体计算实验室的支持。140430参考文献0[1] Zeynep Akata, Florent Perronnin, Zaid Harchaoui, andCordelia Schmid. 基于属性的分类的标签嵌入.在CVPR，页码819-826，2013年。[2] Zeynep Akata, ScottReed, Daniel Walter, Honglak Lee, and Bernt Schiele.用于细粒度图像分类的输出嵌入评估.在CVPR，页码2927-2936，2015年。[3] Martin Arjovsky,Soumith Chintala和Léon Bottou. Wasserstein生成对抗网络.在ICML，页码214-223，2017年。[4] Yuval Atzmon和GalChechik. 用于广义零样本学习的自适应置信度平滑.在CVPR，页码11671-11680，2019年。[5] Deng-PingFan，Wenguan Wang，Ming-Ming Cheng和Jianbing Shen.将更多注意力转移到视频显著目标检测上.在CVPR，页码8554-8564，2019年。[6] Rafael Felix，Vijay BGKumar，Ian Reid和Gustavo Carneiro.多模态循环一致的广义零样本学习.在ECCV，页码21-37，2018年。[7] Rafael Felix，MicheleSasdelli，Ian Reid和Gustavo Carneiro.用于广义零样本学习的多模态集成分类.arXiv:1901.04623，2019年。[8] Chelsea Finn，PieterAbbeel和Sergey Levine. 用于快速调整深度网络的模型无关元学习.在ICML，页码1126-1135，2017年。[9] Andrea Frome，Greg SCorrado，Jon Shlens，Samy Bengio，Jeff Dean，TomasMikolov等. 设计: 一种深度视觉-语义嵌入模型.在NeurIPS，页码2121-2129，2013年。[10] IanGoodfellow，Jean Pouget-Abadie，Mehdi Mirza，BingXu，David Warde-Farley，Sherjil Ozair，AaronCourville和Yoshua Bengio. 生成对抗网络.在NeurIPS，页码2672-2680，2014年。[11] IshaanGulrajani，Faruk Ahmed，Martin Arjovsky，VincentDumoulin和Aaron C Courville. 改进的Wasserstein GAN的训练.在NeurIPS，页码5767-5777，2017年。[12] KaimingHe，Xiangyu Zhang，Shaoqing Ren和Jian Sun.用于图像识别的深度残差学习.在CVPR，页码77

下载后可阅读完整内容，剩余1页未读，立即下载