广义零拍摄学习中的视觉→语义映射、语义→视觉映射和深度度量学习方法

173 浏览量更新于2023-10-17 收藏 631KB PDF 举报

模型训练

实验结果

身份认证购VIP最低享 7 折!

30元优惠券

1广义零射击学习1王长虎2菲利普S.Yu1，3 Chang-Dong Wang41美国伊利诺伊大学芝加哥分校计算机科学系2中国字节跳动人工智能实验室3清华大学数据科学研究院4中山大学数据与计算机科学学院@uic.eduwangchanghu@bytedance.comchangdongwang@hotmail.com摘要本文研究了广义零拍学习问题，该问题要求模型对来自一些可见类的图像标签对进行训练，并对来自可见类和不可见类的新图像进行分类的任务进行测试。在本文中，我们提出了一个新的模型，提供了一个统一的，三种不同方法的框架：视觉→语义映射，语义→视觉映射和深度度量学习。具体来说，我们提出的模型-它包括一个特征生成器，它可以在给定类嵌入特征作为输入的情况下生成各种视觉特征;一个回归器，它将每个视觉特征映射回其相应的类嵌入;以及一个学习评估图像特征和类嵌入的接近程度的学习器。所有三个组件都是在循环一致性损失和双对抗损失的组合下训练的。实验结果表明，我们的模型不仅保留了较高的准确性，从看到的类的图像分类，但也比现有的国家的最先进的模型在分类图像从看不见的类。1. 介绍深度学习模型在图像分类任务中取得了巨大的成功[28]，这些模型非常有效，可以与人类相媲美。然而，人类更善于识别他们只见过几次或听说过但从未见过的新奇物体。这是因为用于图像分类的深度学习模型严重依赖于完全监督训练，因此它们需要大量标记数据。由于现实世界中有太多的类，几乎不可能为每个类收集足够的标记数据。在这种情况下，这些模型面临的挑战是从训练过程中看不到的类别中识别图像的任务，这也被称为零拍摄学习（ zero-shotlearning，缩写为learning）问题[1，18]。在约定中-在常规的零触发学习中，目标是在来自可见类的一组图像上训练图像分类器，然后使用来自不可见类的图像来测试经训练的模型，其中可见类和不可见类的集合是完全不相交的，并且在测试期间标签空间仅包含不可见类。然而，这种常规设置是基于在测试阶段模型知道图像是来自可见类的集合还是来自不可见类的集合的强假设，这是不现实的，因此在现实世界中不适用当模型接收到新图像时，它不知道它是否来自可见或不可见的类别，因此它需要能够从可见和不可见类别的组合中对图像进行分类，这被称为广义零拍摄学习（GSTOL）[34，6]。零激发学习和广义零激发学习之间的主要区别在于测试期间的标签空间，这意味着为常规零激发学习设计的模型仍然可以应用于广义零激发学习设置中。解决零拍摄学习的一个常见策略是将图像和类映射到同一个潜在空间，然后执行最近邻搜索。大多数现有方法将视觉特征投影到由类属性跨越的语义空间，例如[11，33，1，27，2，17]，如图1（a）所然而，如[29，9，38]所指出的为了缓解这个问题，[29，9，38]提出将语义特征投影到视觉空间中，如图1（b）的左侧部分所示。然而，使用确定性方法将类的语义嵌入映射到视觉空间仍然是有问题的，因为一个类标签具有许多对应的相比之下，一些最近的作品[23，35，31]提出使用生成方法，可以生成以语义特征向量为条件的各种视觉特征，如图1（b）的右侧部分所示尽管801802他们的效率，他们的表现是有限的缺乏：真实数据：假数据D：鉴别器学习视觉和语义空间之间的双向映射的能力，或者作为评估特征相似性的更灵活度量的对抗性损失RelationNet [36]提出学习一个深度度量网络，而不是手动选择一个公共潜在空间，V：视觉空间S：语义空间：5HFRQVWUXFWiRQ ORVVVVSS将一对视觉和语义特征作为输入，并输出它们的相似性，如图1（c）所示。然而，RNN Net [36]无法学习图像和类的潜在特征，也不支持半监督学习，因此它被最近的一些作品[23，35，31]超越。由于这三种方法各有其优点和局限性，本文研究了一般的-（a）视觉->语义(c) 度量学习（b）语义->视觉VDS(d) 我们的统一框架提出了一种新的基于视觉→语义映射、语义→视觉映射和度量学习方法的通用双向对抗网络模型GDAN（Generative DualA Dversarial etwork）。框架，如图1（d）所示。更具体地说，我们的模型包含一个生成器网络，它能够生成以类嵌入为条件的图像特征，一个回归器网络，它获取图像特征并输出它们的类嵌入（即，语义特征），以及将图像特征和语义特征作为输入并输出指示它们彼此匹配程度的分数的生成器和回归器通过循环一致性损失相互学习，而它们两者也通过双重对抗性损失与学习器相互作用我们的主要贡献总结如下：• 我们提出了一种新的通用双向对抗网络（GDAN），它统一了视觉→语义，语义→视觉方法以及广义零射击学习的度量学习。• 与以前的零射击学习相比，我们设计了一种新的双重对抗损失，以便回归器和鉴别器也可以相互学习，提高模型• 我们进行了大量的实验，证明了我们提出的GDAN模型在有效地从看不见的类中分类图像以及保留在四个广泛使用的基准数据集上对所见类的高精度• 我们进行组件分析，以表明我们的模型中三个组件的组合实际上有助于每一个都比单独使用更好。来自看不见的类的合成样本的可视化也证明了我们模型的有效生成能力。我们的代码也将在网上提供。2. 相关工作生成对抗网络（GAN）[12]最初是作为一种图1.四类零出手学习方法。 (a)嗯...将相同类别的视觉特征映射到语义空间中的相同特征的分层模型。(b)将每个类的语义特征映射到视觉空间中的特征的模型。(c)度量学习模型，直接学习评估一对视觉和语义特征的接近(d)我们提出的模型使用生成对抗网络和双重学习来统一这三种方法。图像合成的方法[12，25]，并取得了最先进的结果。然而，GAN也因其在训练中的不稳定性而闻名，并且遭受模式崩溃问题[4，13]。为了缓解这些问题，提高合成样品的质量，已经提出了许多方法。WGAN [4]和WGAN-GP [13]提出通过强制1-Lipschitz平滑来优化近似Wasserstein距离上的GAN。LS-GAN [22]提供了一种简单但有效的解决方案，用最小二乘损失代替GAN的交叉熵损失，将真实和虚假样本的分数推到不同的决策边界，使得即使两个分布完全不相交，梯度也不会消失我们的模型还包括一个GAN，它是通过结合特征生成器和判别器来实现的。我们的模型和传统的GAN之间的一个主要区别是，我们的模型包含一个非生成组件，即。一个回归网络，通过额外的对抗性损失与神经网络交互。双重学习双重学习在神经机器翻译（NMT）中被证明是有效的[14]，通过一起训练一个主要任务和一个双重任务，其中双重任务是主要任务的逆任务。例如，在神经机器翻译中，主要任务可能是英语。法语，然后双重任务是法语→英语。双重学习也被应用到其他计算机虚拟现实中，语义分割[19]和图像到图像翻译[42，37]等任务。我们的工作与Cycle-GAN [42]和DualGAN [37]有关，因为我们从它们那里借用了循环一致性损失然而，这两个模型需要两个生成网络，这使得它们无法直接应用于广义零激发学习，因为VVDS803发生器对抗训练双重学习判别器回归器对抗训练每个类具有固定的语义表示，并且生成网络不适合于视觉→语义映射，因为它可能生成非常不同的语义特征。因此，我们需要一种新的架构，将循环一致性纳入零触发学习。（广义）零机会学习（ Generalized zero-shotlearning）与我们的工作密切相关，最近有一些研究（广义）零机会学习问题的工作。CVAE-BRL [23]提出使用条件变分自动编码器（CVAE）[30]来为看不见的类生成样本，但它使用了CVAE的普通版本，该版本存在先验崩溃问题[41]。SE-GARML [31]是另一项最近的工作，在一般化的零拍摄学习中利用变分自编码器。虽然SE-GALML [31]也有一个类似于我们模型的回归变量，但它缺乏我们所拥有的双重对抗损失。相比之下，我们的模型的学习器可以学习一个灵活的度量来评估图像特征和类嵌入之间的关系，我们的模型的回归器也可以通过对抗损失从判别器学习。f-CLSWGAN [35]应用GAN生成以类属性为条件的图像特征，但它不具备将图像特征映射回类属性的能力RISNET [36]试图学习一个深度度量来评估图像特征和语义特征之间的兼容性，这类似于我们模型中的语义特征，而我们的模型也有能力为看不见的类生成样本，并从视觉特征中推断语义嵌入。3. 该模型在本节中，我们首先正式定义了广义零激发学习问题，概述了我们提出的模型，然后详细介绍了我们模型的各个部分。3.1. 问题定义和符号本文研究了广义零拍学习问题。具体来说，让训练数据（包括验证）定义为S={（v，y，sy）|v∈ Vs，y∈ Ys，sy∈A}，其中v是由预训练的神经网络，Vs是来自所见类的图像特征的集合，y是图像特征v的标签，YS是所见类的标签的集合，sy是属性向量（语义嵌入）对于类Y。类似地，我们可以将测试集定义为U={（v，y，sy）|v∈ Vu，y∈ Yu，sy∈ A}，其中Vu表示来自未见过类的图像特征的集合，Yu表示未见过类的标签的集合，并且Yu <$Ys=<$。广义零拍摄学习的目标是学习一个分类器f：v→ YuYs，其中v是来自可见或不可见类的图像的视觉特征。3.2. 模型概述我们提出的通用双向对抗网络（GDAN）的整体框架如图2所示。在我们的模型中有三个组件，生成器，回归器和判别器。GDAN的核心组件是生成器网络，它可以根据某些类别标签生成各种视觉特征。除了Generator之外，我们还有一个Regressor网络，它充当深度嵌入函数，试图将每个视觉特征映射回其相应类的语义特征。Generator和Regressor网络一起形成了一个双重学习框架，因此它们可以通过循环一致性损失相互学习。此外，我们还有一个额外的判别器网络，用于测量视觉-文本特征对的相似性，它通过双重对抗损失与其他两个网络进行交互。应该注意的是，三个组件中的任何一个都能够执行广义零触发学习，其中Generator表示语义→视觉方法（例如，[23，31，35]），回归表示视觉→语义方法（例如，[3，7]），而Dis- crminator表示度量学习方法，例如RelationNet [36]。我们的模型提供了一个统一的框架，所有三种不同的方法，以便利用它们各自的优点，并且对于零激发图像分类实现更好的结果图2.建议的GDAN模型的总体框架，其中黑色箭头表示数据流。3.3. 特征生成网络我们的模型最简单的一作为从正态高斯分布中随机采样的噪声向量，其广泛用于生成广告网络（GANs）[12]。然而，这种幼稚的模型缺乏从图像特征推断噪声向量的能力。因此，在这里，我们求助于条件变分自动编码器（CVAE）[30]，这是作为一种生成式编码器提出的。一种从P（z）中映射随机噪声向量z∈R dz的方法|x，c）到以上下文特征c为条件的数据分布中的数据点x。CVAE由两部分组成，编码器PE（z|x，c）映射数据点804真222CVAEGE监督重建损失循环一致性损失Rv00s0s00循环一致性损失v0假v0假s0D假s图3.详细说明我们提出的GDAN模型。E和G是CVAE的编码器和解码器/生成器，R代表回归网络，D代表对抗训练的判别器。CVAE和回归器通过循环一致性损失相互作用，而它们都通过双重对抗损失从判别器学习。为了清楚起见，图中未示出CVAE损失，并且回归量具有额外的监督重建损失。x连同其类别特征c到其潜在特征z，以及解码器/生成器PG（x|z，c），其将潜在向量映射到数据点。CVAE的训练目标是最小化以下损失函数：其执行将视觉特征映射回其对应的语义特征的反向任务。CVAE和Regressor一起形成了一个双重学习框架，以便它们可以相互学习。在我们的例子中，损耗（θE，θG）=EP数据（x，z），PE（z|x，c）[1ogPG（x|z，c）]（1）任务是生成以类em为条件的图像特征。床上用品，而双重任务是变换图像特征- D KL（P E（z|x，c）||P（z）），其中D KL（p||q）表示两个分布p和q之间的Kullback-Leibler发散，并且P（z）被视为单位高斯分布。然而，如[41，40，8，21]中所指出的，由于后部塌陷问题，CVAE为了缓解这个问题，我们遵循[31]将z从c中分离出来，使得编码器仅依赖于x（即， P G（z|x）），如如图3的左上角所示。如[21]，我们返回到相应的类嵌入。如图3的左下方所示，回归网络R将两种图像特征作为输入，其中第一种是从训练数据采样的真实图像特征v，第二种是由CVAE 生成的假特征v′=G（s，z）使用配对的训练数据（v，s），我们可以用监督损失来训练回归器添加对抗性损失以帮助更好地学习CVAE，我们将在稍后讨论条件变分的损失Lsup（R）=EP数据（v，s）||s-R（v）||二、（三）在我们的模型中使用的自动编码器（CVAE）定义如下：此外，回归器与CVAE相互作用，以下是循环一致性丢失：LC VA E（θE，θG）=EPdata（v，s），PE（z|v）[logPG（v|z，s）]（2）- D KL（P E（z|v）||P（z）），Lcyc（θG，θE，θR）=EP数据（v，s），PE（z|（v）[||v−G（R（v），z）||2（四）其中v是图像尽管像VAE [16]和GAN [12]这样的生成模型已被证明在生成图像方面是有效的，但对于具有复杂对象的图像，生成模型的输出图像仍然是模糊的，并且合成图像通常缺乏清晰度来揭示对象的详细属性，这对于零拍摄学习很重要[7]。因此，我们不是生成原始图像，而是训练CVAE来生成视觉特征v，其中地面真实视觉特征由ImageNet上预训练的图像分类模型提供[28]。3.4. 回归网络虽然CVAE学习从语义特征生成视觉特征，但我们的模型也有一个回归网络+的||s-R（G（s，z））||2]，其中G是CVAE和PE（z）的解码器/生成器|v）由图3中的编码器E实现。3.5. 鉴别器网络到目前为止，Generator和Regressor已经结合了语义→视觉和视觉→语义的方法，但它仍然缺乏从一个灵活的度量，可以更好地评估特征的相似性学习为了结合度量学习，我们的第三个组件模型是一个判别器网络D（如图3右侧所示），它将视觉-语义特征对（v，s）作为输入，并输出一个兼容性得分，该得分指示v属于由s表征的类别的程度。鉴别805器网络学习如何评估接近度806数据数据E数据data数据E将图像特征与类别相关联，而不是使用预定义的度量，如L1/L2距离或余弦相似性。为了训练判别器来区分不同类型的假数据，受Text-to-Image-GAN [26]的启发，我们还用两种假数据训练判别器放，即（G（s，z），s）和（v，s−），其中s−是随机采样类的嵌入，s f = s −。此外，我们增加了一个新的第三种类型的假输入产生的回归，即。（v，R（v））.通过这种方式，不仅CVAE，而且回归器也可以通过对抗训练从判别器学习由于GAN是出了名的难以训练，因此有许多方法试图稳定GAN的训练过程[12，22，4，13]。在我们的模型中，我们应用LS-GAN [22]作为对抗性损失的训练方法，因为它的简单性和有效性。因此，我们模型的判别器的对抗损失可以定义为：Ladv（θD）=EP（v，s）[D（v，s）−1]2（5）+EP（v，s），P（z|v）[D（G（s，z），s）2]其中，λ1、λ2和λ3是超参数，它们为整体损失的不同部分分配权重。我们的GDAN模型的训练过程如下：我们首先使用等式2预训练CVAE，然后使用等式5和等式8以对抗方式训练整个模型。实现细节将在实验部分提供。3.7.评价方案一旦模型已经训练好，为了预测未见过的类的标签，我们可以首先为每个未见过的类生成新的样本，然后将这些合成样本与训练数据中的其他样本相结合，之后我们可以基于这个包含可见和未见过类的样本的新数据集训练任何新的分类器。为了与其他基线进行公平的比较，我们只应用了一个简单的1-NN分类器进行测试，这在大多数基线中使用4. 实验在本节中，我们对四个+EP数据（v）[D（v，R（v））2]广义零炮+EP（v，s），P（s−|s）[D（v，s−）2]，其中第一项是真实样本（v，s）的损失，第二项代表由生成器生成的特征的分数，第三项代表由回归器生成的类嵌入的分数，最后一项是训练鉴别器以区分真实图像特征和真实负类嵌入的控制损失。负样本s-是从训练类集合{s-|y∈Ys，s−s}。这里学习设置。4.1. 数据集和设置我们将GDAN模型与几个基线进行比较，[24]，[25]，[26]，[27]，[28]，[29]，之间这些数据集，aPY[10]和AWA2[34]分别是粗粒度和中小尺寸，而SUN[24]和CUB[32]都是中等细粒度的数据集。我们遵循培训/验证/测试划分以及年龄和阶级特征[34]。统计这些数据集总结在表1中。CNOD试图将真实样本的分数推到1，并将生成样本的得分推到0，而生成器G试图将其合成样本的得分推到1。此外，CVAE和Regressor的对抗性损失可以对于图像特征和类嵌入，我们使用[34]提供的公开可用的特征。我们还采用广泛使用的平均每类top-1精度来评估每个模型的性能，定义如下：定义为：加速度Y=1|Σ|Y||c中的校正预测数（九）Ladv（θR）=EP数据（v）[D（v，R（v））−1]2（6）||Y||Cc中的样品数量Lad v（θE，θG）=EP （v，s），P（z|v））[D（G（s，z））−1]2（七）3.6. 完整的目标和培训程序在对抗训练中，CVAE和Regressor分别与其他两个网络进行训练，而我们使用定义为的总体损失来训练CVAE和RegressorL（θG，θE，θD，θR）= LCVAE（θG，θE）+ Ladv（θG，θE）+λ1μLcyc（θG，θE，θR）+ λ2Lsup（θR）807在广义零激发学习设置中，在测试短语期间，我们使用来自可见和不可见类的图像，并且标签空间也是可见和不可见类的组合YsYu。我们希望可见类和不可见类的准确性尽可能高，因此我们需要一个可以反映模型整体性能的指标。由于算术平均值可能会受到极值的显著影响，因此我们遵循[34]并使用调和平均值。假设AccYs和AccYu分别表示来自可见和不可见类别的图像的准确度，可见和不可见准确度的调和平均值H因此被定义为：+λ3 adv.（θR），（八）H=2AccYuAccYs加速度Yu+加速度 Ys（十）808数据集#属性#看到的类（train+val）#看不见类图片数量（总计）图片数量（train+val）图片数量(test看不见的/看不见的）APY[10]64十五加五121533959327924/1483AwA2[34]8527+131037332235277913/5882古巴[32]312100+50501178870572679/1764[24]第二十四话102580+657214340103201440/2580表1.数据集的统计数据集孙幼崽AwA2APY方法USHUSHUSHUSH[第39话]2.136.44.08.546.914.48.182.614.80.278.90.4LATEM [33]14.728.819.515.257.324.011.577.320.00.173.00.2ALE [1]21.833.126.327.362.834.414.081.823.94.673.78.7[第11话]16.927.420.923.853.032.817.174.727.84.976.99.2SJE [2]14.730.519.823.552.933.68.073.914.43.755.76.9西班牙语[27]11.027.915.812.663.821.05.977.811.02.470.14.6同步[5]7.943.313.411.570.919.810.090.518.07.466.313.3严重不良事件[17]8.818.011.87.854.013.61.182.22.20.480.90.9[第38话]34.320.525.619.657.929.230.586.445.111.179.419.4[36]第三十六话---38.161.147.03093.445.3---PSR-BRL [3]20.837.226.724.654.333.920.773.832.313.551.421.4SP-AEN [7]24.938.230.334.770.646.623.390.931.113.763.422.6[23]第二十三话--26.7--34.5--51.2---GDAN38.189.953.439.366.749.532.167.543.530.475.043.4[31]第三十一话40.930.534.941.553.346.758.368.162.8---[35]第三十五话42.636.639.443.757.749.7------表2.在四个基准数据集上评估的广义零射击学习结果。* 请注意，SE-GSWL [31]训练了一个额外的LinearSVC用于测试，而f-CLSWGAN [35]训练了额外的嵌入模型用于测试，因此它们的结果可能无法与其他模型直接比较。4.2. 实现细节我们将模型的CVAE、回归器和判别器实现为前馈神经网络。CVAE的编码器有1200和600个单元的两个隐藏层，而CVAE的生成器和判别器用800个隐藏单元的一个隐藏层实现。回归器只有一个600单位的隐藏层对于所有数据集，噪声向量z的维度被设置为100我们使用λ1=λ2=λ3= 0。1，并发现它们通常工作良好。我们选择Adam [15]作为我们的优化器，动量设置为（0.九比零。判别器的学习率被设置为0。00001，而CVAE和Regressor的学习率为0。0001 diter和giter被设置为1，这意味着我们的模型训练的所有模块具有相同的批数。我们在每个数据集上训练500个epoch，每10个epoch保存一次模型检查点，然后对验证集进行评估，以找到最佳的测试集。我们的代码也可在线1.1www.github.com/stevehuanghe/GDAN4.3. 结果我们将我们的模型与最近的最先进的广义零射击学习方法进行了比较，结果如表 2 所示。虽然 f-CLSWGAN [35]也使用GAN进行零次学习，但它训练了其他嵌入方法，如[1，2，11，33]，而大多数基线仅使用1-NN进行测试，因此其结果可能无法与其他方法直接比较。SE-GREML [31]也与我们的模型密切相关，但它训练了一个额外的LinearSVC用于测试，因此它不能与其他方法直接比较对于f-CLSWGAN [35]和SE-GSWL [31]，我们只是将他们的结果从原始论文[35，31]中复制并粘贴到表2中以供参考。从表2中可以看出，我们的模型在SUN [24]中实现了显著的性能增益。对于可见和不可见的类，我们的方法在所有基线中达到了最高的准确度，并且在从可见类分类图像方面有了显着改进，我们的方法也优于深度嵌入模型[38，3，7]和生成模型，如[23]以及度量学习模型[36]一个很大的差距。这说明了把809视觉→语义，语义→视觉和度量学习到一个框架。对于CUB [32]数据集，我们的模型对于看不见的类实现了最高的准确性，而我们对于看到的类的准确性略低于SP-AEN [7]。尽管如此，我们仍然达到了49.5%的最高谐波平均值，比第二名的 CNONet 高出2.5%[36]。这再次表明，我们的模型在预测可见和不可见类的图像方面保持了良好的平衡，而以前的方法可能无法像我们一样管理权衡。对于AwA 2 [34]，我们的GDAN在不可见的类准确度和调和平均准确度方面都优于一些最近的方法，如SP-AEN [7]和PSR-BRL [3]。尽管DEM [38]和GDAN[36]在调和平均准确度方面略优于我们的GDAN，但GDAN实现了比它们更高的不可见类准确度，裕度为1.6%。根据[7]，aPY [10]与其他数据集（SUN为0.98，CUB为0.95，AwA2为0.74）相比，不相交的训练和测试图像的属性方差之间的余弦相似性（0.58）要小得多，这意味着难以合成和分类不可见类别的图像。虽然以前的方法对于看不见的类的准确性相对较低，但对于这样一个困难的数据集，我们的性能增益甚至更高。与所有以前的模型相比，我们的GDAN实现了更高的准确率为16%的大幅度不可见的类，仍然我们的模型maintains一个高精度的可见类。从以前模型的结果中，我们可以看到，虽然它们通常对可见类实现非常高的准确性，但在从不可见类预测图像时，它们的表现非常差，而我们的模型在可见类和不可见类之间实现了良好的平衡，这使我们在aPY上具有最高的谐波平均准确性[10]。4.4. 成分分析在这一节中，我们研究的问题是，这三个组成部分在训练中是否真的互相帮助，所以我们训练数据集孙幼崽AwA2APYCVAE30.133.728.528.1鉴别器0.071.434.21.2回归器0.13.43.810.1鉴别器-GDAN1.03.311.211.1回归GDAN5.84.37.111.5GDAN不带光盘37.338.231.429.6GDAN（不含注册）37.438.130.929.3GDAN38.139.332.130.4表3.组件分析的不可见的类精度在四个数据集上评估的不可见类准确度的结果如表3所示。正如我们所看到的，单独的CVAE组件与许多基线（如PSR-EML [3]和SP-AEN [7]）相当，而回归器和判别器本身非常弱，这是合理的，因为它们被实现为只有一个隐藏层的神经网络。如果我们只使用其中两个组件进行训练，正如我们从表3的第二行和最后一行看到的那样，我们的模型仍然具有与其他基线相比的主要性能增益，并且回归器或判别器对提高CVAE的性能具有类似的效果此外，如果我们一起训练所有三个组件，我们发现不仅CVAE组件为看不见的类生成更好的样本，而且鉴别器和回归器也有性能提升，这证明了将三个组件置于统一框架下的有效性。3836343230让他们独立地观察自己独处时的表现我们使用公式2训练CVAE组件，并使用与GDAN相同的协议进行评估。对于鉴别器，我们使用等式5训练它，但只有两种输入，即：（v，s）和（v，s−）。在评估过程中，对于每个图像特征，我们使用Discrimiantor计算其与所有类嵌入的匹配得分，并将其分配给具有最大得分的类。至于回归量，我们用公式3训练它，并使用1-NN进行评估。我们还可以使用我们训练的GDAN模型的鉴别器和回归器，并在广义零射击学习中测试它们的性能，我们将它们表示为鉴别器 GDAN 和回归器GDAN。我们还分别训练了没有判别器（GDAN w/oDisc）和没有回归器（GDAN w/o Reg）的GDAN100 200 300 400 500合成样品图4.根据合成样本的数量测试不可见类的准确度4.5. 合成样品我们还分析了合成样本的数量如何影响测试精度，如图4所示。正如我们所看到的，对于AwA2 [34]，增加合成样本的数量对增加看不见的类的预测准确性没有多大帮助，而对于其他类，准确性随着合成样本数量的增加而增加，并且当合成样本的数量增加时饱和。APYAwA2幼崽孙测试看不见的类8106040200204060(a)（b）第（1）款图5.（a）AwA 2和（b）aPY数据集中不可见类别的合成（·）和真实（×）图像特征的t-SNE可视化大约是400。此外，随着合成样本数量的增加，CUB[32]和SUN [24]的性能比其他两个数据集有更大的提高，这可能是因为CUB [32]（50）和SUN [24]（72）中的不可见类比aPY [10]（12）和AwA2 [34]中的不可见类多得多。因此，更多的合成样本可以更好地帮助区分这些类别中的图像。4.6. 合成图像特征为了对我们提出的GDAN模型进行定性评估，我们将一些合成图像特征与一些真实图像特征一起可视化，结果如图5所示。由于CUB [32]和SUN [24]的不可见类的数量相对较大，因此难以可视化，因此我们仅可视化AwA2 [34]和aPY [10]的结果。对于每个看不见的类，我们合成200个图像特征，并且我们还为每个看不见的类随机抽取200个真实图像特征，然后我们使用t-SNE [20]将维度减少到2以进行可视化。从图5（a）中的真实样本中，我们可以看到一些类在很大程度上相互重叠，例如蓝鲸和海象，老鼠和蝙蝠。这种重叠是合理的，因为蝙蝠和大鼠在生物学上彼此相似，因此蝙蝠的合成样品也接近大鼠。对于大多数类别，如山猫、马、海豚，合成图像特征非常接近真实样本，其中一些甚至与真实样本重叠得很好，如蓝鲸、绵羊和长颈鹿。一个失败的情况是老鼠类，我们可以看到，合成样本远离真实样本。除此之外，从图5（a）中可以看出，1-NN可以很好地预测大多数类的测试图像的标签。对于aPY [10]也可以得出类似的结论，如图5（b）所示。应该注意的是，aPY [10]的真实样本是密集杂乱的，并且许多类在很大程度上彼此重叠，特别是在图5（b）的右下部分，其中至少有4个类。类几乎完全重叠在一起。从更接近图边界的其他类的可视化中，我们可以看到我们的模型生成了非常好的视觉特征，这些特征与真实的特征非常匹配，例如羊、摩托车和人类。即使对于密集杂乱的区域，合成特征仍然完全位于该杂乱区域内，这意味着我们的模型仍然可以生成这些杂乱类的非常好的示例。然而，正如AwA2 [34]数据集一样，这里仍然存在一些失败的情况，例如，雕像类的合成特征与真实特征并不非常接近。5. 结论在本文中，我们研究了广义零杆学习问题，并提出了GDAN，一个统一了三种不同方法的模型：视觉→语义映射（general-tor）、语义→视觉映射（回归）和度量学习（学习）。生成器和回归器以双重学习的方式相互学习，而它们都通过双重对抗性损失向对方学习通过这种方式，我们的模型提供了一个统一的框架，以弥合视觉和语义空间之间的差距，在一个通用的双重对抗框架。在四个基准数据集上的大量实验证明了我们的模型在平衡可见类和不可见类之间的准确性方面的有效性。成分分析还表明，这三个成分中的每一个都可以从联合训练中受益，从而证明了我们提出的模型的有效性。我们还可视化了看不见的类的合成视觉特征，以表明我们的模型能够生成高质量的视觉特征。确认这项工作得到了美国国家科学基金会（NSF）的部分资助，包括 IIS-1526499 、 IIS-1763325 和 CNS-1626432，以及国家自然科学基金（NSFC）。61672313 和广东省自然科学基金资助青年学者（2016A030306014）。蓝鲸海豚蝙蝠海象长颈鹿山猫海豹鼠60402002040606040200204060驴山羊摩托牛jetski火车羊雕像马人盆栽6040200204060811引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特基于属性分类的标签嵌入在IEEE计算机视觉和模式识别会议论文集，第819-826页1、6[2] Z. Akata、S.里德D.沃尔特，H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评估。IEEE计算机视觉和模式识别会议论文集，第2927-2936页，2015年1、6[3] Y. Annadani和S.比斯瓦斯为零次学习保留语义关系在IEEE计算机视觉和模式识别会议论文集，第7603- 7612页，2018年。三六七[4] M. Arjovsky，S.Chintala和L.博图Wasserstein ganarXiv预印本arXiv：1701.07875，2017。二、五[5] S. Changpinyo，W.- L. Chao湾Gong和F.煞为零射击学习合成大小的分类器在IEEE计算机视觉和模式识别会议论文集，第5327-5336页6[6] W.- L. Chao，S.昌皮纽湾Gong和F.煞一个实验研究和分析广义零射击学习的对象识别在野外。欧洲计算机视觉会议，第52-68页。施普林格，2016年。1[7] L. Chen，H. Zhang，J. Xiao，W. Liu和S.- F.昌零镜头视觉识别使用语义保持的逆向嵌入网络。在IEEE计算机视觉和模式识别会议集，第2卷，2018年。三、四、六、七[8] X. Chen ，中国粘蝇 D. P. Kingma ， T. Salimans ， Y.Duan，P. 达里瓦尔舒尔曼岛Sutskever和P.阿比尔变分有损自动编码器。arXiv预印本arXiv：1611.02731，2016年。4[9] G. Dinu，A. Lazaridou和M.巴罗尼通过缓解中心度问题来改进零次学习。arXiv 预印本arXiv ： 1412.6568 ，2014。1[10] A. 法尔哈迪岛Endres、D.Hoiem和D.福赛斯按属性描述对象。在计算机视觉和模式识别，2009年。CVPR2009。IEEE会议，第1778-1785页。IEEE，2009年。五六七八[11] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩T. Mikolov等人Devise：一个深度的视觉语义嵌入模型。神经信息处理系统的进展，第2121-2129页，2013年。1、6[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，第2672-2680页，2014年。二三四五[13] I. Gulrajani， F. 艾哈迈德， M 。阿尔约夫斯基河谷Dumoulin，以及A. C.考维尔改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展，第5767-5777页，2017年。二、五[14] D. 他，Y.夏氏T.钦湖，加-地Wang，N.Yu，T.刘和WY.MA.机器翻译的双重学习神经信息处理系统的进展，第820-828页，2016年2[15] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。6[16] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。4[17] E. Kodirov，T.Xiang和S.龚用于零触发学习的语义自动编码器arXiv预印本arXiv：1704.08345，2017。1、6[18] C. H. Lampert，H. Nickisch和S.伤害。学习通过类间属性转移检测不可见对象类。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第951-958页。IEEE，2009年。1[19] P. Luo，G.王湖，加-地Lin和X.王.用于语义图像分割的深度双重学习。在IEEE计算机视觉和模式识别会议论文集，第21-26页，2017年。2[20] L. v. d. Maaten和G.辛顿使用t-sne可视化数据。Journalof Machine Learning Research，9（Nov）：2579-2605，2008. 8[21] A. 马赫扎尼J.Shlens，N.杰特利岛Goodfellow和B.弗雷对抗性自动编码器。arXiv预印本arXiv：1511.05644，2015。4[22] X.茅角，澳-地Li，H.谢河，巴西-地Y. Lau，Z. Wang和S.史莫利。最小二乘生成对抗网络。在Computer Vision（ICCV），2017 IEEE国际会议上，第2813-2821页。IEEE，2017年。二

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

广义零拍摄学习中的视觉→语义映射、语义→视觉映射和深度度量学习方法

什么是零样本学习？什么是广义零样本学习？什么是生成式零样本学习？

机器学习和深度学习的关系

机器学习和深度学习的区别

深度学习 机器学习 优劣对比

深度学习和机器学习的区别

简述机器学习和深度学习的区别。

机器学习和深度学习的关系是什么？

人工智能、机器学习、深度学习的关系是什么？

深度学习与机器学习的关系

机器学习、深度学习、人工智能的关系

logistic回归模型是深度学习吗

深度图神经网络和广义神经网络的关系

求广义表深度的算法

1.字符串变广义表 2.广义表的复制 3.广义表的长度 4.广义表的深度 5.广义表的表头 6.广义表的表尾 7.推出程序

广义表的广度（长度）和深度的计算

纹理采样跟纹理映射有什么不同吗

C语言求一个广义表的长度和深度

试着按表头表尾的分析方法重写求广义表的深度的递归算法

python摄影交流平台代码

线上辅导班系统-线上辅导班系统-线上辅导班系统-线上辅导班系统-线上辅导班系统-线上辅导班系统-线上辅导班系统-线上辅导班系统

最新资源

深度学习机器学习优劣对比