生成式零触发学习：利用生成式零触发学习方法处理不可见的视觉样本，通过利用不变侧GAN生成灵魂样本来实现零拍学习

82 浏览量更新于2023-10-18 收藏 849KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7402利用生成式零触发学习李晶晶1，景梦梦1，柯璐1，丁正明2，朱磊3，黄子41电子科技大学; 3山东师范大学; 2印第安纳大学-普渡大学印第安纳波利斯分校;4昆士兰大学lijin117@yeah.net摘要查看样品语义属性生成的假样本传统的零激发学习（zero-shot learning，简称ZNL）方法通常学习嵌入，例如，视觉语义映射，以通过间接方式处理不可见的视觉样本。在本文中，我们利用生成对抗网络（GANs）的优势，提出了一种新的方法，称为利用不变侧GAN（LisGAN），它可以直接从受语义描述条件约束具体来说，我们训练了一个条件Wasserstein GANs，其中生成器从噪声中合成了虚假的不可见特征，而神经网络通过极大极小博弈将虚假与真实区分开来考虑到一个语义描述可以对应多个合成的视觉样本，而语义描述形象地说是生成特征的灵魂，本文引入灵魂样本作为生成零拍学习的不变侧。灵魂样本是一个类的元表示它可视化了同一类别中每个样本的最有语义意义的方面我们正则化，每个生成的样本（生成的类L的变化侧）应该接近至少一个灵魂样本（不变侧），该灵魂样本与它具有相同的类标签。在零拍识别阶段，我们建议使用两个分类器，这是部署在一个级联的方式，以实现一个由粗到细的结果。五个流行的基准测试的实验验证，我们提出的方法可以超越国家的最先进的方法与显着的改进1。1. 介绍一般来说，计算机视觉算法只能处理出现在训练数据集中的对象。换句话说，算法只能识别以前见过的对象。然而，对于一些特定的现实世界应用，我们要么没有一个对象的训练样本，要么样本太昂贵而无法标记。为1代码和数据集可在github.com/lijin118/LisGAN图1.使用GAN进行零射击学习，即，生殖细胞例如，我们希望这种方法在遇到来自一个物种的罕见基因突变样本时触发一条消息。不幸的是，我们没有样本的视觉特征进行训练。我们所拥有的仅仅是从正常实例中提取的图像和一些描述突变特征及其与正常实例的区别传统的机器学习算法在这项任务中会失败，但人类不会。人类只需要通过阅读一些语义描述就能在第一眼就识别出一个看不见的物体。受此启发，提出了零射击学习（ zero-shot learning ，简称ZNL）[5，32，35，36]，通过仅在可见对象和关于可见和不可见类别的语义描述上训练的模型来处理不可见对象由于可见和不可见的类通过语义描述连接，因此自然的想法是学习视觉-语义映射，使得可见和不可见的样本都可以在语义空间中进行比较。例如，以前的作品[5，37-39]学习了零次学习的浅嵌入或深嵌入。这些方法通过间接的方式处理不可见的样本。由于一个语义描述可以对应大量的视觉样本，有限的语义信息限制了零次学习的性能。最近，由于生成对抗网络（GAN）[8]的进步，提出了一些方法来直接从随机噪声和语义描述[24，34，40]中生成看不见的样本，如图所示。1.利用生成的未知样本，零次学习可以转化为一般的监督机器学习火车不可见样本输入承认GAN7403问题.然而，在这样的学习范式中，零触发学习的挑战也被传递给了GAN。在基于GANs的零触发学习范例中，我们必须解决虚假和无灵魂的生成问题。具体来说，我们通常只有一个语义描述，例如，一个属性向量，一篇文章或一段文字，用于特定的类别，但语义描述与视觉空间中的大量图像有着内在的联系例如，“有尾巴的四足动物”可以映射到许多动物，例如，猫狗和马同时，来自不同类别的一些对象具有非常相似的属性，例如“老虎”和“狮子”。因此，零射击学习的生成对抗网络必须挑战两个问题：1）如何保证基于有限甚至相似属性的生成多样性？2)如何保证生成的每个样本都与真实样本及其对应的语义描述高度相关？然而，由于部署GANs来解决GANL问题是一个新的话题，大多数现有的工作都没有明确解决这两个问题。本文提出了一种新的方法，它将这两个方面都考虑在内，并在制定过程中谨慎处理。首先，为了保证生成的样本是有意义的，我们建议从随机噪声中生成样本，这些噪声是以类语义分解为条件的。同时，我们还在GAN训练中引入了监督分类损失，以保证对抗训练中的类间区分度。此外，为了确保每个合成样本（生成零触发学习的变化侧）与真实样本和相应的语义描述（不变侧）高度相关，我们在本文中引入了灵魂样本，如图所示。3.对于看不见的类，生成的样本的视觉特征仅取决于语义描述。因此，语义信息是生成样本的灵魂.灵魂样本必须不是非常具体的，以便它可以清楚地可视化最有语义意义的方面，并与尽可能多的样本相关因此，对于所看到的图像，我们定义灵魂样本是它们的平均表示对于生成的样本，我们将其正则化以接近灵魂样本。因此，我们可以保证每个生成的样本是高度相关的真实的和相应的语义描述。概括起来，本文的主要贡献是：1) 我们提出了一种新的基于生成对抗网络的学习方法LisGAN。具体来说，我们部署了条件GAN来解决两个问题：生成多样性和生成可靠性。为了提高生成特征的质量，我们引入灵魂样本，灵魂样本被定义为每个类别的表示通过进一步考虑不同图像的多视图性质，我们建议定义多个每个班级的灵魂样本。我们将每个生成的样本正则化为接近至少一个灵魂样本，以便生成零激发学习中的变化侧不会与不变侧分离。2) 在零触发识别阶段，我们提出，如果我们有很高的信心，在识别一个看不见的样本，样本（与其分配的伪标签）将杠杆年龄作为参考，以识别其他看不见的样本。具体来说，我们建议使用两个分类器，这是部署在级联的方式，以实现一个由粗到细的结果。我们还报告了一个简单而有效的方法来衡量分类的信心在本文中。3) 在五个广泛使用的数据集上进行的大量实验证明，我们提出的方法可以比最先进的方法有显着的改善。2. 相关工作2.1. 零射击学习受人类仅通过了解对象的一些语义描述就可以一眼识别对象的能力的启发，零射击学习[4，6，13，17，35]旨在学习具有良好泛化能力的模型，该模型可以通过仅提供一些语义属性来识别未见过的对象。典型的零次学习模型是在仅包含可见样本的视觉特征和包含可见和不可见样本的语义特征上训练的。由于可见对象和不可见对象仅在语义空间中连接，并且不可见对象需要通过视觉特征来识别，所以零拍摄学习方法通常使用可见样本来学习视觉语义嵌入。在零激发分类阶段，未看到的样本被投影到语义空间中并由语义属性标记[5，15，16，29]。代替学习视觉语义嵌入，一些先前的工作还提出学习语义视觉映射，使得未看到的样本可以由看到的样本表示[12，30]。此外，也有一些研究发现视觉特征和语义特征共享一个中间空间[4，38，39]。除此之外，CNOL还与域适应和冷启动推荐相关[18从最近的文献中，典型的零激发学习任务是零激发分类[11，36]，零激发检索[22]和广义零激发识别[32]。零激发学习和广义零激发识别之间的主要区别在于，前者仅将未见过的样本分类在未见过的类别中，而后者将样本重新识别，这些样本可以是可见的和未见过的，在可见和未见过的类别中。很容易观察到，传统的零触发学习方法是间接的。他们通常需要学习一个空间7404语义属性（见）随机噪声灵魂样本正规化假目视样本真实样品真/假？GAN鉴别器（未见）GAN生成器不可见样本分类器分类损失斑马利用自信的结果图2.LisGAN（Leveraging Invariant Side GAN）的概念图我们训练了一个条件WGAN来从随机噪声和语义属性中生成虚假的不可见每个类的多个灵魂样本被引入以正则化生成器。利用高置信度分类的未知样本来微调最终结果。映射函数最近，通过利用生成对抗网络[3，8]，提出了几种方法[34，40]来直接从其相应的属性中生成未见过的样本，这将传统的零射击学习转换为经典的监督学习问题。2.2. 生成敌对网络典型的生成对抗网络（GANs）[8]由两个组件组成：一个发生器和一个鉴别器。这两名球员以对抗的方式训练。具体地，生成器G试图从输入噪声中生成假图像以欺骗伪图像，而辨别器D试图区分真实图像和假图像。一般来说，G的输入是随机噪声，输出是合成图像。D的输入是真实图像和假图像，输出是概率分布。在本文中，我们部署G来生成样本特征，而不是图像像素。虽然GAN已经显示出令人印象深刻的结果和深远的影响，但普通 GAN 很难训练。 Wasserstein GANs（WGANs）[3]提供了传统GAN训练的替代方案。WGAN可以提高学习的稳定性，摆脱模式崩溃等问题，并提供有意义的学习曲线，用于调试和超参数搜索。此外，提出了条件GAN [23]来增强传统GAN的输出。使用条件GAN，可以将类标签和其他信息合并到生成器和训练器中，以合成指定的样本。3. 该方法3.1. 定义和符号给定n个既具有视觉特征X∈Rd×n又具有语义描述A∈Rm×n的已标记可见样本进行训练，零射击学习的目标是识别出nu个未知视觉样本Xu∈Rd×nu，这些样本只具有语义描述Au∈Rm×nu进行训练。设Y和Yu为分别是X和X u的标签空间，在零次学习中，我们有Y<$Y u=<$。假设我们对可见数据和不可见数据分别有C和C u分类，经典的零激发学习只通过在C u中搜索来识别X u，而广义的零激发学习在C u C s中搜索。语义描述A和A u被提供为二进制/数值向量或词嵌入/RNN特征。每个语义描述a对应于一个类别y。形式上，给定{X，A，Y}和{A u，Y u}进行训练，零射击学习的任务是学习函数f：Xu→ Yu和广义零次学习是学习函数f：{X，Xu}→Y <$Yu。3.2. 总体思路在本文中，我们利用GANs直接生成来自随机噪声和语义描述的不可见样本的假视觉特征。然后，合成的视觉特征被用来作为参考，以分类真正的看不见的样本。由于我们只有Au，GAN判别器在训练阶段不能访问Xu，因此不能玩真或假游戏。因此，我们主要在所看到的类上训练GAN。同时，我们部署了条件GAN，以便类嵌入可以结合到发生器G和鉴别器D中。由于{A，Y}和{Au，Y u}是互连的，即，A和A u具有相同的语义空间，为所见类生成高质量样本的条件GAN也有望为看不见的分类本文的主要思想如图2所示。与现有的方法相比，这些方法也部署了GAN进行零射击学习，我们的新颖性来自两个方面。第一个是我们在每个类中引入多第二个是我们利用以高置信度分类的不可见样本来促进随后的不可见样本。第5节中报告的实验表明，我们可以在各种数据集上实现对最先进方法的显着改进。7405KKKKK12Ks~=图3.马类的灵魂样本。考虑到视觉对象的自然多视图属性，例如，一个物体的真实图像通常是从不同的视角捕捉的，我们建议为每个类学习多个灵魂样本。通过这样的公式化，可以缓解由不同观点引起的域转移问题3.3. 训练LisGAN给定所看到的样本{X，A，Y}，属性Au在不可见样本和随机噪声z<$N（0，1）中，GAN生成器G使用输入a和噪声z来合成-为了保证生成的每个特征都与语义描述和真实样本高度由于类别的灵魂样本应该尽可能反映类别的最显著特征，因此我们部署了类别c中所有样本的平均表示来定义c的灵魂样本，这与用于少量学习的原型网络相似[31]。此外，考虑到真实样本的自然多视图特性，如图11所示。3，我们进一步提出类别C应该具有多个灵魂样本以解决多视图问题。为此，我们首先将一个可见类的真实特征分组为k个聚类。为了简单起见，本文中我们固定k=3。然后我们计算一个灵魂样本对于每个集群。设{Xc，Xc，···，Xc}为k个簇12k大小假功能。与此同时，D将真实图像x和G（z，a）的特征作为输入对于类别c，灵魂样本Sc={Sc，Sc，···，Sc}被定义为：s c=1x.以辨别输入特征是真的还是假的。为了-一般来说，G的损失可以用公式表示如下：K|XC|我xi∈Xc（三）L G= −E [D（G（z，a））] − λE [log P（y|G（z，a））]，（1）类似地，对于生成的假特征，我们也可以将soulsamplesc定义为：其中第一项是Wasserstein损失[3]，第二项是在合成尺寸特征上的监督分类损失，λ >0是平衡参数。C1K|Xc|Σx{\displaystylex}i，x<$i∈X<$c（四）类似地，可以用公式表示如下所示LD=E[D（G（z，a））]−E[D（x）]其中x∈i=G（z，a）是生成的特征。在本文中，我们鼓励每个生成的样本类C的x_i应该接近至少一个灵魂样本S_c。形式上，我们引入以下正则化：-λ（E[logP（y|G（z，a））]+ E[logP（y|（二）-βE[（xD（x）<$2 −1）2]，1名儿童1名儿童2名儿童其中β >0是超参数。第四个词，simi-LR1=n1mini=1j∈[1，k]x与第三个最大，是一个监督分类损失真实样本最后一项用于执行Lipschitz约束[9]，其中x∈=µx+（1−µ）G（z，a），其中µ∈U（0，1）。正如[9]中所建议的，我们固定β=10。在我们的模型中，我们将样本的CNN特征作为视觉输入X.生成器和嵌入式系统都是用完全连接的层和ReLU ac实现的。其中，n1是生成的样本的数量，k是每个类的灵魂样本的数量。同时由于灵魂样本也可以被视为一个聚类的质心，我们鼓励假灵魂样本应该接近来自同一类的至少一个真实灵魂样本，这可以公式化为：激励因此，该模型是可行的，纳入1摄氏度c c2不同的CNN架构。同时，生成器的输出是直接的视觉特征，而不是IM。LR2=Cminc=1j∈[1，k]s年龄像素。通过优化上述两人极大极小博弈，条件GAN生成器能够合成具有类嵌入的所见图像的假特征7406A.由于不可见对象与可见样本共享相同的语义空间，因此条件GAN生成器还可以通过Au合成不可见类别的视觉特征。在Eq中的优化问题。(1)和等式(2)我们的模型可以保证具有相似属性的生成多样性。在监督分类损失的情况下，它还可以确保学习的特征对于进一步分类是有区别的。然而，该模型没有明确地解决所生成的特征的质量在这其中C是类别总数与两正则化LR1和LR2，我们的模型避免了生成无灵魂的特征。生成的每个特征都将接近真实特征，这保证了假特征从另一个角度来看，LR1是处理单个样本的个体正则化，而LR2是处理聚类的组正则化。3.4. 预测未知样本一旦GAN被训练成能够为可见的类生成视觉特征，它还可以为具有随机噪声和语义7407我属性Au.然后，零射击学习自动转换为监督学习问题。具体来说，我们可以在生成的特征上训练一个softmax分类器，并对真实的不可见特征进行分类。softmax公式化为最小化以下负对数似然：表1.数据集统计。# Seen Classes中的（数量）表示GALML中用于测试的可见类数量。min −1ΣlogP（y|x; θ），|X|（x，y）∈（X，Y）其中θ是训练参数，⊤P（y|x; θ）= θ exp（θy x）（七）.（八）物种每个物种都与维基百科文章相关联，并按科学分类（目，科，属，种）组织28个属性分组和312个二进制属性的词汇表与基于Ni=1 exp（θx）一个在线的鸟类物种识别工具。Oxford Flowers（FLO）[25]数据集由8，189个im-在本文中，我们进一步提出，我们可以利用一个如果我们有足够的信心相信样本已被正确分类，则称为未见过的样本由于softmax层的输出是一个包含所有可能类别的概率的向量，因此向量的熵可用于衡量结果的确定性概率向量的熵越小，结果的可信度越高.因此，我们利用具有低分类熵的样本，并将它们作为参考来分类其他未见过的样本。具体来说，我们通过以下方式计算样本熵：ΣCE（y）= −y clog y c。（九）c=1在我们的模型中，我们通过级联方式部署两个分类器来预测未见过的样本。第一个分类器用于评估分类置信度，第二个分类器用于利用正确分类的样本。在我们的零触发识别中，第一个分类器是在生成的假特征上训练的softmaxsoftmax分类器，SVM，或者只是一个无训练分类器，例如，NNC。4. 实验4.1. 数据集APascal-aYahoo （ aPaY ）包含来自 PASCAL VOC2008数据集和Yahoo图像搜索引擎的32个类别。具体来说，20个类来自PASCAL，12个类来自Yahoo。aPaY总数为15，339人。根据以前的工作[35，40]，我们将PASCAL VOC 2008 部署为可见数据集，并将Yahoo部署为不可见数据集。为每个类别注释额外的64维属性向量。Animals with Attributes（AwA）包含50种动物类别的30，475张图像。动物类与Osherson的经典类/属性矩阵对齐从而为每个类提供85个数字属性值Caltech-UCSDBirds-200-2011（CUB）[33]是CUB-200数据集的扩展版本。CUB是一个包含200只鸟的11，788张图像的chal-challenging数据集来自102个花卉类别。每个类别包括40到258张图像。图像具有大的比例、姿势和光线变化。此外，还有类别内差异较大的类别和几个非常相似的类别。对于这个数据集，我们使用Reed等人提供的相同语义描述。[28]第10段。SUN属性（SUNattributes，SUN）[27]是一个大规模的场景属性数据集，涵盖717个类别和14，340张图像。每个类别包括102个属性标签。为了清楚起见，我们在表1中报告了数据集统计数据和零次分割设置aPaY、AwA、CUB和SUN的零激发分裂对于真正的CNN特征，我们遵循之前的工作[34]从ResNet-101 [10]中提取2048维特征，ResNet-101在ImageNet上进行了预训练。对于语义描述，我们使用数据集中包含的默认属性。具体来说，由于FLO没有为数据集提供属性，我们通过[28]的模型使用1024维RNN描述。为了公平比较，我们所有的实验设置都与以前工作中报告的方案相同[34]。4.2. 实施和比较方法在我们的模型中，GAN是通过具有整流线性单元（ReLU）激活的多层感知器实现的。具体地说，生成器G包含一个具有4，096个隐藏单元的全连接层。噪声z由语义描述a调节，然后作为G的输入。一个额外的ReLU层被部署为G的输出层，它输出合成的假特征。CNOD从G获取真实特征和合成的假特征，并通过FC层、Leaky ReLU层、FC层和ReLU层处理它们。判别器有两个输出分支。一个是用来区分真假，另一个是一个标准的n路分类器，预测每个样本的正确类别在本文中，我们设置λ=0。01，β=10。两个正则化的权重都设置为0。01.样本熵阈值被设置为小于所有熵的中值。还可以通过交叉验证来调整超参数。所比较的方法是具有代表性的出版物。数据集aPaYAWA幼崽Flo孙样本数量15,33930,47511,7888,18914,340#属性64853121,024102查看的类数二十（五）四十（十三）一百五十（五十）八十二（二十）六四五（六十五）θ7408086420表2.不同数据集上零触发学习的前1准确率（%）最佳结果用粗体数字突出显示。牛马摩托车人盆栽羊火车tvmonitor驴山羊jetski雕像(a) f-CLSWGAN1.0.0.0.0.0.(b) 我们预测标签图4.混淆矩阵对aPaY数据集的评估表3.广义零- 在aPaY数据集上进行射击学习。此表中的平均值是可见和不可见样本的调和平均值，即，平均值=（2* 不可见 * 可见）/（不可见+可见）。方法aPaY在快速的几年里，最先进的是最近报道的。具体而言，我们将我们的方法与以下方法进行比较：[15][16][17][18][19][29][37][38][39]根据以前的工作[34，40]，我们报告了每个评估方法的平均每类top-1准确度。具体来说，对于经典的零射击学习，我们通过仅搜索未看到的标签空间来报告未看到的样本的前1精度然而，对于广义零射击学习，我们在[35]中报告了具有相同设置的可见类和不可见类的准确性。本文报道的一些结果也引自[35]。4.3. 零射击学习我们在表2中报告了五个数据集的零射击学习结果。在这些实验中，只从Yu搜索未见过样本的可能类别。可以看出，我们的方法在五个评价中的四个上取得了最好的效果我们在最后一个数据集上也取得了最先进的结果。具体来说，我们在aPaY数据集上实现了比最先进方法高2.6%的改进。我们在AWA、CUB和FLO上也实现了2.4%、1.5%和2.4%从结果中，我们还可以观察到基于GAN的方法，例如，GANUL，f-CLSWGAN和我们的，一般比嵌入的，例如，SSE、ALE和SAE。嵌入方法通过间接方式处理不可见样本，而GAN方法通过将其转换为监督学习任务来直接处理它结果表明，GAN可能是一个很有前途的方法来解决零杆学习问题的未来。除了从噪声中生成视觉特征外，GAN还可以用于零射击学习中的语义增强。在我们未来的工作中，我们将在我们的模型中加入语义数据增强，以覆盖更多的未知样本。4.4. 广义零射击学习我们在表3和表4中进一步报告了广义零激发学习表3显示aPaY数据集的结果，表4显示其他4个数据集的结果在广义零激发学习中，所看到的类被分成两部分：一部分用于训练，另一在测试阶段，通过从YYu中搜索可能的类别来识别可见和不可见样本。所见类的拆分见表1更多的细节可以在以前的工作中找到[35]。以来在广义零射击学习中测试了可见类和不可见类，我们还在表中报告了可见精度和不可见精度的调和平均值。从表3和表4的结果中，我们可以得出与表2相似的结论。我们的方法比现有的方法性能更好。我们的结果是显着更好的看不见的样本和调和平均值，这意味着我们提出的方法具有更好的泛化能力。它能够将样本分类到真实类别中。我们的方法稳定地依赖于可见和不可见的类。尽管一些先前的方法，例如，DAP、ESWL和SAE在传统的零激发学习环境下具有良好的性能，而在广义零激发学习环境下，它们的性能急剧下降当不可见样本的可能类别变大时，它们往往会搞砸。因此，这些方法的适用性在实际应用中受到限制。调和平均值对于离群值更稳定0.03 0.10 0.02 0.03 0.04 0.16 0.03 0.02 0.35 0.18 0.0 0.060.01 0.13 0.03 0.04 0.04 0.17 0.01 0.02 0.26 0.13 0.09 0.070.00.00.770.0 0.02 0.0 0.03 0.040.0 0.13 0.020.01 0.0 0.07 0.16 0.14 0.01 0.02 0.47 0.00.0 0.09 0.020.00.0 0.04 0.05 0.17 0.01 0.02 0.660.0 0.05 0.00.03 0.05 0.0 0.03 0.05 0.02 0.0 0.18 0.39 0.0 0.200.00.0 0.03 0.0 0.01 0.0 0.900.0 0.02 0.00.00.0 0.01 0.0 0.05 0.01 0.050.85 0.01 0.0 0.01 0.00.01 0.27 0.00.0 0.01 0.02 0.0 0.01 0.36 0.26 0.05 0.010.03 0.12 0.00.00.0 0.04 0.00.00.580.18 0.00.00.0 0.01 0.0 0.02 0.01 0.14 0.09 0.00.00.680.040.0 0.01 0.0 0.29 0.04 0.04 0.07 0.27 0.00.0 0.07 0.191.0牛0.01 0.05 0.02 0.03 0.04 0.20 0.03 0.01 0.38 0.18 0.0 0.06马0.01 0.04 0.04 0.03 0.04 0.22 0.01 0.01 0.31 0.13 0.09 0.08摩托车0.0 0.00.79 0.0 0.02 0.0 0.01 0.02 0.0 0.0 0.14 0.020.8人数0.0 0.0 0.06 0.18 0.15 0.01 0.01 0.46 0.0 0.0 0.11 0.02盆栽植物0.0 0.0 0.05 0.04 0.20 0.0 0.020.64 0.0 0.0 0.04 0.0绵羊0.02 0.0 0.0 0.04 0.07 0.04 0.01 0.0 0.18 0.43 0.0 0.200.6列车0.0 0.0 0.02 0.0 0.01 0.00.89 0.06 0.0 0.0 0.02 0.00.4电视监视器0.0 0.0 0.01 0.0 0.02 0.01 0.010.95 0.01 0.0 0.01 0.0驴0.0 0.12 0.0 0.0 0.01 0.02 0.0 0.0 0.45 0.33 0.06 0.01山羊0.02 0.04 0.0 0.01 0.0 0.04 0.0 0.00.63 0.23 0.0 0.030.20.0 0.0 0.01 0.0 0.02 0.01 0.06 0.02 0.0 0.00.84 0.04雕像0.0 0.0 0.0 0.29 0.03 0.01 0.04 0.20 0.0 0.13 0.290.0预测标签真实标签真实标签方法aPaYAWA幼崽Flo孙民主行动党[15]33.844.140.0-39.9CONSE [26]26.945.634.3-38.8[第38话]34.060.143.9-51.5DeViSE [7]39.854.252.045.956.5SJE [2]32.965.653.953.453.7西班牙语[29]38.358.253.951.054.5ALE [1]39.759.954.948.558.1同步[4]23.954.055.6-56.3严重不良事件[13]8.353.033.3-40.3[37]第三十七话35.068.451.7-61.9[40]第四十话41.168.255.860.561.3F-CLSWGAN [34]40.568.257.367.260.8LisGAN [Ours]43.170.658.869.661.7看不见看到是说民主行动党[15]4.878.39.0CONSE [26]0.091.20.0[第38话]0.278.90.4DeViSE [7]4.976.99.2SJE [2]3.755.76.9西班牙语[29]2.470.14.6ALE [1]4.673.78.7同步[4]7.466.313.3严重不良事件[13]0.480.90.9[37]第三十七话11.175.119.4[40]第四十话14.278.624.0F-CLSWGAN [34]32.961.742.9LisGAN [Ours]34.368.245.77409表4.广义零激发学习的结果（前1精度%）此表中的平均值是可见和不可见样本的调和平均值平均值=（2* 不可见 * 可见）/（不可见+可见）。最佳结果用粗体数字突出显示。方法AWA幼崽Flo孙看不见看到是说看不见看到是说看不见看到是说看不见看到是说民主行动党[15]0.088.70.01.767.93.3---4.225.27.2CONSE [26]0.488.60.81.672.23.1---6.839.911.6[第38话]7.080.512.98.546.914.4---2.136.44.0DeViSE [7]13.468.722.423.853.032.89.944.216.216.927.420.9SJE [2]11.374.619.623.559.233.613.947.621.514.730.519.8西班牙语[29]5.977.811.02.470.14.611.456.819.011.027.915.8ALE [1]14.081.823.94.673.78.713.361.621.921.833.126.3同步[4]10.090.518.07.466.313.3---7.943.313.4严重不良事件[13]1.182.22.20.480.90.9---8.818.011.8[37]第三十七话30.586.445.111.175.119.4---20.534.325.6[40]第四十话19.286.531.423.960.634.328.177.441.221.734.526.7F-CLSWGAN [34]57.961.459.643.757.749.759.073.865.642.636.639.4LisGAN [Ours]52.676.362.346.557.951.657.783.868.342.937.840.2算术平均数和几何平均数。因此，从表3和表4中报告的结果，我们还可以观察到我们的方法比比较方法更稳定。它避免了不同评价的极端结果。在调和平均值方面，我们分别在aPaY、AwA、CUB、FLO和SUN上实现了高达2.8%、2.7%、1.9%、2.7%和0.8%的改善五个以上的平均值是2.2%。虽然我们的方法在一些可见的类别上没有表现得这些结果验证了我们的方法的突出的推广能力。考虑到GANUL和f-CLSWGAN都利用GAN来合成看不见的样本，我们的方法的性能提升可以归因于两个方面。一种是引入灵魂样本，保证生成的每个样本与语义描述高度相关。灵魂样本正则化也解决了多视图特性。因此，它可以自动照顾不同的观点在零杆学习引起的领域移位问题。另一方面，我们的级联分类器能够利用第一个分类器的结果并加强第二个分类器。这样的配方通过由粗到细的方式提供结果结果表明，利用生成式语义库的不变性是有益的。不变边正则化保证了每个合成样本与真实样本和对应的语义描述高度相关。4.5. 模型分析在本节中，我们分析了不同设置下的模型由于我们的GAN生成的是视觉特征而不是图像像素，因此用图像显示合成结果是不合适的。我们将分析我们的模型的泛化能力和稳定性。讨论了超参数的灵敏度问题4.5.1类别准确度为了在更细粒度的尺度上显示我们方法的实验结果，我们在图1中报告了f-CLSGAN的混淆矩阵和我们在aPaY数据集上的方法。4.比图4（a）和图4（b），我们可以看到，我们的方法通常在大多数类别上具有更好的准确性。值得注意的是，我们可以看到，catory“tvmonitor”、“donkey”和“jetski”的准确度还有一个共同的现象，即在一些看不见的类别上，CNOL方法表现不佳。我们将在未来的工作中研究细粒度/类明智的零射击学习。4.5.2参数敏感性在我们的模型中，我们有几个超参数要调整。参数β控制Lipschitz约束。如文[9]所建议的，本文中我们固定β=10参数λ平衡监督分类损失，其影响如图所示.第五条（a）款。在我们的公式中，我们还引入了一个权重系数来调整灵魂样本正则化的贡献。它的灵敏度报告在图。5（b）。同样，图5（c）和图。图5（d）分别示出了样本熵阈值和每类合成样本数的影响。从结果可以看出，分类损失和灵魂样本正则化的权重参数应该相对较小。建议将样本熵阈值设置为小于所有样本的中值。合成的样本越多，通常得到的结果就越好。然而，更多的样本也会引入更多的噪声，需要更多的训练成本。在实践中，我们建议将看到的类别分为训练集和验证集进行交叉验证。尤其是。我们在图7（a）中报告了k的灵敏度。由于k不敏感，我们固定k=3以减少计算成本。7410aPaYAWA准确度（%）(a) 分类损失（λ）80706050403020分类损失权重(b) 灵魂样本正则化8075706560555045403530灵魂样本丢失(c) 样本熵阈值8070605040302010 20 30 40 50 60 70 80 90置信样本的比率（%）(d) 合成样品数量80706050403020101050 100 150 250 300 350 400 450#每个类图5.参数敏感性（c）的水平轴指示样本熵阈值不大于x%样本的熵，其中所有样本熵从小到大排序。例如，在一个实施例中，50表示样本熵阈值被设置为所有样本熵的中值。（d）的水平轴表示每类的合成样本数。1009080706050403020(a) Zero-shot学习aPaYAwA0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20#epoch1009080706050403020(b) 广义线性aPaYAwA0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20#epoch本节中的级联分类器。我们首先报告了普通条件WGAN的结果。然后，我们在模型中引入额外的组件，并观察它们的效果消融分析的结果报告在图11中。第7（b）段。这五个设置表明，我们框架中的不同组件都是重要的。监督损失保证生成的特征是有区别的。灵魂样本正则化约束每个合成的图6.训练稳定性的趋势。对于（b）中的GABEL，我们报告了可见和不可见样本的调和平均值。80示例非常接近语义描述。每个类的多个灵魂样本提供了一个轻松的解决方案来处理多视图问题引起的域狗屎问题的755070654060305550204540103530012345678910k的值（一）S1 S2 S3 S4不同的设置（b）第（1）款级联分类器利用样本熵的结果，呈现出更精细的准确性。5. 结论在本文中，我们提出了一种新的零拍摄学习，图7.不同k（簇数）的结果和aPaY的APDL烧蚀分析。5.1.1模型稳定性由于我们的方法部署了一种对抗性的训练方式，它需要几个时期来实现生成器和训练器之间的平衡。在图6中，我们报告了我们的方法在测试误差方面具有不同时期的实验结果表明，该模型具有较好的训练稳定性。可以看出，我们的模型显示出稳定的训练趋势，随着训练时期的增加。虽然有小的波动，我们的模型可以达到一个稳定的结果与30个时期。对于不同的实际应用，可以部署交叉验证来选择最佳时期。5.1.2消融分析条件WGAN是计算机视觉任务中一种前沿但流行的技术。它更像是社区的基础设施。因此，我们固定了条件WGAN，并专注于灵魂样本正则化和该方法利用生成式对抗网的优势工程.特别地，我们部署了条件WGAN来从随机噪声中合成假的不可见样本。为了保证每个生成的样本都接近真实样本及其相应的语义描述，我们在GAN生成器中引入了灵魂样本正则化。在零射击识别阶段，我们进一步提出使用级联分类器来微调准确性。在五个流行的基准测试上的广泛实验验证了我们的方法可以比以前的最先进的方法具有显著的进步。在我们未来的工作中，我们将探索GAN的数据增强，它可以用来合成更多的语义描述，以覆盖更多看不见的样本。致谢这项工作得到了国家自然科学基金 61806039 、61832001、61802236、61572108和61632007的部分资助，ARC基金FT 130101530，国家博士后创新人才计划基金 BX 201700045 ，中国博士后科学基金2017M623006。aPaYAwAaPaYAWAaPaYAwAaPaYAWA误差（%）准确度（%）准确度（%）准确度（%）误差（%）准确度（%）准确度（%）42.843.2S1（设置1）：普通条件WGANS2（设置2）：S1+分类损失S3（设置3）：S2 +灵魂样本规则化S4（设置4）：S3+级联分类器38.57411引用[1] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和Cordelia Schmid 。用于图像分类的标签嵌入 IEEETPAMI，38（7）：1425[2] Zeynep Akata ， Scott Reed ， Daniel Walter ， HonglakLee，and Bernt Schiele.细粒度图像分类的输出嵌入评价。在CVPR，第2927-2936页，2015年。[3] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络在ICML，第214-223页[4] Soravit Changpinyo，W

下载后可阅读完整内容，剩余1页未读，立即下载