零射击学习：条件视觉分类的研究进展

105 浏览量更新于2023-10-13 收藏 949KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3583重新思考Zero-Shot学习：条件视觉分类的研究进展李凯1、闵仁强2、傅云1、31美国波士顿东北大学电气与计算机工程系2NEC美国实验室3美国波士顿东北大学Khoury计算机科学学院网址：kaili@ece.neu.edu，renqiang@nec-labs.com，网址：www.example.com，yunfu@ece.neu.edu摘要零射击学习（Zero-shot learning，简称ZRL）的目标是仅仅基于类的语义描述来识别看不见的类的实例。现有的算法通常将其表述为语义-视觉对应问题，通过学习从一个特征空间到另一个特征空间的映射尽管是合理的，以前的方法基本上放弃了视觉特征的高度宝贵的区分能力，以一种不明确的方式，从而产生不希望的结果。相反，我们将ZSL重新表述为条件视觉分类问题，即，基于从所述语义描述学习的所述分类器对视觉特征进行分类。通过这种重新表述，我们开发了针对各种ZSL设置的算法：对于常规设置，我们提出训练一个深度神经网络，该网络使用基于情节的训练方案从语义属性直接生成视觉特征分类器;对于广义设置，我们将学习到的用于可见类的高区分度分类器和生成的用于不可见类的分类器连接起来，以对所有类的视觉特征进行分类;对于转导设置，我们利用未标记的数据，有效地校准分类器生成器使用一种新的学习无遗忘的自我训练机制，并指导一个强大的广义交叉熵损失的过程。广泛的实验表明，我们提出的算法显着优于国家的最先进的方法，大幅度在大多数基准数据集在所有的ZSL设置。1. 介绍深度学习方法已经在计算机视觉中的许多任务上取得了革命性的成功，这是由于丰富的标记训练数据的可用性[45，44，17]。20、19、21]。然而，为每个任务标记大规模训练数据既劳动密集型又不可扩展。受人类的非凡能力的启发，搜索者已经广泛地研究了类似于人类学习的图像分类设置，称为零射击学习（ZSL）[41，31，22，33]，其中给出了可见类的标记训练图像以及可见类和不可见类的语义描述，并且任务是将测试图像分类为可见类和不可见类。现有的方法通常将ZSL公式化为视觉-语义对应问题，并且从可见的类学习视觉-语义关系并将其应用于不可见的类，考虑到可见的和不可见的类在语义空间中是相关的[1，43，13]。这些方法通常将视觉特征或语义特征从一个空间投影到另一个空间，或者将两种类型的特征投影到中间嵌入空间。在共享的嵌入空间中，利用两种类型的特征之间的关联来指导投影函数的学习。然而，这些方法未能认识到通过利用大量计算和数据资源训练强大的深度神经网络分类器来获得大量类别上的这些区分性视觉特征的巨大努力详细地说，一方面，大多数CPDL方法中使用的视觉特征是由一些强大的深度神经网络提取的（例如，ResNet101）在大规模数据集上训练（例如，ImageNet）[40].这些视觉特征已经具有很强的辨别力;将它们重新投影到任何空间，尤其是低维空间，将损害可辨别性，因为维数降低通常显著地缩小了数据方差。令人惊讶的是，大多数现有的CPDL方法试图以各种方式转换视觉特征向量[22，33，13]。另一方面，由于分类问题的性质，不同类别之间的竞争信息对分类性能至关重要。但是，由于专注于学习视觉特征和语义特征之间的关联，许多CSCL方法在训练期间忽略了类分离信息，并且没有意识到CSCL本质上是一种3584分类问题[43]。受上述观察的启发，我们提出了一种新的条件视觉特征分类框架中解决ZSL。在所提出的框架中，我们有效地生成视觉特征分类器的语义属性，从而本质上保持视觉特征的可区分性，同时利用不同类别之间的竞争信息在新的框架内，我们提出了各种新的策略来解决不同的ZSL问题。对于传统的ZSL问题，其中只有看不见的类参与评估，我们建议训练一个深度神经网络，直接从语义属性中生成视觉特征分类器。我们使用基于余弦相似性的交叉熵损失来训练网络，这减轻了在计算它们的相关性时来自两个不同领域的特征方差的影响。借鉴元学习的思想，我们通过组成许多“假”新ZSL任务，以基于情节的方式训练我们的模型，从而增强了测试过程中对“真实”新ZSL任务的泛化能力。对于广义的设置，丁，其中看到的类包括ZSL评估，我们连接的分类器看到的类和看不见的类分类的视觉特征的所有类。由于所见类的分类器是用标记样本训练的，因此它们具有高度的区分力来辨别传入图像是否这个理想的属性可以防止我们的方法从显着的perfor-曼斯下降时，更多的类涉及的eval-uations。对于不可见类的图像可用的转导设置[34]，我们利用这些未标记的数据来使用其自身生成的伪标签校准我们的分类器生成器为了限制不正确伪标签的危害并避免模型过度适应新类别，我们建议使用广义交叉熵损失来指导模型校准过程。一个有效的不忘学习的培训计划。概括而言，我们的贡献如下：• 我们将ZSL重新表述为一个条件视觉分类问题，通过该问题，我们可以从视觉特征的高分辨性和交互性中获益。类竞争信息之间的培训班，以解决在各种设置的学习问题。• 我们提出了各种有效的技术来解决不同的ZSL问题，统一在建议的框架。• 实验表明，我们的算法显着优于国家的最先进的方法的大利润率在大多数基准数据集在所有的CNOL设置。2. 相关工作Zero-Shot Learning（Zero-Shot Learning，简称ZRL）的目标是根据未见过的类与已见过的类班语义关联可以在人类注释的属性[34，26，2]，词向量[10，43，4]，文本描述[16，6]等。在实践中，通过首先学习语义向量和视觉特征相互作用的嵌入空间来执行语义学习。然后，在学习的嵌入空间内，为未见过类的任何给定图像的视觉特征选择未见过类的语义向量根据所使用的嵌入空间，现有的方法通常可以分为以下三组。一些方法选择语义空间作为嵌入空间，并将视觉特征投影到语义空间[15，10]。将视觉特征投影到通常低得多的维度语义空间中将缩小投影的数据点的方差，并且因此加剧了中心问题，即，某些候选将偏向于成为许多查询的最佳匹配。或者，一些方法将视觉和语义特征都投射到共同的中间空间[1，35，47]。然而，由于缺乏来自不可见类的训练样本，这些方法倾向于将测试样本分类到可见类中[30]。第三类方法选择视觉空间作为嵌入空间，并学习了从语义空间到视觉空间的映射[43]。这些方法利用视觉空间中丰富的数据多样性，在一定程度上缓解了中心化问题。最近，一个新的方法分支出现并凭借数据增强来接近CPDL，无论是通过可变自动编码器（VAE）[25]还是生成对抗网络（GAN）[5，42，8，48，50]。这些方法从可见类生成器的视觉和语义特征中学习，所述可见类生成器可以基于类语义描述生成合成的视觉特征。然后，合成的视觉特征用于训练用于对象识别的标准分类器。当在训练期间来自看不见的类的未标记的测试样本可用时，ZSL可以变得更容易，即，即所谓的转导性转录因子。这是因为可以利用未标记的测试样本来帮助达到更清晰的决策边界，无论是可见的还是不可见的类。事实上，它更像是一个半监督学习问题。传播语义转移（PST）[29]通过利用类流形结构进行从可见类到不可见类的标签传播。无监督域自适应（UDA）[13]将该问题公式化为跨域数据关联问题，并通过正则化稀疏编码解决该问题准完全监督学习（QFSL）[34]旨在通过明确要求将视觉特征映射到它们所属的类别（可见和不可见）来加强从视觉空间到语义空间的映射。与上述方法不同，我们从条件视觉特征分类的角度来处理ZSL。Per-siloxmost类似于我们的算法[16，38]，它也通过生成分类器来逼近CNOL。然而，[16]3585i=1j=1j=1i=1j=1将视觉特征投影到较低维空间，损害视觉特征的可辨别性。[38]使用图卷积网络来建模语义关系和输出分类器。然而，它需要分类关系作为额外的输入。相反，我们通过深度神经网络直接从属性中生成分类器，并用一种新的基于余弦相似性的交叉熵损失来训练模型。此外，这两种方法都没有使用基于情节的训练来增强模型对新类别的适应性。此外，他们是唯一可行的常规的CNOL设置，而我们的方法是灵活的各种CNOL设置。3. 方法Zero-shot learning（ZSL）是识别那些只给出类的语义描述的不可见类的对象。形式上，假设我们有三组数据D={Ds，Da，Du}，其中Ds={Xs，Ys}且Du={Xu，Yu}分别是训练集和测试集。Xs和Xu是图像，而Ys和Yu是相应的标签。在训练类和测试类之间没有重叠，即，Ys∩ Yu=。该算法的目标是从D s中学习可传递的信息，这些信息可以用于对D u中的未见过类进行分类，并借助语义描述Da= As<$Au对可见类（As）和不可见类（Au）进行分类。Da可以是人类注释的类属性[42]或描述类的文章[49]。我们在一个有条件的视觉特征分类框架中解决了视觉特征分类问题。具体地，我们预测p（y|x; ay），其中在标准设置中y∈Yu，而在广义设置中y∈Ys∪Yu.当Xu在训练过程中可用时，我们称这个问题为转换性问题。为了方便起见，有时我们称设置为感性ZSL，其中Xu不可用。3.1. 零射击学习通过以属性为条件的视觉分类方法来逼近视觉特征分类器，我们需要从属性中生成视觉特征分类器我们通过学习一个深度神经网络f来实现这一点，该神经网络将类的语义特征向量作为输入，并输出该类的分类器权重向量。由于模型f在测试时将为新类别生成分类器，因此我们采用基于情节的训练机制，这是元学习中一种有效且流行的技术[37，9，18]，以在训练期间模拟这种情况。算法1. 拟议的联合国后勤基地办法输入：训练集Ds ={Xs，Ys}和属性As。输出：分类器权重生成网络f不做就做1. 从Ds和As中随机抽样一个随机任务T={V，A}，其中V={{xi，j}N，yj}M和A={aj}M。2. 根据等式计算损失。（三）3. 通过反向传播更新fend while当测试。为了构造ZSL情节，我们保持从Dt={Xt，Yt}和At随机采样ZSL任务T={V ，A}，其中V={xi ，j}N，yj}M包含来自M个类别中的每一个的N个标记样本。每个的注释sample（xi，j ，y，j），我们放弃其全局（数据集方面）标签，并用局部（小批量方面）标签替换它，同时仍然保持类分离信息（相同全局标签的样本仍然具有相同的局部标签），即，yj∈{1，2， ···，M}。这是为了切断由共享全局标签池带来的各个任务之间的连接，使得每个小批次可以被视为新任务。A={a 1，a 2，...，aM}是相关联的M个属性向量。对于每个任务T={V，A}，f生成用于M个采样类的分类器为W= f（A）.（一）利用分类器W，我们可以从V计算视觉特征的分类得分。而不是使用广泛使用的点积，我们使用余弦相似性。基于余弦相似度的分类评分函数。传统的多层神经网络使用前一层的输出向量与传入的权向量的点积[23，11]最近表明，用余弦相似性代替点积可以限制和减少神经元的方差考虑到我们正试图计算来自两个显著不同的域的数据之间的相关性，特别是对于其中特征是不连续的并且具有高方差的属性域使用余弦相似性将缓解高方差的有害影响，并为我们带来理想的Softmax激活。考虑到这一点，我们将分类得分函数定义为exp（σcos（wi，x））基于场景的训练的关键是在每个小批中采样一个p（y=i|x）= ΣNj=1、（二）exp（σcos（wj，x））其中模型被测试，并且用所采样的任务训练模型这个过程被称为一个事件。我们的目标是在训练过程中让模型暴露出大量的其中，σ是可学习的标量，其控制由Softmax运算符生成的概率分布。是类别i的分类器权重向量。利用该定义，典型的ZSL任务T的损失为3586，}u，s}矩阵正离子连锁伊什拉乌（s，s（u ，uymyyS我定义如下，ΣΣL=（x，y）∈TTu =-σcos（wi，x）+Lulog（ΣNΣ（3）exp（σcos（w，x）+λφ，j=1j2看不见的类查看课程其中λ是加权神经网络fφ的可学习参数的l2范数正则化的超参数。算法1概述了我们的训练程序。3.2. 广义零次学习利用学习的分类器生成器f，在测试阶段中给定看不见的类Au的属性，我们生成相应的分类器权重Wu=f（Au），并使用它来根据等式Xu对看不见的类Xu的视觉特征进行（二）、当评估涉及可见和不可见类时，即，在广义的CNOL设置中，我们结合了可见和不可见类的分类器来分类IM。各年级的年龄具体地，利用Au和As，我们可以分别得到针对看不见的类和看不见的类的分类器W u=f（Au）和Ws=f（As）我们利用它们的连接LsTs =图1.说明了transductiveBRL算法。我们从看到的类和Tu从看不见的类（与伪标签）的ZSL任务T的采样。从A u生成的分类器Wu与分类器Ws级联以分类来自Tu和Ts的视觉特征，这分别导致损失Lu和Ls。未见过的类的伪标签以自训练的方式更新。利用 Wu ，我们根据等式计算 Xu 的分类得分 S 。（二）、X u的伪标号Yu可以从S得到。在Y~u之间，必然存在着噪音。我们支持-通过新的分类评分基于峰值的过滤策略。设si∈RNu为ui∈ Xuac的分类得分Wb=[Wu，Ws]作为所有类别的分类器。根据所有的Nu类。让我们和sln 成为高-值得注意的是，由于f已经用标记的样本训练过，因此得到的Ws应该非常不一致。est和si中的第二高得分。分配给ui的伪标签应该是ym。不过，我们认为这是-识别输入的图像是否属于所看到的类别。如下文所示，前作为一个“自信”的人，除非MSI已经足够了：实验中，这个理想的属性防止我们的方法从显着的识别精度下降时，涉及更多的类进行评估。3.3. 传导式零触发学习由于ZSL的条件视觉分类公式，上述归纳方法可以容易地适应于转导ZSL设置。我们可以在训练过程中利用测试数据来校准我们的分类器生成器，并输出可见和不可见类的更好决策边界的分类器。我们通过美德来实现这一点自我训练。具体来说，我们之间的交替generating使用分类器生成器和更新它使用生成的伪标签看不见的类的图像的伪标签。有了这个想法，需要解决两个关键问题。第一个是如何防止生成器过度适应看不见的类，使得先前从看到的类中学习的知识丢失，从而导致看到的类的不满意的性能。二是如何避免生成器被错误的伪标签所破坏。我们提出了一种新的自我训练的基础上的transductiveBNL算法，以避免这两个问题。图1说明了我们的算法。为了生成测试图像Xu的伪标签，我们首先ym> γ，（5）yn其中γ是控制峰值的阈值。这种约束，straint防止模棱两可的标签分配被exploited分类器生成器校准。在获得置信集合Du ={X<$u，Y<$u}，以及相应的属性A<$u，我们可以用它们来调整f。然而，仅用Du对f”这是一种强烈的偏见，看不见的阶级，先前获得的关于所见类的知识将被几次迭代后就被遗忘了。更严重的是，当y的部分很高时，Y之间的不正确伪标签可能会损坏f我们提出了一个新的学习-没有-忘记训练计划以避免这种情况。除了从（Du，Au）中采样一个ZSL任务T u来校准f到看不见的类之外，我们还从（Ds，As）中采样另一个ZSL任务T s，以保持f对看到的类的记忆，并稀释来自Tu的噪声标签的影响。此外，在更新f的同时，我们也更新分类器Ws以调整可见类对不可见类的决策边界。此外，我们还介绍了最近提出的Gen-广义交叉熵损失[46]来处理任务Tu，并限制不正确的伪标签对分类器权重的影响发生器：生成用于看不见的类的分类器权重Wu，Wu= f（Au）.（四）Lu=Σ（xu，yu）∈Tu35871−（wyu）Q、（6）Q3588算法2. 提出的转导性转录的输入：训练集Ds={Xs，Ys}，属性集Da=A s <$Au，测试图像X u，参数γ和q输出：类标签Yu的Xu，权重生成器f，分类器权重Ws用于所见的类。1. 使用算法1获得具有Ds和As的f。2. 得到Ws=f（As）。对于r= 1，2，…N R DO3.计算未知类W u = f（A u）.4. 根据等式（1）为X u生成伪标签Yu。（二）、5. 选择置信测试集Du={Xu，Yu}和Au基于等式（五）、对于i = 1，2，…我愿意6.从（Ds，As）开始的示例任务Ts，以及Tufrom（DuAu）.7. 根据等式计算损失。（七）、8. 通过反向传播更新f和Wend while结束while其中，wyu是xu属于类yu的可能性，其根据等式2计算。（二）、q∈（0，1]是一个超参数，当噪音水平很高。可以看出，Eq。（6）转成Eq.（3）当q无限趋近于0时。另一方面，当q=1时，它转向平均绝对误差（MAE）损失。交叉熵损失对于分类任务是强大的，但对噪声敏感，而MAE损失对于常规分类任务表现较差，但对噪声标签具有鲁棒性在0和1之间调整q适合不同的噪声水平。通过处理具有广义交叉熵损失的Tu和具有常规交叉熵损失的Ts，我们的用于传导性CWL的损失函数如下：L（φ，Ws）=Lu+Ls，（7）其中Ls在等式（3）中定义。算法2概述了训练程序。4. 实验4.1. 数据集和评估设置我们采用最广泛使用的零触发学习数据集进行性能评估，即CUB [39] AwA1 [15]，AwA2 [41]，SUN [28]和aPY [7]。数据集的统计数据如表1所示。我们遵循[41]中提出的GBU设置，并评估常规ZSL设置和广义ZSL（GZSL）设置。在传统的ZSL中，测试样本被限制为看不见的类，而在GZSL中，它们可以来自于看不见的类或看不见的类。对于这两种设置，我们使用top-1（T1）平均类准确度（MCA）作为我们实验中对于甘精胰岛素，我们评估MCA表1.零炮分类数据集的信息对于可见类（S）和不可见类（U），也计算它们的调和平均值H=2<$U<$S/（U+S）。4.2. 实现细节在[41]之后，我们使用在Im-ageNet上训练的ResNet101 [12]进行特征提取，这导致每个输入图像的2048维向量。分类器生成模型f由两对FC+ReLU层组成，即，FC-ReLU-FC-ReLU，将语义向量映射到视觉分类器权重。对于所有五个数据集，中间隐藏层的维度为1600我们训练f，Adam优化器，所有数据集的学习率为10−5 ，由1，000，000个随机采样的任务组成。每个任务包括在32个随机抽样的类中，每个类4个样本M=32和N=4，除了aPY，其中我们设置M=16和N=4，因为总共只有20个类用于训练。超参数λ被选为10−4，10−3，10−3、10−5和10−4，AwA1、AwA2、CUB、SUN和，分别。对于transductiveBNL，实验设置与每个数据集的相应归纳情况对于所有数据集，我们每10，000次迭代更新未见过类的伪标签，并执行50次更新，即，Nr=50和Ni=10，000。我们应用γ=1。2，q = 0。5、所有数据集我们基于PyTorch开发4.3. 消融研究通过将ZSL制定为以属性为条件的视觉分类问题，我们可以自然地受益于视觉特征的高区分度。同时，为了克服视觉和属性特征的显著变化，我们提出用余弦相似度代替广泛使用的点此外，我们引入了基于情节的训练计划，以提高我们的模型对新任务的适应性。我们进行消融研究，以评估我们巧妙设计的有效性。保持视觉特征的可辨别性。为了研究保持视觉可辨别性的重要性，我们实施两种基线方法：一种是将视觉特征投影到属性空间，另一种是将视觉特征投影到中间空间（作为视觉空间的一半维度）。所有其他设置都与我们的方法相同。表2显示，将视觉特征投影到任一语义空间都会幼崽AwA1AwA2APY孙#类看到的数量150404020645#看不见5010101272#VisDim20482048204820482048AttDim数量31285853121023589V→A✓✓V→I ← A✓✓A→V✓✓✓点积✓✓✓余弦相似度✓✓✓✓基于事件的训练✓ZSL36.345.134.242.827.067.770.9GZSL-U24.510.125.911.222.759.862.7公司简介62.586.868.981.853.275.277.0甘氨酰-H35.218.037.619.631.966.669.1表2. AwA1数据集上的消融研究。“V→A”、“A→V”和“V → I← A”分别指将视觉特征投影到属性空间、将属性投影到视觉空间以及将视觉特征和属性特征两者投影到中间空间。或中间空间，无论使用基于点积或余弦相似性的分类得分函数。如前所述，通常由一些功能强大的特征提取网络离线生成图像特征嵌入，以确保高分辨率。将它们重新投影到属性空间或中间空间将不可避免地损害可辨别性。更糟糕的是，属性空间或中间空间的维数往往低于视觉嵌入空间。视觉方差，这是至关重要的，以确保可辨别性，应收缩，一旦特征嵌入被重新投影到低维空间。由于视觉特征的可辨别性的破坏，中心度问题变得更加强烈，导致更差的结果。基于余弦相似度的分类评分函数。我们比较基于点积和余弦相似性的损失函数，在所有三个分类空间下表2显示，分类空间似乎是一个更主要的因素：如果分类空间不合适，则两个评分函数都不能很好地工作。当选择视觉嵌入空间进行分类时，提出的基于余弦相似度的评分函数比基于点积的评分函数具有更好的分类性能。我们推测其原因是类属性的值不连续，使得不同类的属性向量之间存在较大的方差。因此，从它们导出的分类器权重也具有大的方差，这可能导致Softmax激活函数的输入的高方差[23]。与点积不同，我们的基于余弦相似性的评分函数在计算其与视觉嵌入的点积之前对分类器权重进行归一化。该归一化过程可以限制和减少分类器权重的方差，从而有助于更好的性能。以情节为基础的培训机制基于情节的训练机制是训练我们的分类器重量发生器在测试过程中的工作方式。从表2中，我们可以观察到，当采用这种独特的训练机制时，对于ZSL设置和GZSL设置两者，存在约3%的这是在我们的这是因为在训练期间将我们的权重生成器暴露于许多（假的）新ZSL任务之后，它获得了如何在测试期间处理真正的新ZSL任务的知识。因此，更好的性能更有可能得到保证。4.4. 比较结果零射击学习表3显示了所提出的方法和最先进的归纳推理问题的比较结果。对于传统的CNOL，我们的方法在五个数据集中的三个数据集上达到了最佳效果。值得注意的是，对于AwA2数据集，我们的方法比第二好的方法高出约4%。广义零激发学习。更有趣的观察，可以为GALML设置，其中分类是在可见和不可见的类执行。随着涉及更多的类，对于所有方法，看不见的类的分类准确性然而，我们的方法比其他方法具有更强的鲁棒性，并且在这些数据集上适度下降。值得注意的是，我们的方法有时甚至比第二好的方法高出约100%（aPY我们分析了这一显著的改进，由于我们在训练过程中考虑了类间分离，因此训练后得到的分类器对所见的类具有良好的分离性能当它们与从测试中看不见的类别的语义描述生成的分类器组合时，它们应当具有高度辨别力，以辨别输入图像不属于它们被训练的类别。与识别不可见类的显著优势相反，我们的方法似乎有点“健忘”，而且是克服了许多方法的精度看到类。这是因为在训练期间，我们不断地对新的ZSL任务进行采样以训练权重生成器获得处理新的ZSL任务的知识。与现有的方法不同，这些方法完全处理整个数据集或专门设计用于保持训练记忆，我们的方法不记忆整个训练集的全局类结构。因此，随着处理新ZSL任务能力的提高，不可避免地要牺牲一些对已见类的分类能力。尽管如此，我们的方法超过了其他的大利润率为三我们的五个数据集的调和平均值（H），而非常接近的特征合成的方法。传导式零触发学习。当测试数据在训练期间可用时，通常期望更好的性能，因为我们可以利用它们来减轻模型对可见类的偏见。表4验证了这一点，我们的转导算法明显优于电感算法。这证实了我们的新的学习-不忘自我训练技术的有效性。此外，对于不可见类的广义交叉熵损失，Ours-transs（GXE）始终比con-transs表现得更好3590孙幼崽AWA1AWA2APYZSLGZSLZSLGZSLZSLGZSLZSLGZSLZSLGZSLT1USHT1USHT1USHT1USHT1USHLATEM [40]55.314.728.819.549.315.257.324.055.17.371.713.355.811.577.320.035.20.173.00.2ALE [1]58.121.833.126.354.923.762.834.459.916.876.127.562.514.081.823.939.74.673.78.7[第10话]56.516.927.420.952.023.853.032.854.213.468.722.459.717.174.727.839.84.976.99.2SJE [1]53.714.730.519.853.923.559.233.665.611.374.619.661.98.073.914.432.93.755.76.9西班牙语[30]54.511.027.915.853.912.663.821.058.26.675.612.158.65.977.811.038.32.470.14.6同步[3]56.37.943.313.455.611.570.919.854.08.987.316.246.610.090.518.023.97.466.313.3严重不良事件（[14]）40.38.818.011.833.37.854.013.653.01.877.13.554.11.182.22.28.30.480.90.9[36]第三十六话60.60.039.60.049.30.045.70.068.31.880.33.563.82.580.14.838.40.083.30.0[43]第四十三话61.920.534.325.651.719.657.929.268.432.884.747.367.230.586.445.135.011.175.119.4相对净[35]----55.638.161.147.068.231.491.346.764.230.093.445.3----SP-AEN59.224.938.630.355.434.770.646.6----58.523.390.937.124.113.763.422.6PSR [2]61.420.837.226.756.024.654.333.9----63.820.773.832.338.413.551.421.4f-CLSWGAN [42]60.842.636.639.457.357.743.749.768.243.757.749.7--------我们62.636.342.839.354.447.447.647.570.962.777.069.171.156.481.466.738.026.574.039.0表3.零射击学习精度。最佳结果以粗体显示。带有f-CLSWGAN的模型会生成额外的数据用于训练，而其余的模型则不会。孙幼崽AWA1AWA2APYZSLGZSLZSLGZSLZSLGZSLZSLGZSLZSLGZSLT1USHT1USHT1U SHT1USHT1U SHALE-tran [1]55.719.922.621.254.523.545.130.965.625.9--70.712.673.021.546.78.1--[36]第三十六话64.00.041.60.049.324.945.832.281.348.1--78.631.767.243.137.10.0--[27]第二十七话56.817.725.020.748.717.339.024.074.722.3--72.820.874.732.645.511.9--QFSL [34]58.331.251.338.872.171.574.973.2-- --79.766.293.177.4-- --Ours-trans（XE）61.944.557.650.259.254.467.960.487.4 84.2八十四点三84.281.477.788.382.752.750.486.363.7Ours-trans（GXE）63.545.458.151.061.357.068.762.389.887.789.088.483.280.290.084.854.7 51.8八十七点六65.1表4.传导式零触发学习精度。最佳结果以粗体显示。c=4C=8c=16c=32c=40（所有）ZSL68.169.670.470.969.8表5.W.r.t.的精确度每批培训班图2.分析AwA1数据集上的自训练过程。“5685” stands for thetotal number of testventional cross-entropy loss（Ours-trans（XE））。这表明了使用广义交叉熵损失来避免不正确伪标签的负面影响的有效性比较而言，类似于我们在归纳设置中观察到的，我们的方法显著优于现有的方法，特别是对于GZSL中看不见的类。4.5. 进一步分析分析自我训练过程。在转导ZSL设置中，我们建议使用测试数据在一种新的自训练fash-离子对看不见的类校准权重生成器f。我们交替使用f为未看到的图像生成伪标签和使用高置信度的伪标签更新f。通过这种自我训练策略，偏见可以逐渐消除f的朝向可见类的偏移，结果是增强了未见类识别为了分析这种自我训练过程是如何工作的，我们在图2中绘制了训练损失、分类准确性、置信的未见过样本的数量（用于更新模型）以及其中正确标记的样本的部分的变化。我们可以看到，随着训练轮的增加，训练损失不断减少，置信样本的集合不断扩大。同时，伪标号分配的准确性也得到了提高。这意味着随着训练轮的增加，用于训练的未标记图像在数量和质量方面都得到了提升，这反过来又进一步改进了分类器生成器。每集的课程数量。表5显示ZSL精度随时间变化很小。每个小批量中的采样类，这与[32]中的观察结果相矛盾，其中基于情节的训练用于少量学习。我们推测原因是在[32]中每个小批量采样更多的类这不适用于我们，因为我们使用预先训练的功能。可以通过对多个小批次进行采样来近似对每个小批次中的更多类别进行采样。3591w阿格什w1.01.01.01.00.80.80.80.80.60.60.60.60.40.40.40.40.20.20.20.20.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.8 1.01.00.80.60.40.21.00.80.60.40.21.00.80.60.40.21.00.80.60.40.20.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.81.00.00.0 0.2 0.4 0.6 0.8 1.0(a) [43]第43话（三）我的（四）我的图3. t-SNE [24] AwA 1数据集的视觉特征嵌入和分类器权重向量（或类原型）的可视化。顶部：可见（“Y”）和不可见（“E”）类的分类器权重向量（或类原型）。下图：分类器权重向量和不可见类的视觉特征嵌入。不同的颜色代表不同的阶级。“V-A”表示将视觉嵌入投影到属性空间。嵌入可视化。回想一下，我们通过计算X的余弦相似度和从y生成的分类器权重wy（等式10）来计算图像X属于给定类属性y的类y（2）译注。由于两个向量的余弦相似性等价于归一化后的点积，我们可以把wy看作原向量。y类的类型Y。通过这种解释，x属于类y的可能性可以通过归一化特征x和归一化分类器权重的距离来测量向量wy 因此，我们可以可视化归一化分类器y权向量和归一化的视觉特征向量，对分类器的可辨别性进行全面我们绘制了分类器权重的t-SNE可视化[24]及其与图3中不可见类的视觉特征的匹配。我们可以看到，我们的类原型在空间上比DEM [ 43 ]更加分散，DEM [43]没有考虑生成类原型的类间分离信息。此外，我们可以观察到，通过将视觉特征投影到属性空间，相应的类原型是非常聚集的。这证实了将ZSL作为一个条件视觉分类问题的优点，通过它，我们可以自然地受益于视觉特征的高区分度和类间分离信息，以获得对可见和不可见类的区分性分类器。此外，我们还可以看到，类原型在转导环境中的分布比在归纳环境中的分布更加这证明了我们的转导ZSL算法在利用未标记的测试数据来增强可见和不可见类的分类器的可辨别性方面通过将类原型与不可见类的视觉特征重叠，我们可以观察到不可见类的视觉特征与其对应的类原型类型紧密相关，而与可见类的视觉特征相距甚远与此相反，这种有利的分布不能观察到的DEM和算法的投影视觉特征的属性空间的地块。这进一步证实了我们的方法的优越性。5. 结论在本文中，我们reformuate作为一个视觉特征分类问题的属性条件。根据这种重新制定，我们开发各种ZSL设置的算法。对于常规设置，我们建议学习深度神经网络以直接从属性生成视觉特征分类器，并使用基于余弦相似性的交叉熵损失和基于情节的训练方案来指导该过程。对于广义的设置，我们建议串联分类器，为看到和未看到的类，以识别对象从所有类。对于转导设置，我们开发了一种新的学习而不忘记的自我训练机制，以校准classi- fier generator对看不见的类，同时保持良好的性能，看到的类。广泛使用的数据集上的实验验证了所提出的方法的有效性鸣谢：本研究部分得到了NSF IIS奖1651902的支持。陆军研究办公室奖W 911 NF-17-1-0367和NEC美国实验室。3592引用[1] Zeynep Akata ， Scott Reed ， Daniel Walter ， HonglakLee，and Bernt Schiele.细粒度图像分类的输出嵌入评价。CVPR，2015。一、二、七[2] Yashas Annadani和Soma Biswas。为零次学习保留语义关系。在CVPR，2018年。二、七[3] Soravit Changpinyo，Wei-Lun Chao，Boqing Gong，andFei Sha. 用于零镜头学习的合成分类器在CVPR，2016年。7[4] Soravit Changpinyo，Wei-Lun Chao，and Fei Sha.为零射击学习预测看不见的类的视觉样本。InICCV，2017. 2[5] 陈龙，张汉旺，肖军，刘伟，张世福.基于语义保持对抗嵌入网络的零镜头视觉识别。在CVPR，2018年。二、七[6] Mohamed Elhoseiny ， Yizhe Zhu ， Han Zhang ， andAhmed Elgammal.将头部与“喙”连接起来：零拍摄学习从嘈杂的文本描述在部分精度。在CVPR，2017年。2[7] Ali Farhadi ， Ian Endres ， Derek Hoiem ， and DavidForsyth.按属性描述对象。CVPR，2009。5[8] 拉斐尔·费利克斯，BG维贾伊·库马尔，伊恩·里德和古斯塔沃·库塞罗。多模态循环一致性广义零激发学习。在ECCV，2018。2[9] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。arXiv预印本arXiv：1703.03400，2017。3[10] Andrea Frome ， Greg S Corrado ， Jon Shlens ， SamyBengio，Jeff Dean，Tomas Mikolov，et al. Devise：一个深度视觉语义嵌入模型。在NIPS，2013年。二、七[11] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR，2018年。3[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。5[13] Elyor Kodirov，Tao Xiang，Zhenyon

下载后可阅读完整内容，剩余1页未读，立即下载