潜在空间的跨模态对齐变分自编码器用于广义零激发学习中的图像分类

79 浏览量更新于2023-10-19 收藏 671KB PDF 举报

变分自编码器

特征生成

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

18247潜在空间通过对齐的变分自编码器的Edg arSc hönfeld1SaynaEbrahimi2SamarthSinha3Trev orDarrell2ZeynepAkata41Bosch Center for AI2 UC Berkeley3 University of Toronto4 University ofAmsterdam摘要广义零激发学习中的许多方法依赖于图像特征空间和类嵌入空间之间的跨模态映射。由于标记图像是昂贵的，一个方向是通过生成图像或图像特征来增强数据集。然而，前者错过了细粒度的细节，而后者需要学习与类嵌入相关的映射。在这项工作中，我们采取特征生成更进一步，并提出了一个模型，其中图像特征和类嵌入的共享潜在空间是通过特定模态对齐变分自编码器学习的。这为我们留下了所需的关于图像和类的区分信息，分类器红色的头粉红色的腹部棕色的翅膀灰色的喙潜在的特征，我们在其上训练softmax分类器。我们的方法的关键是，我们对齐从图像和边信息中学习到的分布，以构建包含与不可见类相关的基本多模态信息的潜在特征。我们在几个基准数据集上评估了我们学到的潜在特征，即。CUB，SUN，AWA1和AWA2，并建立了一个新的艺术状态的广义零杆以及少杆学习。此外，我们在ImageNet上使用各种zero-shot split的结果表明，我们的潜在特征在大规模设置中泛化1. 介绍广义零射击学习（GSTOL）是一项具有挑战性的任务，特别是对于不平衡和大型数据集，如ImageNet[5]。虽然在训练时没有一些类的视觉数据，即。不可见的类，提供了分类器必须学习区分所有类，即，可见和不可见的类。由于不可见类的视觉数据在训练时不可用，因此通常经由对类之间的语义关系进行编码的某种形式的辅助信息来实现从可见类到不可见类的知识转移即类嵌入。大多数GADML方法[6，1，20，34，2]学习图像和它们的类嵌入之间的映射。一种正交方法是通过生成人工神经网络来增强数据。图1：我们的CADA-VAE模型学习了潜在嵌入通过利用交叉对准（LCA）和分布对准（LDA）目标优化的对准的VAE来实现图像特征（x）的分类（z）和标签y的类嵌入（c（y）），并且随后在采样的潜在特征上训练分类器可见和不可见的阶级。社会形象[23]。然而，由于合成图像中的细节缺失程度为了缓解这一问题，[36]提出了通过concept WGAN生成图像特征，这简化了生成模型的任务，并直接优化了图像特征的损失尽管[36]显著改进了GAN L生成的特征，但基于GAN的损失函数在训练中存在不稳定性。因此，最近的条件变分自动编码器（VAE）[18，14]已用于此目的。由于GML本质上是一种多模态学习任务，[29]提出将两种模态转换为自动编码器的潜在空间，并通过最小化最大平均离散度（MMD）来匹配相应的分布。学习这种跨模态嵌入对于需要多模态融合的潜在下游任务是有益的，例如，视觉问答在这个领域，[22]最近使用了一个跨模态自动编码器来扩展视觉问题回答到以前看不见的对象。特征空间E1E2D1D218248在这项工作中，我们训练VAE编码和解码来自不同模态的特征，例如。图像和类别属性，并使用学习的潜在特征来训练通用化的零触发学习分类器。通过匹配其参数化分布和强制执行跨模态重建标准，我们的潜在表示被对齐因此，通过在使用不同模态学习的潜在特征和潜在特征的分布中明确地强制对齐，VAE使得能够将知识转移到看不见的类，而不会忘记先前看到的类。我们的贡献如下。(1)我们提出了CADA-VAE模型，通过分布对齐和交叉对齐目标，使用VAE学习多个数据模态的共享跨模态潜在表示。(2)我们广泛评估我们的模型使用传统的基准数据集，即。CUB、SUN、AWA1和AWA2，在零次和少次学习设置上。我们的模型在所有这些数据集上建立了新的通用零镜头和少镜头学习设置的最先进性能。此外，我们表明，我们的模型可以很容易地扩展到两个以上的方式，同时训练。(3)最后，我们证明了我们的模型学习到的潜在特征在广义零次学习任务的所有分割中提高了真正大规模ImageNet数据集的最新水平2. 相关工作在本节中，我们介绍了广义零镜头学习，少镜头学习和跨模态重构的相关工作。广义零次和少次学习。在零触发学习中，训练类和测试类是不相交的，在类的层次上标注共享属性，该方法的性能完全取决于其在新分类器上的分类准确率，即：看不见的班级广义零触发学习是零触发学习的一种更现实的变体，因为在训练时可以获得相同的信息，但模型的性能是根据可见和不可见类的分类精度的调和平均值来判断的。在少次学习中，在训练时为之前看不见的类提供了k个示例[30，26，10，32]。在[30]中引入了使用辅助信息进行少量学习，其中使用与图像相关的属性来提高模型的性能。在ReViSE [29]中也探索了辅助信息的使用，其中学习了用于transductive few-shot学习的公共图像标签语义空间。类似于GALML和GALML之间的关系，我们将few-shot扩展到一般化的few-shot学习（GFSL）设置，在该设置中，我们在可见和不可见的类上评估模型。数据生成模型的GALML。生成模型用于生成图像或图像特征，作为GREML中的数据增强[36，18，14]机制。这些方法将GAN L视为缺失数据问题，并训练条件GAN或条件VAE，以从语义边信息中为不可见的类在这项工作中，我们创造了潜在的空间特征。跨模态嵌入模型。最近用于GML的跨模态嵌入基于自动编码器，例如ReViSE [29]和DMAE [19]，其学习在其潜在空间中联合表示来自不同模态的特征。通过使用自动编码器，可以以半监督的方式学习视觉和语义信息的表示。通过对齐不同数据类型之间的潜在分布来学习视觉和语义数据的联合表示。ReViSE通过最小化两个潜在分布之间的最大平均差异来实现这种分布对齐[9]。DMAE通过最小化平方损失互信息来调整分布[28]。在这项工作中，我们使用变分自动编码器，并通过最小化它们的Wasserstein距离来对齐潜在分布与[19]和[29]相比，我们还通过将每个编码特征解码为每个其他模态来实施交叉重建损失生成模型中的交叉重建。跨域重构数据，称为交叉对齐，通常用于域自适应领域.虽然像CycleGAN [37]这样的模型学习直接跨域生成数据，但潜在空间模型使用交叉重建来捕获中间潜在表示中两个域中包含的共同信息[31]。在这方面，交叉对齐的VAE在[25]中，交叉对齐的VAE确保来自不同输入域的文本的潜在表示是相似的，而在[16]中，一种类似的方法匹配来自不同域的图像的潜在表示。这两种方法的共同点是，它们使用具有对抗性损失的VAE的不同变体。此外，[25]使用了条件编码器和解码器，而[16]强制执行循环一致性和权重共享。类似地，如果共享表示空间适合于类插值、句子插值[3]和图像插值[11]，则可以实现更好的泛化在本文中，我们的积木是无条件的VAE，我们实现了多模态对齐通过交叉重建和潜在的分布对齐高度减少的空间。3. CADA-VAE模型在现有的GALML模型中，最近的数据生成方法[36，14，18]在不相交的数据集上实现了优于其他方法的性能。分类gener-18249红色的头粉红色的腹部棕色的翅膀灰色的喙φφ图2：我们的交叉和分布对齐VAE（CADA-VAE）。通过最小化潜在分布之间的Wasserstein距离（LDA）来实现潜在分布对齐类似地，交叉对准损失（LCA）鼓励潜在分布通过交叉模态重构来对准。来自GANS [36]或条件VAE [14，18]的自适应图像特征存在被维数灾难损害的风险。另一方面，CADA-VAE控制待分类特征的维度和结构（通过先验）。我们提出的模型的主要见解是，而不是生成图像或图像特征，我们生成低维的潜在特征，并实现稳定的训练和最先进的性能。因此，我们的方法的关键是选择一个VAE潜在空间，重建和交叉重建标准，以保持类判别信息在较低的维度，以及明确的分布对齐，以鼓励域不可知表示。3.1. 背景我们首先提供背景作为任务（GSTML）和模型构建块（变分自编码器）。广义零射击学习。GSTML 的任务定义如下。设S={（x，y，c（y））|x∈X，y∈Y S，c（y）∈ C}是一组训练样本，由图像特征x组成，例如：由CNN提取，类标签y在训练和类嵌入c（y）期间可用。典型的类嵌入是手工注释的连续属性或Word2Vec特征的向量[17]。另外，辅助训练集U ={（u，c（u））|u ∈ Y u，c（u）∈ C}其中u表示来自集合Yu的未见过的类，与YS不相交。这里，C（U）={c（u1），.， c（uL）}是看不见的类的类嵌入的集合在传统的挑战，任务是学习一个分类器变分自动编码器（VAE）。我们模型的基本构建块是变分自动编码器（VAE）[13]。变分推理的目的是找到潜变量p φ（z）上的真实条件概率分布|X）。由于这种分布的相互作用性，它可以被应用于通过找到最接近的代理后验qθ（z|x），通过使用变分下限最小化它们的距离。VAE的目标函数是变量-给定数据点的边际可能性的理性下限，并且可以公式化为：L=Eq（z|x）[logpθ（x|z）]−DKL（qφ（z|x）||pθ（z））（一）其中第一项是重构误差，第二项是推断模型q（z）之间的解压缩Kullback-Leibler散度|x）和p（z）。一个常见的选择的先验是一个多元标准高斯分布。编码器预测μ和μ，qφ（z|x）= N（μ，μ），由此生成潜在向量z。通过重新参数化技巧[13]。3.2. 交叉和分布对齐VAE我们的模型的目标是在一个共同的空间内学习M个数据模型的组合表示。因此，我们的模型包括M个编码器，每个模态一个，以映射到这个表示空间。为了最小化信息损失，原始数据必须通过解码器网络重建。实际上，我们模型的基本VAE损失是M个VAE损失之和：ΣMf L：X→Y联合然而，在这项工作中，我们专注于LV AE=Eq（z|x）[logpθ（x（i）|z）]（2）我更现实和更具挑战性的设置，目的是学习一个分类器fG_L：X→YU_Y_S。-βDKL（qφ（z|X（一））||pθ（z））E2E1D2D118250其中β加权KL发散[11]。在用类嵌入匹配图像特征的情况下，M=2，x（1）∈X且x（2）∈C（YS）。然而，使特定于模态的自动编码器学习跨模式需要额外的正规化条款。因此，我们的模型明确地对齐潜在分布，并强制执行交叉重建标准。在图2中，我们展示了我们的模型的概述，描述了这两种形式的潜在分布匹配，我们称之为交叉对齐（CA）和分布对齐（DA）。交叉比对（CA）丢失。在这里，重建是通过解码的潜在编码的样本从一个其他的模态，但相同的类。因此，每个模态特定的解码器都是在从其他模态导出的潜在向量上训练的这种交叉重建损失是：在第4.1节中显示，我们的模型可以学习两个以上模态的共享多模态嵌入，而无需所有模态的示例可用于所有类。实施详情。所有编码器和解码器都是具有一个隐藏层的多层感知器。更多的隐藏层会降低性能，因为CNN特征和属性已经是非常高级的表示。我们使用1560隐藏单元的图像特征编码器和1660解码器。属性编码器和解码器分别有1450和660个隐藏单元潜在嵌入大小为64。对于ImageNet，我们选择了128的大小，并为编码器使用两个相同大小的隐藏层，上面指定了隐藏单元的数量，图像特征解码器层的大小为1160和1660，而属性解码器使用460和1660。ΣMLCA=我ΣMj/=i|x（j）−Dj（Ei（x（i）|.（三）660个单位。该模型通过随机训练100个epochs梯度下降使用Adam优化器[12]，ImageNet的批量大小为128，所有其他数据集为50每个训练批次由成对的CNN特征和匹配组成其中，Ei是第i模态的特征的编码器，并且Dj是除了第j模态之外的相同类别的特征的解码器分布对齐（DA）损失。生成的图像和类表示也可以通过最小化它们的距离来匹配。在这里，我们最小化潜在的多元高斯分布之间的Wasserstein距离。在多变量高斯的情况下，两个分布i和j之间的2-Wasserstein距离[8]的封闭形式解如下：从不同的可见类中提取属性。一对数据总是属于同一个类。在单个VAE学会仅对某些时期的特定数据类型的特征进行编码后，我们还开始计算交叉和分布对齐损失。δ从时期6到时期22以0的速率增加。54，而γ从时期21到75增加0。044每纪元。对于KL发散，我们使用退火方案[3]，其中我们以0的速率增加KL发散的权重β。0026直到时期90。KL-退火方案的目的是首先让VAE学习“有用的ΣW为||µ -µ||2（四）它们被ij i j21 11Σ1否则是一个非常强的正则化子[3]。+Tr（i）+Tr（j）−2（2i2）2二、我们根据经验发现，使用I j重新参数化技巧[13]，其中所有维度由于编码器预测对角协方差矩阵，这是可交换的，这个距离简化为：.2112Σ 1噪声矢量从单个单峰高斯采样。此外，使用L1距离作为重建误差似乎产生比L2稍好的结果火车后Wij=||µi−µj||+的||Σ2 − Σ2||二（五）2i j弗罗贝纽斯并且M元组的组的分布对齐（DA）损失被写为：VAE编码器将训练集和测试集最后的线性分类器进入潜在空间1。4. 实验ΣMLDA=我ΣMj/=iWij。（六）我们在四个广泛使用的基准数据集CUB-200-2011[33]（CUB），SUN属性（SUN）[21]，具有属性1和2的动物（AWA 1 [15]，交叉和分布对齐（CADA-VAE）损失。交叉和分布对齐的VAE将基本VAE损失与LCA（CA-VAE）和LDA（DA-VAE）相结合：LCADA−V AE=LV AE+γLCA+δLDA（7）AWA2 [35]），用于GSTRL和GFSL设置。所有我-用于VAE训练的年龄特征源自ResNet-101的2048维最终池化层。为了避免违反零杆假设，即。测试类需要与ResNet - 101训练的类不相交，我们使用[ 35 ]中提出的训练分割。其中γ和δ是交叉比对的加权因子。和分布对准损失。我们1码网址：https://github.com/edgarschnfld/CADA-VAE-PyTorch18251表1：消融研究。我们比较了不同的多模态对准目标函数，即CUB上的GALML精度。DA-VAE（分布排列VAE）、CA-VAE（交叉排列VAE）和CADA-VAE（交叉和分布排列VAE）。50403020100S U H10070XS5030003050XU70 100属性在可用时充当类嵌入对于CUB，我们还使用从每个类平均每个图像注释的10个句子中提取的句子嵌入[23]，对于ImageNet，我们使用[4]提供的Word2Vec[17]嵌入所有超参数都是在[35]提供的验证集上选择的我们报告了每类平均准确度的可见（S）和不可见（U）之间4.1. CADA-VAE在CUB上的详细在本节中，我们分析了我们提出的框架的几个构建模块，例如模型，类嵌入的选择以及我们的模型在Gandrel设置中生成的潜在嵌入的大小和数量。分析模型变体。在这消融研究中，我们提出了不同的目标函数和相应的VAE变量，CA-VAE（交叉对齐的VAE），DA-VAE（分布对齐的VAE）和CADA-VAE（交叉和分布对齐的VAE）的结果，在GALNUL设置的CUB数据集。如表1所示，与分布对齐相比，交叉对齐目标显著提高了性能（50. 2% vs. 45. 8%）。这是由于可见和不可见的类别准确度都增加了，即。看到类精度提高4.5%，看不见的类精度提高了4。3%，当我们使用交叉对齐损失而不是分布对齐损失时。此外，结合分布对准和交叉对准目标，即，CADA-VAE，将精度提高到52。4%来自于将分布对齐添加到CA-VAE。我们的消融研究表明，潜在表示和潜在空间的对齐是互补的，因为它们的组合导致了可见的、不可见的类及其调和平均值的最高结果。分析边信息。在稀疏数据体系中，特别是在类的零次学习语义表示中，即，类嵌入与图像嵌入一样重要，因为它们使知识能够从可见的类转移到不可见的类。我们比较了每类属性，每类句子和基于类的Word2Vec表示所获得的结果。图3：不同类嵌入的效果。（左）看，使用不同类嵌入作为边信息的CUB的不可见和调和平均精度。（右）使用属性和句子作为辅助信息，即XS：可见类中有句子的百分比，XU：不可见类中有句子的百分比。属性是（100−X）%类的类嵌入我们在图3（左）中的结果表明，每类句子嵌入在所有三个中产生最佳性能，即五十三4%，属性紧随其后，即。52岁百分之四对于Word2Vec，可见和不可见类准确度之间的差异很大，表明Word2Vec学习的潜在表示鲁棒性较弱。这是预期的，因为Word2Vec功能并不明确或专门表示视觉特征。总之，这些结果表明，我们的模型能够从各种来源的边信息中学习。结果还表明，使用更具鉴别力的类嵌入学习的潜在特征会导致更好的整体准确性。为了研究我们模型中最突出的方面之一，即。处理丢失的边信息的能力，我们训练CADA-VAE，使得XS%的可见类图像特征与句子嵌入配对，而其他（100-XS）%的可见类与属性配对。针对XS=0、30、50、70、100评估设置。我们还改变了从句子特征中学习到的不可见类的比例XU%（而（100-XU）%表示图像特征仅与属性配对）。图3（右）显示了对XS和XU使用不同分数的句子嵌入和属性嵌入的结果。当XU稳定在50%时，即可见类和不可见类都有一半的时间可以访问句子和属性，我们在XS-XU比率为50%-50%时达到最高的准确率。有趣的是，在（XS=0，XU=50）处，即没有看到类的句子，而未看到类由两个属性表示，准确率为40%。另一方面，在（XS=50，XU=0）处，即没有未看到的类句子，而看到的类由两个属性句子表示，准确率增加到45%。在（XS=50，XU=100）处，即50%的属性和50%的感-attstcw2vACC模型SUHDA-VAE四十八1四十三8四十五8CA-VAE52岁6四十八150块223040475343464749514546494747504748464452464032218252555045403512 25 50 64100 200 250潜在维度（d）300200100505每个可见类的6040200每个可见类的图4：CADA-VAE生成的潜在特征的维度的影响，并用于训练GALML分类器。我们在CUB数据集对于可见类而不可见类的时态仅用句子表示，准确率进一步提高到47%。这些结果表明，句子有一个优势，在致敬。然而，当句子或属性不可用时，我们的模型可以从另一种模态中恢复丢失的信息，并且仍然可以学习区分性表示。增加潜在维度的数量。在此分析中，我们探讨了我们的方法的鲁棒性的潜在空间的维数。更高的维度允许更多的自由度，但需要更多的数据，而紧凑的功能捕捉基本的判别信息。在不失一般性的情况下，我们报告了CADA-VAE的调和平均精度为不同的潜在尺寸CUB上，即。12、25、50、64、100、200和250。我们在图4中观察到，精度最初随着维数的增加而增加，直到它达到其峰值精度52。4%，d=64时，并持续到d=100，之后随着潜维数的进一步增加而下降。我们从这些实验中得出结论，当潜在空间约为64-100维时，两种模态的最具区别性的特性被捕获。Ssions。出于效率原因，我们使用64维潜在这是我在报纸上的其余部分。增加潜在特征的数量。我们的模型可用于生成任意数量的潜在特征。在这个实验中，我们在GNUML设置中的CUB上将每个类的潜在特征的数量从1改变到300，并且在每个可见类具有50个或更多潜在特征的情况下达到最佳性能（图5，左）。原则上，可见类和不可见类不需要具有相同数量的样本。我们还改变了每个可见和不可见类的特征数量。事实上，当每个看不见的类的特征数量大约是看不见的类的两倍时，可以实现最佳的准确性，这将准确性从37%提高到52%。而每类100个潜在特征，即图5：分析每个类别的潜在特征数量对GALML中调和平均准确度unseen-seen比率RUS为2意味着为未见过的类生成的样本是为见过的类生成的样本.动态数据集（浅蓝色）不依赖于固定数量的采样潜在特征。200×100=20K，准确率为38%，每个可见类有50个潜在特征，每个不可见类有100个潜在特征，即100×50+50×150=12。5K，导致52%的准确性。因此，产生更多的特征，类对于更好的准确性很重要。至于我们在图5中的结果，我们通过在每次迭代中连续生成潜在特征来构建动态训练集，并且不使用任何样本超过一次。因此，我们消除了一个可调参数，即要生成的潜在特征的数量。由于VAE编码器的非确定性映射，不同类的每个潜在特征都是唯一的。我们的研究结果表明，最好的准确性是实现时，看不见的和看到的类样本是平等的平衡。在CUB中，使用动态训练集可以达到与我们相同的性能使用一个固定的数据集，其中包含100个看不见的示例和50个可见的示例。另一方面，使用固定的数据集会导致更快的训练过程。因此，在本文报告的每个基准测试中，我们使用一个固定的数据集，每个可见类有200个示例，每个不可见类有400个4.2. 在基准数据集上比较CADA-VAE在本节中，我们在四个基准数据集上比较了我们的CADA-VAE，即CUB、SUN、AWA 1和AWA 2，在GAUML和GFSL设置中。广义零次学习。我们将我们的模型与11个最先进的模型进行比较。其中， CVAE [18] ， SE [14] 和 f-CLSWGAN [36]学习生成人工视觉数据，从而将零拍摄学习任务视为数据增强任务。另一方面，经典的EML方法DeViSE [6]，SJE [2]，ALE [1]，EML [24]CMT [27]和LATEM [34]使用线性兼容性函数或其他相似性度量来比较嵌入的视觉和语义特征;52 3852 3852 383718固定：RUS=1固定：RUS=2固定：RUS=3动态加速度H每个不可见类的加速度H18253模型特征尺寸S幼崽UHS孙UHSAWA1UHSAWA2UHCMT [27]四十九87 .第一次会议。212个。621岁88. 111个国家。887岁60的情况。91 .一、8九十00的情况。51 .一、0SJE [2]五十九223岁5三十三岁。6三十5十四岁719号。874岁611个国家。319号。6七十三。98. 0十四岁4ALE [1]62.823岁7三十四4三十三岁。121岁8二十六岁3七十六。1十六岁8二十七岁581.8十四岁023岁9LATEM [34]2048五十七3十五岁2二十四岁028岁8十四岁719号。5七十一77 .第一次会议。3十三岁3七十七。311个国家。520块0EZSL [24]63岁812个。621岁0二十七岁911个国家。0十五岁875.6六、612个。1七十七。8五、9 11个国家。0同步[4]七十911个国家。519号。8四十三37 .第一次会议。9十三岁487岁38. 9十六岁2九十510个。0十八岁0DeViSE [6]五十三023岁8三十二8二十七岁4十六岁920块968岁7十三岁4二十二岁474岁7十七岁1二十七岁8F-CLSWGAN [36]五十七7四十三7四十九7三十六6四十二639岁461岁4五十七9五十九668岁952岁1 五十九4CVAE [18]1024––三十四5––二十六岁7––四十七2––51岁2[第14话]五十三341岁5四十六岁。7三十5四十9三十四967岁8五十六361岁568岁1五十八362. 8[29]第二十九话75/ 10028岁3三十七6三十二320块1二十四岁3二十二岁0三十七1四十六岁。141岁139岁7四十六岁。4四十二8我们的（CADA-64五51岁52岁三四十四十七五十六十75.55. 8 63岁18254VAE）十三564十五7七26十二8七3四109表2：CADA-VAE与现有技术的比较。我们报告了可见（S）和不可见（S）类的每类准确度及其调和平均值（H）。我们的方法的所有报告的数字是平均超过十个运行。SYNC [4]对齐类嵌入空间和加权二分图。ReViSE [29]使用自动编码器学习图像特征和类属性之间的共享潜在流形。表2中的结果表明，我们的CADA-VAE在所有数据集上都优于所有其他方法。我们的模型与最接近的基线Re- ViSE [ 29 ]之间的准确度差异如下：52岁4%对32.3%的CUB，40。占6%vs22. 0%的太阳，64。1%对41. AWA1和63的1%。9%vs四十二8%的AWA2。此外，我们的模型实现了显着的改进，最显着的特征生成模型关于CUB在这样做的过程中，CADA-VAE是第一个超越基于特征增强的方法的跨模态嵌入模型与经典方法相比，我们的模型导致至少100%的谐波平均精度的改善。在零触发学习的传统挑战中，CADA-VAE提供了有竞争力的性能，即六十岁。4对CUB，61。太阳上8分，62分。AWA1上3，64。0在AWA2上。然而，在这项工作中，我们专注于更实用和更具挑战性的GWML设置。由于我们的模型不使用任何CNN特征，即我们为所有类生成64维潜在特征，它比CNN特征生成方法更好地实现了可见和不可见类准确性之间的平衡，特别是在CUB上。此外，CADA-VAE通过交叉重建目标以弱监督方式学习共享表示由于潜在特征必须被解码到每个涉及的模态中，并且由于每个模态编码互补信息，因此鼓励模型学习保留所有使用的模态中包含的信息的编码。在这样做时，我们的方法不太偏向于学习所见的类图像特征，这被称为投影域移位问题[7]。由于我们使用非确定性编码器为每个类生成一定数量的潜在特征，因此我们的方法也类似于数据生成方法。然而，学习的表示位于较低维度的空间中，即，因此，只有64个不太倾向于偏向图像特征的训练集。实际上，我们的训练比用于数据生成的对抗训练方案更稳定[36]。事实上，我们没有进行任何特定于数据集的参数调优，并对所有数据集使用相同的参数。广义少镜头学习。我们通过在四个数据集上使用GFSL的零次、二次、五次和十次射击来评估我们的模型。我们比较我们的结果与最相似的published工作在这一领域，即。ReViSE [30].图6显示了我们从边信息中学习的潜在表示在GML设置上的显著改进，即使只包括几个标记的样本。具体来说，将来自未见过的类的单个潜在特征添加到训练集可以将准确率提高1-10%，具体取决于数据集。在CUB上，从0到10次射击的准确性提高了12%，而在AWA1 2上，这一提高达到了20%。此外，虽然调和平均精度随着两种方法中的射击次数而增加，但我们方法的所有变体在所有数据集上都大幅优于基线，这表明我们方法对GFSL设置的泛化能力。此外，类似于GALML场景，在细粒度CUB和SUN数据集上，CADA-VAE达到最高性能，其次是CA-VAE和DA-VAE。然而，在AWA1和AWA218255幼崽孙AWA1AWA2605040300 1 2 510镜头45403530250 1 2 510镜头80706050400 1 2 510镜头80706050400 1 2 5 10镜头图6：比较CA-VAE，DA-VAE，CADA-VAE与ReViSE [30]，其中来自未知类别的训练样本数量增加，即在一般的少数镜头设置。10.07.55.02.50.02小时3小时M500 M1K M5K L500 L1K L5K全部从1K看到的ImageNet的训练类，根据ImageNet的层次结构。M500，M1K和M5K是500，1000和5000最流行的类，而L500，L1K和L5K是500，1000和5000最不流行的类，来自21K类的其余部分。最后，如图7所示，我们的模型显著提高了最先进的劈叉技术准确度的提高尤其在M500和M1K分割上是显著的，即对于图7：GALML上的ImageNet结果我们报道最高-1.看不见的类的准确性。f-CLSWGAN和CADA-VAE使用线性softmax分类器。不同模型之间的差异不显著。我们将这一点与AWA1和AWA2数据集是粗粒度数据集的事实相关联，图像特征已经具有区分性。因此，将潜在空间与属性对齐不会导致显著差异。4.3. ImageNet实验ImageNet数据集是GIGML的一个具有挑战性的测试平台在[35]中，提出了几种评估分裂，在类别数量和图像数量方面都增加了粒度和大小。请注意，由于所有1 K类的图像都用于训练ResNet-101，因此测量可见类的准确性会有偏差。然而，我们仍然可以在包含可见和不可见类的GALML搜索空间中评估不可见类图像的准确性。因此，在测试时，1K看到的类充当干扰项。这样，我们就可以测量我们的潜在表示到完全看不见的类的可转移性，即在ResNet训练和CADA-VAE训练期间都看不到的类。对于 ImageNet ，由于属性不可用，我们使用Word2Vec特征作为[4]提供的类嵌入。我们将我们的模型与f-CLSWGAN[36]进行了比较，f-CLSWGAN[ 36]是一种图像特征生成框架，目前在ImageNet上达到了最先进的水平。我们对所有的分裂都使用相同的评估协议在分割中，2H和3H是2跳或3跳类M500的搜索空间为1。对于M1K，搜索空间由2K个类组成。对于L500，L1K和L5K分割，平均每个类别只有1，3和5个图像可用[35]。由于“All”分割中的测试时间搜索空间所取得的成绩，CADA-VAE在性能上的显著提高表明，我们的128-dim潜在特征空间构成了鲁棒的可生成表示，超过了当前最先进的图像特征生成框架f-CLSWGAN。5. 结论在这项工作中，我们提出了CADA-VAE，这是一个用于广义零次和少次学习的跨模态嵌入框架。在CADA-VAE中，我们为视觉和语义模态训练VAE。每种模态的VAE必须共同表示其潜在空间中所有模态所包含的信息通过最小化它们的Wasserstein距离和通过强制交叉重构来对齐相应的潜在分布。这个过程留给我们的编码器可以将不同模态的特征编码到一个跨模态嵌入空间中，在这个空间中可以训练线性softmax分类器。我们提出了交叉对齐和分布对齐VAE的不同变体，并在四个中等规模基准数据集以及大规模ImageNet的一般化零射击学习中建立了新的最先进的结果。我们进一步表明，用于广义零射击学习的跨模态嵌入模型比数据生成方法实现了更好的性能，建立了最新的技术水平。CADA-VAEDA-VAE CA-VAE修订CADA-VAEDA-VAE CA-VAE修订CADA-VAEDA-VAE CA-VAE修订CADA-VAEDA-VAE CA-VAE修订f-CLSWGANCADA-VAE根据U加速度H加速度H加速度H加速度H18256引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特用于图像分类的标签嵌入. TPAMI，38（7）：1425- 1438，2016。一、六、七[2] Z. Akata、S.里德D.沃尔特，H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评估。在CVPR，第2927-2936页，2015年。一、六、七[3] S. R.鲍曼湖维尔尼斯岛Vinyals，A. 戴河，巴西-地Jozefow-icz和S.本吉奥。从连续空间生成句子。在CoNLL，第10-21页，2016年。二、四[4] S. Changpinyo，W.- L. Chao湾Gong和F.煞用于零射击学习的合成分类器。在CVPR，第5327-5336页，2016年。五七八[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。1[6] A. 弗罗姆，G。S. Corrado，J.Shlens，S.Bengio，J.迪恩T. Mikolov等人Devise：一个深度的视觉语义嵌入模型。NIPS，第2121-2129页，2013年。一、六、七[7] Y.傅氏T. M. Hospedales，T. Xiang，Z. Fu和S.龚用于零炮识别和注释的Transductive多视图嵌入。在ECCV，第584-599页，2014年。7[8] C. R.吉文斯河M. Shortt等人概率分布的一类wasserstein度量。The Michigan Mathematical Journal，31（2）：231-240，1984. 4[9] A. Gretton，K.M. Borgwardt，M.J. 拉施湾Sch oélk opf，以及A.斯莫拉核双样本检验。JMLR，13（Mar）：723-773，2012. 2[10] B. Hariharan和R. B.娘娘腔。通过缩小和幻觉特征进行低镜头视觉识别。在ICCV，第3037-3046页2[11] I. 希金斯湖，澳-地 Matthey，A. 帕尔角 Burgess，X.格洛特M. Botvinick，S. Mohamed和A. Lerchner beta-vae：使用受约束的变分框架学习基本视觉概念2016. 二、四[12] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2015年，国际会议。4[13] D. P.Kingma和M.威林自动编码变分贝叶斯。见ICLR，2014年。三、四[14] 诉Kumar Verma，G.阿罗拉A.Mishra和P.荷伊通过合成的示例进行一般化的零触发学习。在CVPR中，第4281-4289页，2018年。一二三六七[15] C. H. Lampert，H. Nickisch和S.伤害。学习通过类间属性转移检测不可见对象类在CVPR，第951-958页，2009中。4[16] M.- Y. Liu，T. Breuel和J.考茨无监督图像到图像翻译网络。在NIPS，第700-708页，2017年。2[17] T. 米科洛夫岛 Sutskever，K. Chen，G. S. 科拉多，还有J·迪恩单词和短语的分布式表示及其组合性。在NIPS，第3111三、五[18] A.米什拉河Krishna Reddy，A. Mittal和H. A. Murthy.使用条件变分自动编码器的零拍摄学习的生成模型。在CVPR中，第2188一二三六七18257[19] T.穆克吉，M。Yamada和T. M.医院深度匹配自动编码器。arXiv预印本arXiv：1711.06047，2017。2[20] M.诺鲁齐T.米科洛夫，S。本焦湾Singer，J. 史伦斯A.弗罗姆，G。S. Corrado，J。Dean.基于语义嵌入凸组合的零次学习。见ICLR，2014年。1[21] G. Patterson和J.海斯太阳属性数据库：发现，注释和识别场景属性。在CVPR，第2751-2758页，2012中。4[22] S. K. Ramakrishnan，A. Pal，G. Sharma和A.米塔尔新颖物体视觉问答的实证评估。在CVPR中，第4392-4401页，2017年。1[23] S. Reed，Z. Akata，H. Lee和B.席勒学习细粒度视觉描述的深度表示在CVPR，第49-58页一、五[24] B. Romera-Paredes和P.乇一个令人尴尬的简单的零射击学习方法。在ICML，第2152-2161页，2015中。六、七[25] T.沈，T.莱河，巴西-地Barzilay和T.贾科拉通过交叉对齐从非平行文本进行样式转换。在NIPS中，第6830-6841页，2017年。2[26] J. Snell，K. Swersky和R.泽梅尔用于少镜头学习的原型网络。在NIPS，第4077-4087页，2017年。2[27] R. Socher，M.甘朱角D. Manning和A. Ng.通过跨模态迁移实现零触发学习。在NIPS，第935-943页，2013中。六、七[28] T. Suzuki和M.杉山通过平方损失互信息估计进行充分降维在AI

下载后可阅读完整内容，剩余1页未读，立即下载