文件标题：任务关联解纠缠与可控样本合成的转账抵消方法

126 浏览量更新于2023-10-25 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9346转账（+抵消）基于任务关联解纠缠和可控样本合成的北京大学计算机与信息技术&北京交通大学交通数据分析与挖掘北京市重点实验室{fengyg18，pengboyang，xwhuang，jianyu，jtsang}@ bjtu.edu.cn摘要总体表征任务相关特征伪样本合成是目前解决广义零样本学习问题的最有效方法。大多数模型都取得了较好的性能，但仍然存在两个问题：（1）特征混淆，总体表示混淆了任务相关和任务无关的特征，现有模型以生成的方式将它们分开，但它们无法用有限的样本合成可靠的伪样本;（2）分布不确定性，现有模型在合成来自任务相关和任务无关的样本时马（源类）类别语义longleglongneck. . - 是的斑马（目标类别）不合理转让退纠缠不确定的分布，这导致在有限的可见类样本中性能不佳。本文提出了一种非生成式的特征提取模型，分别从两个模块来解决这些问题：（1）任务相关特征提取，通过领域自适应的对抗性学习，将任务相关特征从任务无关特征中剔除，实现合理的特征提取;（2）可控伪样本提取，实现边缘伪样本和中心伪样本的提取，实现特征提取的多样性和直观性。此外，为了描述训练过程中的有限可见类样本这一新场景，我们进一步制定了一个新的可重构学习任务，称为在四个基准测试上的大量实验验证了所提出的方法在GALML和FSZU任务中具有竞争力。1. 介绍数据爆炸和深度学习的快速发展在现实世界中，这些标签通常是稀疏/缺失的，零镜头学习（Zero ShotLearning，简称ZML）技术为解决此类问题提供了一个很好的解决方案，它在可见的类上进行训练，在不可见的类上进行测试（可见的类和不可见的类分别是*通讯作者。图1.说明我们方法的核心思想。不同的类共享类语义。右半部分的图像是左半部分的任务相关特征。它们被排除在任务无关的特征之外，更符合类语义，这对于GALML任务中的知识转移是合理的。独立）。在本文中，我们专注于广义的任务。这是一个现实的设置，使预测识别样本从两个类同时进行，而不是只分类的样本看不见的类。目前，为未知类合成伪样本的方法已被证明是解决GALML问题的最有效的知识转移方法之一。但仍存在两个具有挑战性的问题：（1）特征混淆. 大多数GNUML模型基于在预训练的CNN中提取的样本的总体表示ResNet101 [13]），而语义特征是类级别的属性或类级别的句子嵌入[21，40]。前者包含的信息更丰富，与人类认知不一致。因此，直接建立视觉特征到语义特征的映射，并根据混淆的视觉特征合成可靠的伪样本是不合理的。虽然一些模型[7，23]有助于提取更多的人类一致认知特征，但它们与生成模型有关，难以9347在有限的真实样本下保证了样本合成的多样性(2)分布不确定性。现有的方法，特别是生成式模型，通常需要大量的数据来拟合真实数据的分布，并且只能合成具有不确定分布的伪样本因此，当所见类样本较少时，这些模型的性能较差。图1说明了我们的方法的动机。我们首先排除了任务无关的特征，从马的图像到马的对象。然后根据源类中马的任务相关特征，采用非生成式的方法合成目标类中斑马具体而言，我们提出了一种非生成式的方法，称为任务相关解纠缠和可控样本合成（TDCSS）方法，处理上述问题。该计划主要由两部分组成。(1)任务相关特征分解模块。我们的模型是基于类的语义特征来完成图像分类任务。根据视觉特征是否与类语义相对应，将混淆特征分为任务相关特征和任务无关特征。与任务相关的特征更符合类语义。我们引入了领域适应的对抗训练来实现特征解纠缠。(2)可控伪样本合成模块. 基于任务相关特征，通过添加不同的偏移量，以非生成的方式合成边缘伪样本和中心伪样本。对于边缘伪样本，我们将其视为特征级的对抗样本，边缘偏移量可以视为对抗样本中的扰动。对于中心伪样本，我们使它们分布更接近一类的中心。这两种方法都是在有限的可见样本的基础上保证样本的生成多样性此外，合成具有一定特征的伪样本有助于探索不同类型的伪样本在语言知识转移中的作用。为了描述只有有限样本的场景，我们进一步提出了一个新的任务称为“少镜头看到类和零镜头未看到类学习（FSZU学习）”。FSZU也更合理，更实用。在GALML任务中，所有类都有很强的语义关系。因此，我们认为，网络学习和少数镜头学习（FSL）是共存的。例如，在深空探测和深海探测中，机器（探测器）总是会遇到新的地点，而人类所获得的可见类样本数量也是极其有限的。在本文中，我们执行TDCSS和类似的方法在新的任务。总之，我们的主要贡献是，总结如下：(1) 我们提出了一种新的非生成模型，通过领域适应的对抗训练将视觉特征分解为任务相关和任务无关。利用任务相关特征合成中心伪样本和边缘伪样本两类伪样本，保证了样本合成的多样性和直观性。(2) 我们提出了一种新的零镜头任务--(3) 在四个广泛使用的数据集上进行的大量实验表明，TDCSS的结果与类似的方法具有竞争力。2. 相关作品2.1. 广义零次学习域转移是GALML中的一个基本问题。它被描述为伪样品合成的甘精胰岛素。许多研究者提出了生成模型来合成未知类的伪样本以缓解这个问题。基于GAN的模型有助于增加伪样本的多样性[22]并保持语义一致性[24，30]。基于VAE的模型[6，19，34]有助于保持隐藏层中不同分布表示的语义一致性。一些研究人员将VAE和GAN集成到一个统一的条件特征生成模型中[29，42]以整合优势。还有一些非生成模型[8，11，12，15，26，27]合成伪样本。模型[15，27]提取基于属性的特征，然后将它们组合以合成大小不可见的伪样本。BPL [11]基于双向投影学习和线性插值合成伪样本。AGEML [8]使用图像自适应语义学（ImageAdaptive Semantics）通过视觉特征扩展语义特征，然后基于扩展的语义特征训练可见类分类器，并通过在可见对应物上采样和插值合成虚拟类来训练不可见类分类器。通过扰动或插值合成伪样本的模型[8，11因此，我们使用非生成模型来合成伪样本。与代表性解纠缠的Gillel。大多数GALML模型都是基于整体表示的。研究人员使用表示解纠缠来获得更符合语义的视觉特征一些-9348k=1i=1X= {x}搜索者通过探索它们各自的分布将视觉特征分解为例如，但这些方法需要NfNs.对于包含不可见类的测试集，GSZL与FSZU相同。具体来说，给定一个其他数据集{Xu，Yu}，其上的类与所看到的数据集相关。数据集有U个不可见的类，更严格的标签数据集。一些研究人员试图将由Nu个数据实例组成Xu={xu}Nu与Cor-(i)i=1基于属性的特征及其属性语义向量，响应标签Yu={y u}Nu。类标签如下：（i）i=1[15]第16话：在一个小的任务中，但他们的方法基于最后一个卷积层的特征图一些研究者根据他们对视觉特征的理解来解开视觉特征。DLFZRL [38]将特征分解为语义潜在特征、非语义潜在特征和非歧视性潜在特征，其中前两个因素通过对抗学习来学习，最后一个因素通过层次结构来学习此外，SP-AEN [5]将语义空间分解为两个子空间，分别用于分类和重构。一些研究人员还使用随机置换的生成模型来实现表示解纠缠[7，23]。本文采用领域对抗的方法将视觉特征分解为任务相关特征和任务无关特征，在不同的任务中具有更好的鲁棒性。2.2. 对抗性示例与对抗性自监督学习最近，大量的实验[1，33，35，39]表明，该模型具有更好的泛化能力，具有更好的对抗鲁棒性。它比自然训练的模型有更高的性能[1]。这些工作通常使用基于梯度的对抗性示例生成算法，例如FSGM [10]和PGD [18]。一些自监督学习方法[14，20]也以对比学习的方式基于对抗性样本升级为对抗性自监督学习，提取更符合人类认知的图像特征。在本文中，我们借鉴了这一核心思想，并进一步提出了边缘伪样本，可以被看作是基于目标攻击的特征级对抗样本我们还在TDCSS中引入了对抗性自监督的训练机制，使我们的模型能够提取出更符合类语义的任务相关特征。3. 该方法3.1. 问题公式化从S +1到S + U，y u∈ L u={S +1，. S+ U}。L sLu=。每个类都与一个类级别的语义特征相关联，这些语义特征可以是嵌入式的，也可以是at-致敬语义信息可以表示为A ={a（k）}S+U。我们将As和An表示为可见类和不可见类的语义特征。在本文中，模型训练是分两个阶段实现的我们将可见类拆分为源类（{Xss，Yss}，Ass）和目标类（{Xst，Yst}，Ast）。我们重新-将可见类作为源类和不可见类作为第二阶段培训的目标班。3.2. 总体框架在本节中，我们介绍了TDCSS的细节和培训策略。总体框架如图2所示。它有两个关键组成部分：（1）任务相关性特征解开我们第一个双生坦-将源类的混淆视觉特征Xs与任务相关特征hcor和任务无关特征通过对抗性的领域适应训练，确保两者精确、有意义且相互独立解纠缠的任务相关特征hcor被认为是样本综合的更合理的表示。(2)可控伪样本合成。利用源类的任务相关特征h_cor分别对中心和边缘添加中心偏移量和边缘偏移量，可以合成中心伪样本h_center和边缘伪样本h_ced两类伪样本。通过转换网络输出。3.3. 任务相关特征分解该模块由对抗训练、重构和相互最小化组成。对抗训练。我们的目标是以对抗的方式将视觉特征分解为hcor和hind在分类训练步骤中，我们将视觉特征Xss输入到特征提取器网络E、任务相关网络Ecor和任务无关网络E cor中在GNUML任务中，让{Xs，Ys}为数据集，S 看到类，其中包含N s 训练样本Eind 把矢量分解成两个因子然后我们s s N(i)i=1 和相应的类标签Ys=用有监督的方法训练E、Ecor和Eind兼容性损失，将视觉和视觉相关联S（一）}Ns. 类标签跨度从1到S，y s∈L s=曼蒂克兼容性得分函数被参数化{1，…S}。在FSZU任务中，|S|与GALGOL相同。但是每一个可见类的样本都比GALML少得多，由W，并且通常被公式化为双线性compati，能力功能：其中包含Xs={xs}Nf和Ys={ys}Nf，其中τk=h Wa（一）（一） i=1（一）i=1ii k{yS9349L记录. . - 是的源图像Eindhind.E我的CRhcor.Ecor. . - 是的目标图像卷积层CNN骨干网任务相关特征分解模块WLce塞奇L反式源属性向量减向量加C级联对抗训练特征转移目标类损计算o边缘目标属性c中心DILDIh差异O中心可控伪样本合成模块图2.TDCSS的示意图概述TDCSS由两个关键组件组成：（i）特征提取器网络E，任务相关网络Ecor和任务无关网络Eind，重建器R和W被设置为任务相关特征解纠缠模块。通过对抗训练实现了任务相关特征hcor和任务无关特征hind的表示解纠缠通过相互极小化L mine和重构L rec保证了hcor和hind的独立性和两个因子的有意义性。(ii)E、Ecor、W、中心转换网络C中心、边缘转换网络C边缘和域标识符DI被设置用于可控伪样本合成模块。转换网络的输入是目标语义特征减去源语义特征。并将中心点集和边缘点集分别与源图像的中心点集和边缘点集相加，分别合成目标类的中心点集和边缘点集。 h_center_ter的特性由目标视觉特征X_st的h_cor的传递损失L_t_r_ans_s和自适应域分类损失L_DI来保证。其中H1可以是解缠结后一个样品的Hcor或Hind。我们进一步表示属性矩阵：τi=hi WAs（2）其中在第二训练阶段As应该是A 我们可以将τi视为交叉熵（CE）损失中的分类得分。所以我们进一步发展了兼容性损失函数[43]，可以用公式表示为：其中X_ss是X_s的重构向量，我们使用L_rec来训练R相互最小化我们需要确保两个因素是相互独立的具体地说，我们以无监督的方式最小化互信息最小化损失函数可以公式化为：L=1ce; ceΣnbL（τi，yi）（3）Lmine= Mine（hcor，hind）（5）=H（h cor）− H（h cor|h ind）bi=1其中L（·）表示CE损失。NB指的是=H（h ind）− H（h ind|h cor）一个batch。在对抗训练步骤中，我们固定参数WΣ=p（hCor，hindp（hcor，hind））logp（hcor）p（hind）兼容性功能和列车E和Eind 愚弄赫科尔角分类器通过最小化预处理的负熵由Eind输出的hind的指定类分布。哪里H（·）意味的香农恩特罗皮和的（h cor|h ind）意味的条件熵关于hcor重建保证要素的分离H给定的hind. p（h） Cor，hind）表示联合概率是有意义的，我们从（hcor，hind）的分布。我们用L矿训练E他们具体地，我们将hcor和hind连接起来，然后将其输入到ReconstructorR中以恢复混淆vi。Ecor 和E印第安纳州sual featuresXss.最后，重建损失函数可以公式化为：¨ ¨23.4. 可控伪样本合成9350该模块由伪样本合成和L=<$Xss−Xss<$(4)recéeF对抗域分类9351IJIJ伪样品合成。首先，我们使用中心转换网络C中心和边缘转换网络C边缘分别生成o中心和o边缘。这些网络的输入是目标类和源类的语义特征之间的差异。然后，将相应的偏移量进一步添加到h cor中，以分别合成目标类的hcenter和hcedge。该过程可以用公式表示为：hcenter=hcor+ocenter（6）其中o中心和o边缘可以进一步公式化为：ocenter=Ccenter（ai−aj）（8）oedge=Cedge（ai-aj）（9）其中i和j分别是来自目标类和源类的特定类。对于不同的合成样品，我们有以下-培训过程。首先，我们使用h_（？） c_（？） c_（？）和h_（？）d_（？）g_（？）来训练C中心和C边缘，由方程式2和Eq。3、作为目标类。另外，为了保证h_（？）c_（？）传输损耗基于Eq. 2和Eq。3，但是使用通过源类和目标类之间的语义特征的余弦相似度计算的软标签。然后，我们引入了基于hashed g e的对抗性自监督[20]来训练模型。具体地，对于hedgee，上述过程类似于FSGM [10]算法，并且边缘的偏移类似于对抗示例中的扰动。我们仍然把它称为训练类，通过等式来训练相容性函数的参数W2和Eq。3，而我们标记的h_e作为源类。通过这种方式，我们可以增强模型对抗域分类。我们的目标是同步-表1.数据集的属性数据集AWA1 AWA2 幼崽Flo样本数量3047537322 11788 8189类数（训练/测试）40/1040/10 150/50 82/20属性858510241024属性值(Real或布尔值）两两房房表2.我们的方法和比较方法之间的差异（详细信息包括非生成模型（NGM），软标签（SL），整体特征（OF），表示解纠缠（RD），伪样本合成（PSS））模型NGM SL 的路PSSDEM✓×✓××关系网✓×✓××DCN✓×✓××TCN✓✓✓××SP-AEN✓××✓×AREN+CS✓××××AGEYL✓×✓×✓f-VAEGAN-D2××✓×✓DLFZRL××✓✓×TDCSS✓✓✓✓✓3.5. 优化和未知样本预测我们的模型是用不同的损失迭代训练的。在第二个训练阶段，我们把看到的类作为源类，看不见的类作为目标类。我们首先利用传递损失对C中心进行微调，然后通过等式2合成目标类的大小h_（？）2和Eq。3 .第三章。第一训练阶段和第二训练阶段在一个时期中交替运行。一旦模型训练完成，我们就可以将视觉特征投影到语义空间中，并在GML任务中测量与所有类的语义特征的相似性。具体地，为了预测类别标签，可以选择最大兼容性分数的位置作为预测标签：通过对抗域分类，使伪样本的大小与真实样本的大小更加一致y= arg maxk∈S+U φ（x）Tak（11）具体地说，我们使用域标识符 DI ，它将 Xst 的h_c_enter和h_c_or作为输入，并分别输出域标签lf和（1-lf）损失函数可以公式化为：LDI=−lflog（lf）+（1−lf）log（1−lf）（10）然后，通过交换真实和伪样本的域标签来训练C中心以欺骗DI 。由于被隐藏的类分布在源类和目标类之间，所以没有将其纳入域分类。其中φ（·）包括E、Ec或r和W。4. 实验4.1. 实验设置数据集。我们选择了四个流行的数据集，分别是Animal with Attribute （ AWA 1 ） [21] ， Animal withAttribute 2（AWA 2）[41]，Caltech-UCSD Birds-200-2011（CUB）[40]和Oxford 102 flowers（FLO）[31]。AwA1和AwA2是粗粒的，而其他的是细粒的。9352表3.在不可见准确度（u）、可见准确度（s）及其调和平均值（H）方面，比较GSTRL的性能（%）方法AWA1AWA2幼崽FlouSHuSHuSHuSH[45]第四十五话32.884.747.330.586.445.119.657.929.257.267.762.0联系网[37]31.491.346.730.093.445.338.161.147.050.888.564.5DCN[25]---25.584.239.128.460.738.7---TCN[17]---61.265.863.452.652.052.3---SP-AEN---23.390.037.134.770.646.6---[43]第四十三话---54.779.164.763.269.066.0---[8]第八届全国政协委员---46.674.257.342.148.144.9---[42]第四十二话57.670.663.5---48.460.153.656.874.964.6[第38话]--61.2--60.9--51.9---TDCSS54.469.860.959.274.966.144.262.851.954.185.166.2表4. AWA2数据集上TDCSS组件的消融研究（%），包括不可见准确度（u ）、可见准确度（s）及其调和平均值（H）。设置AWA2uSHTDCSS w/o TFD52.774.461.7TDCSS w/o EPS44.571.955.0TDCSS w/o CPS34.979.348.4TDCSS59.274.966.1CUB和FLO的语义特征来自CNN-RNN特征[32，44]。我们的数据集分割是在PS设置下[41]。详情见表1。评估指标。平均类准确率（ACA）被采用作为评价指标，在GALML和FSZU任务。我们使用平均每类前1的准确性，所见的类U和所见的类S来计算调和平均值H：对于每个类的批大小，FLO数据集的批大小为32，其他数据集为64。对于第一阶段中的源/目标分割，我们将CUB的目标类数量设置为2，将其他目标类的数量设置为1。4.2. GALML环境中的评价表3中示出了GALML任务中的分类性能。我们观察到TDCSS在四个数据集上取得了有竞争力的结果。与非生成模型相比，我们的模型的H值在AWA1上从47.3%增加到60.9%，在 AWA2 上从64.7% 增加到66.1%，在FLO上从64.5%增加到66.2%。具体而言，TCN包含软标签以量化GCIL中的转移过程，我们将其添加到高通量合成过程中。可以得出结论，我们的模型实现了改善，除了传输损耗。SP-AEN和AREN基于张量级特征。对于试图解开特征的SP-AEN，实验-H=（2×U×S）U+S（十二）实验结果表明，该模型是有效的。对于AREN+CS，我们的模型除了在CUB上之外仍然具有竞争力比较方法。由于我们的模型是一个非-生成模型，我们主要比较我们提出的方法，ODS与当前非生成模型的对比。比较方法和我们的TDCSS之间的主要差异如表2所示。实施详情。我们利用预训练的ResNet-101提取的2048 D视觉特征[13]。E、Ecor（Eind）和DI由两层全连接（FC）神经网络组成，其中输出单元为1800，1024、两个。C、W和R是三层FC神经网络，其中隐藏单元为1024、512和1800。C的输出单位为1024。我们使用LeakyReLU作为DI的激活函数，而ReLU用于其他人。我们的模型使用PyTorch实现，并通过ADAM优化器进行优化。我们在第一个训练阶段将学习率设置为2 e-4，在第二个训练阶段将学习率设置为1/10，大多数情况下epoch为1500在每个时期，我们在第一个训练阶段训练30批，在第二个训练阶段训练10批由于样本数据集。然而，校准堆叠的机制(CS)[4]帮助AREN在GALML任务中取得了很大的进步。但这是一个后处理操作，非常容易受到研究人员手动设置的参数值的影响我们的模型没有使用CS，但与可比的结果，这表明TDCSS是更强大的。对于AGEML合成的但没有表象解纠缠的样本，证明了我们的模型对表象解纠缠的有效性。与生成模型相比，我们的模型在AWA2上的H值从60.9%增加到66.1%，在FLO上的H值从64.6%增加到66.2%然而，我们的模型所合成的伪样本进一步详细的实验见第4.3节。DLFZRL通过生成式网络对特征进行分解，我们的模型在概念和方法上也取得了类似的结果。9353图3.基于显着图的AWA2任务相关特征可视化(a)（b）第（1）款（c）（d）图4. AWA 2数据集上样本分布的t-SNE可视化结果。（a）任务相关特征hcor.（2）任务独立性特征的产生。(c)（d）真实样本和不同类型的伪样本的分布。4.3. 消融研究我们将AWA 2数据集纳入消融分析，旨在证明TD-CSS的主要组件均有助于最终性能。我们还观察了不同类型的伪样本在GALML任务的知识转移中所起当TFD（任务相关特征分解），EPS（边缘-伪样本）和CPS（中心-伪样本）都被应用时，性能达到最佳我们有以下主要发现：(1) 与w/o TFD模型相比，可以表明解纠缠对模型中已见类的识别影响不大，但对未见类的识别影响较大。实验证明，解纠缠模块提取的视觉特征与类语义更加一致，有助于知识从可见类向不可见类的迁移。(2) 与无EPS模型相比，结果表明，我们的整个模型在可见类和不可见类的准确率上都有一定的提高，说明基于自监督的自监督训练有助于提高hcor与类语义的一致性，进一步提高了模型的鲁棒性和泛化能力.(3) 与不带CPS的模型相比，一方面，整个TDCSS的可见类精度比它差。结果表明，改进的ge可以进一步完善已知类的分类边界.另一方面，在不可见类上的精确度显著下降，在GALML任务中，它在从可见类到不可见类的知识转移中发挥了重要作用4.4. 定性分析我们将AWA2数据集纳入以下定性分析。任务相关特征可视化我们在图4（a）和（b）中可视化hcor和hind以验证解纠缠的性质。这表明hcor比hind具有更强的区分力。但仍存在一定的区别性，我们猜测可能是某些特征在语义上没有标注。我们进一步通过显着图[36]来可视化hcor，显着图[ 36 ]计算Ecor输出相对于骨干网络中输入的原始图像的梯度。结果如图3所示。我们可以观察到显着图集中在任务相关的信息，特别是对象。并且有效地过滤了与任务无关的信息但也有一些失败的样本，动物与他们的表面融合。伪样本的分布可视化为了证明我们的方法可以有效地合成两种类型的伪样本，我们随机选择两个类，并可视化部分样本的分布。如图4(c) （ d ）表明，从总体上看， h_2c_enter 的分布比h_2c_edg_e的分布更接近实际样本，这与h_2c_enter的分布特征是一致的。座头鲸+兔鲸一些失败的样品狮子松鼠大+熊猫黄鼠狼福克斯鹿牛黑猩猩与任务相关功能任务-相关原始9354表5.FSZU的性能（%）比较，包括不可见准确度（u）、可见准确度（s）及其调和平均值（H）。AWA2所有数据= 10= 5= 2uSHuSHuSHuSH[23]第二十三话50.979.862.250.864.756.939.258.146.829.839.734.1[7]第七届全国政协委员74.463.668.647.153.350.025.756.135.36.839.911.6[8]第八届全国政协委员46.674.257.318.381.129.914.771.924.513.260.121.6TDCSS59.274.966.156.360.958.549.069.157.339.861.848.4幼崽所有数据= 10= 5= 2uSHuSHuSHuSH[23]第二十三话52.154.253.144.747.546.138.939.839.437.926.631.2[7]第七届全国政协委员61.265.363.239.459.147.326.255.635.67.547.012.9[8]第八届全国政协委员42.148.144.929.342.934.821.736.127.113.726.818.1TDCSS44.262.851.940.154.546.243.445.544.434.538.136.2605040302010012345678目标类别数量(a) AWA2403530252015105012345678目标类别数量(b) 幼崽与生成伪样本的非生成模型相比，AWA2的H值平均提高了117.9%，CUB的H值平均提高了65.5%结果表明，在合成样品前进行表象解纠缠在FSZU中的结果也表明，混合插值的AGEML将导致合成样本的多样性急剧下降，随着样本容量的减少。图5.实验结果表明，当每类样本量为2时，在不同的目标类数下4.5. FSZU环境中的评价对于比较方法，我们选择了两个生成模型，通过随机置换将总体表示分解为两个因素解缠结VAE [23]由两个平行的VAE组成，每个VAE有两个分支。SDGML[7]由VAE、AE和关系网[37]组成，而VAE用于数据增强。我们还选择了非生成式的AGNML，它在混合插值中合成伪样本进行比较。对于实验设置，我们选择AWA 2和CUB数据集，这些数据集同时出现在 Untangled- VAE ， SDGML 和AGML中。我们减少了所见类的样本大小（大小设置为10 ，5 和2 ）来刺激 FSZU应该指出的是，Disentangled-VAE是我们基于Python 3.6和Pytorch 1.0.1复制的对于SDGML和AGML，我们使用已在Github上发布FSZU任务中的性能如表5所示。与生成模型相比，AWA2和CUB的H值平均提高了22.4%和8.8%。这些实验结果反映了我们的模型在新的任务中仍然可以有效地工作。生成式模型，特别是SDGML，在GML中具有优异的性能，但随着样本量的减少而急剧下降该模型可以在有限的可见类样本的基础上，以非生成的方式合成出更多样的伪在FSZU任务中，我们可以通过增加目标类的数量来增加目标类的样本量来提高模型的性能。结果见图5。结果表明，在一定范围内，目标类的数目越多，准确率越高，但目标类数目过多，准确率反而下降。这是一个必然的结果，太多的合成伪样本将是训练过程中的主导数据，并进一步分散模型从识别真实样本。5. 结论在本文中，我们提出了一个非生成模型，TPDSS，执行任务相关的特征去纠缠和多样性的伪样本合成在GALML和FSZU任务。对于解纠缠，TPDSS采用领域自适应的对抗训练来实现，对于合成，TPDSS合成具有一定特征的各种伪样本。上述机制使我们的模型在不同的任务中表现出竞争性的性能，并帮助人们直观地理解不同类型的伪样本在语义学习知识传递中的作用.致谢本工作得到了国家重点研发项目（批准号：2018AAA0100604）、国家自然科学基金（批准号：61832004、61632002）和北京市自然科学基金（批准号：JQ20023）的资助。调和平均值（H）（%）调和平均值（H）（%）9355引用[1] Gunjan Aggarwal 、 Abhishek Sinha 、 Nupur Kumari 和Mayank Singh。关于感知一致的梯度模型的好处arXiv预印本arXiv：2005.01499，2020。3[2] Yuval Atzmon ， Felix Kreuk ， Uri Shalit ， and GalChechik. 合成零激发识别的因果观。 arXiv 预印本arXiv：2006.14610，2020。3[3] Mohamed Ishmael Belghazi 、 Aristide Baratin 、 SaiRajesh- war 、 Sherjil Ozair 、 Yoshua Bengio 、 AaronCourville和De- von Hjelm。互信息神经估计。国际机器学习会议，第531PMLR，2018。4[4] Wei-Lun Chao，Soravit Changpinyo，Boqing Gong，andFei Sha.广义零拍学习在野外物体识别欧洲计算机视觉会议，第52施普林格，2016年。6[5] 陈龙，张汉旺，肖军，刘伟，张世福.使用语义保持对抗嵌入网络的零射击视觉识别。在IEEE计算机视觉和模式识别会议论文集，第1043-1052页三、六[6] Xingyu Chen，Xuguang Lan，Fuchun Sun，and NanningZheng.一种基于边界的分布外分类器，用于广义零射击学习。欧洲计算机视觉会议，第572-588页。Springer，2020年。2[7] Zhi Chen，Yadan Luo，Ruihong Qiu，Sen Wang，ZiHuang，Jingjing Li，and Zheng Zhang. 广义零镜头学习的语义解缠。IEEE/CVF计算机视觉国际会议论文集，第8712-8720页，2021年。一、三、八[8] 周玉英，林轩天，刘丁禄。自适应和生成式零触发学习。在2020年的学习代表国际二、六、八[9] Zhenyong Fu，Tao Xiang，Elyor Kodirov，and ShaogangGong. 语义类原型图上的零射击学习IEEE transactionson pattern analysis and machine intelligence，40（8）：2009-2022，2017. 2[10] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。三、五[11] Jiechao Guan，Zhiwu Lu，Tao Xiang，Aoxue Li，AnZhao，and Ji-Rong Wen.具有语义特征合成和竞争学习的零和少镜头学习。 IEEE transactions on patternanalysis and machine intelligence，2020。2[12] 郭雨辰、丁贵光、韩俊功、高跃。为零触发学习合成样本。IJCAI，2017。2[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。1、6[14] 何志辉和努诺·瓦斯康塞洛斯。用对抗性例子进行对比学习。arXiv预印本arXiv：2010.12050，2020。3[15] Dat Huynh和Ehsan Elhamifar。通过细粒度密集特征组合的组合零射击学习。广告vances在神经信息处理系统，33，2020。二、三[16] Dat Huynh和Ehsan Elhamifar。通过密集的基于属性的注意力的细粒度广义零射击学习。在IEEE/CVF计算机视觉和模式识别会议论文集，第4483-4493页，2020年。3[17] Huajie Jiang，Ruiping Wang，Shiguang Shan，and XilinChen. 广义零激发学习的可迁移对比网络在IEEE/CVF计算机视觉国际会议论文集，第9765-9774页6[18] Harini Kannan 、 Alexey Kurakin 和 Ian Goodfellow 。adversarial logit配对。arXiv预印本arXiv：1803.06373，2018。3[19] Rohit Keshari，Richa Singh，and Mayank Vatsa.基于过完备分布的广义零触发学习。在IEEE/CVF计算机视觉和模式识别会议上，第13300-13308页，2020年。2[20] Minseon Kim，Jihoon Tack，and Sung Ju Hwang.对抗性自我监督对比学习。arXiv预印本arXiv：2006.07589，2020。三、五[21] Christoph H Lampert ， Hannes Nickisch ， and StefanHarmeling. 基于属性的零镜头视觉对象分类。IEEETransactionsonPatternAnalysisandMachineIntelligence，36（3）：453-465，2013. 一、五[22] 李晶晶、景梦梦、陆珂、丁正明、朱磊、黄子。利用generative zero-shot learning的不变性。在IEEE/CVF计算机视觉和模式识别会议论文集，第7402-7411页，2019年。2[23] 李翔宇，徐哲，昆伟，登成。通过解纠缠表示的通用化零射击学习。在AAAI人工智能会议论文集，第35卷，第1966-1974页，2021年。一、三、八[24] 刘波，董秋蕾，胡占义。从对抗性特征残差到紧凑视觉特征的零射击学习。在AAAI人工智能会议论文集，第34卷，第11547-11554页，2020年。2[25] Shichen Liu ， Mingsheng Long ， Jianmin Wang ， andMichael I Jordan.深度校准网络的广义零触发学习神经信息处理系统进展，2005-2015页，2018年6[26] 杨隆、李流、凌绍、沈富民、丁贵光从零次学习到传统的监督分类：看不见的视觉数据合成。在IEEE计算机视觉和模式识别会议论文集，第1627-1636页，2017年。2[27] 姜璐，李金，严子昂，梅凤华，张长水.基于属性的合成网络（ABS-NET）：从伪特征表示中学习更多。模式识别，80：129-142，2018。2[28] Ishan Misra，Abhinav Gupta，and Martial Hebert.从红葡萄酒到红番茄：与上下文的组合。在IEEE计算机视觉和模式识别会议论文集，第1792-1801页，2017年。3[29] Sanath Narayan、Akshita Gupta、Fahad Shahbaz Khan、Cees GM Snoek和Ling Shao。零炮分类的潜在嵌入反馈和判别特征。arXiv预印本arXiv：2003.07833，2020。29356[30] Jian Ni，Shanghang Zhang，and Haiyong Xie.广义零激发学习的对偶arXiv预印本arXiv：1907.05570，2019。2[31] Maria-Elena Nilsback和Andrew Zisserman。在大量类别上的自动花卉分类。2008年第六届印度计算机视觉会议，图形图像处理，第722-729页IEEE，2008年。5[32] Scott Reed 、 Zeynep Akata 、 Honglak Le

下载后可阅读完整内容，剩余1页未读，立即下载