基于过完备分布的零次学习中的条件变分自动编码器

142 浏览量更新于2023-10-25 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

113300基于过完备分布的Rohit Keshari+、RichaSingh和Mayank Vatsa+IIIT-Delhi，India，印度焦特布尔rohitk@iiitd.ac.in，{richa，mvatsa}@ iitj.ac.in摘要一个经过良好训练的广义深度神经网络（DNN）应该对可见和不可见的类都具有鲁棒性。然而，大多数现有的监督DNN算法的性能下降的类为了学习一个判别分类器，在零次学习（Zero-Shot Learning，缩写为ZRL）设置中产生良好的性能，我们建议使用条件变分自动编码器（Conditional Variational Autoencoder，缩写为CVAE）生成一个过完备分布（Over-CompleteDistribution，缩写为OCD）。为了加强类间的可分性，减少类的离散度，我们提出了在线批量三重损失（OBTL）和中心损失（CL）的使用使用Zero-Shot学习和广义Zero-Shot学习协议在三个公开的基准数据库SUN、CUB和AWA 2上对框架的有效性进行了评估结果表明，生成过完备分布并强制分类器学习从重叠分布到非重叠分布的转换函数，可以提高可见类和不可见f2f2近似不可见类{X}来自属性F1（一）F1（b）第（1）款过完全分布（OCD）F1F11. 介绍深度神经网络（DNN）模型在各种现实世界的应用中表现出了超强的性能，然而，小样本训练集对深度学习模型提出了挑战。已经观察到，在这种情况下，DNN模型倾向于过拟合，从而导致不良的泛化。基于标记/未标记数据的可用性，已经提出了多种学习范式，如迁移学习[7]，终身学习[31]，自学学习[26]和一次性学习[22]。称为泛化。当训练数据集不包含来自测试数据集中的类的任何样本时，问题变得更加复杂。在这种情况下，学习被称为零数据学习或零射击学习（Zero-Shot Learning，简称ZRL）。为了设计算法，分类存在的限制-图1.说明在生成过完备分布之前和之后的可见和不可见的2D分布。f1和f2是数据的两个维度。(a)三个近似的看不见的类的分布，并为相应的类生成OCD。(b)三个近似的看不见的和看到的类分布，并生成相应的类的OCD。(Best（彩色）有或没有训练数据，研究人员设计了两种不同的协议：1）传统的零射击学习，2)广义零次学习（GSTOL）[39]。在最优问题中，数据集被分成两个类之间零交集的集合，目标是最大化不可见类的性能。在GASML中，测试数据集包含不可见和可见的类，并且需要最大限度地提高两组类的性能。为了应对GABL和GABL的挑战，研究人员提出，F2看不见的类查看课程F2强迫症，看不见的类113301[10][19]，[32]，[41].下一节总结了文献中的研究工作。然而，所生成的不可见类未能模仿真实的不可见的分布，这被期望具有硬样本。因此，利用合成生成的类来训练区分分类器不一定提高性能。测试集包含更接近另一个类的硬样本，并且决策边界没有针对测试集中存在的此类实例进行优化，这是导致测试集性能下降的主要原因之一因此，我们认为生成硬样本和近似看不见的类可能会导致网络减少偏差。在本研究中，我们提出了过完备分布（OCD）的概念。过完备分布的目标是生成更接近其他类的具有挑战性的样本，从而有助于提高网络对未知类的泛化能力。其次，如图1所示，我们建议结合在线批量三重损失（OBTL）来加强类之间的可分性，并结合中心损失（CL）来减少类内的传播。我们的实验表明，综合生成的过完备的discovery允许分类器学习的特征空间，可见/不可见的类的可分性可以有效地改善。2. 相关工作该领域的文献分为两个方向：GALLEL和GALLEL在J.L.，Larochelleet al. [18]已经提出学习从输入空间视图到模型空间视图的映射。类似地，Akataet al.[2]建议将每个类嵌入到属性向量空间中，称为属性标签嵌入（ALE）。 Liu 等[19]提出了一种深度校准网络（DCN），用于学习图像的视觉特征与其相应类别的语义表示之间的公共嵌入空间。一个广泛使用的方法来处理的CNOL问题是学习之间的映射看到的观察到属性向量空间。Lampert等人[17]提出了直接属性预测（DAP），其中已为每个属性训练了加权概率分类器。在学习样本到属性的映射后，使用贝叶斯规则将属性映射到类标签。Xian等人[37]提出了一种更有效的协议，并证明现有的最先进的（SOTA）算法性能不佳。在GALML中，研究人员利用生成的不可见类在训练集中具有代表性数据[20]，[23]。Verma等人[32]提出了一种基于条件变分自动编码器的生成模型。他们已经表明，合成生成的不可见分布非常接近真实的不可见数据分布。bition。在综合生成的数据上，他们已经训练了监督线性SVM，并在GALML协议上显示了最先进的性能。类似地，Gaoet al. [10]已经提出通过利用联合生成模型来合成看不见的数据。他们使用了CVAE和GAN，并观察到在重建阶段保留语义相似性Zhang等人[41]提出了一种由条件生成对抗网络（cGAN）和随机属性选择（RAS）组成的他们训练了混合模型，同时优化了重建损失。Zhang等人[40]观察到，传统的零触发学习算法的性能在为了克服CO问题，他们利用了三重态损失，这明显优于最先进的方法。在另一个研究方向，Longet al. [20]已经提出了用于从语义属性信息生成合成类的不可见可视数据合成（UVDS）。作者还提出了扩散正则化（DR），这有助于减少属性空间中的冗余相关性。Atzmon等人[5]提出了一种基于自适应他们利用三个分类器，看不见的，门控专家，以提高模型的性能。Huang等人. [14]已经提出了用于学习语义到视觉空间的映射函数Schonfeld等人[29]建议调整VAE生成的分布，并显示出对基准数据库的改进。在生成用于训练模型的看不见的合成分布的方向上已经做出了重大努力。然而，如前所述，仍有挑战需要解决，以提高对GML和GML问题的性能，如模型在测试集上的泛化，并减少可见和不可见类的偏差。3. 拟议框架图2显示了拟议框架所涉及的步骤。对于具有关联属性a和潜在变量z的给定输入x，在所提出的流水线中存在三个模块：（i）编码器（pE（z|（x）计算g iv enx 上的潜在变量z ，（ii ）解码器（ pG （x） |（a））以生成样本x，该样本x是关于iv enz和属性a的，以及（iii）回归器（PR（a）），|x_n））以将x_n映射到它们的预测属性a_n。组合的编码器和解码器模块称为作为CVAE，它以属性a为条件。回归器模块使用OBTL和CL损失进行训练，以优化类间和类内距离。本节介绍了每个模块的详细信息，随后介绍了培训过程和实施细节。1133022z|XReg r es so r：（^|^）第二阶段培训++X编码器解码器第三阶段培训判别OBTL分类器Nt阴性Nt阳性高斯分布第一阶段培训Nt转换器OCD（^| 、）的内容（一）| ）B嵌入CL图2.拟议的OCD-CVAE框架的说明。该框架使用具有编码器p E（z）的条件变分自动编码器（CVAE |x）和解码器pG（x≠|z，a）模。 CV AE的输出被提供给回归器pR（a），|其中，回归器将所生成的样本映射到其相应的属性。为了生成未见过的合成数据，未见过的样本和随机采样的z的属性被提供给经训练的解码器。真实的看不见的分布。使用给定的分布，OCD是通过混合有限数量的多个高斯分布[27]而生成的，同时将均值移如果分布是未知的（在看不见的类的情况下），则可以通过使用生成模型来近似类的分布。由一类变分推断得到的近似分布的参数用μ、σ和过完备分布由μOC，σOC表示，其中σOC> σ。令X，XOC为近似的不可见分布u。和过完全分布。X=pG（x|N（μHP，σHP），a）anddZ=pE（z|x），四个不同的班级图3. 过完备分布生成当rexX，µz|X，σ z|X（一）同时在两个类之间生成硬样本分布的边界将由等式1和2决定。以来XOC=pG （x| N（µOC′，σHP），a），′µOC是一个类别与其他竞争类别之间的平均值，边界将基于新获得的µOC进行扩展。µOC=µz|X+µz|X轴，µ=µz|X[j] （二）3.1. 过度完全分布（OCD）解码器的主要任务（如图2所示）是生成或近似一个更接近真实的不可见数据的分布如图3所示，为一个类创建OCD涉及到生成所有可能的硬样本，这些样本更接近于其他类分布。由于模拟真实的不可见分布的行为是一个复杂的问题，我们首先建议为一个类生成OCD等式1和2表示生成过完备分布的过程这里，pG（. ）是流水线的生成器模块。μHP和σHP是正态分布的超参数。 µz|X和σz|X是将数据X编码到′潜在空间，z. 在等式2中，σHP 是一个超参数j是随机采样的索引变量，用于参数μ z的混洗|X. 在两个方程中，N（. ）是一个高斯分布生成器。在等式1的第一部分中，并直观地显示所生成的强迫症模拟了类，X是通过对z进行随机采样而生成∼扩展边界生成硬样本113303(a) 不可见类的真实分布(b) 不可见的近似分布课程通过CVAE(c) OCD：看不见的近似分布类，同时通过CVAE生成硬样本图4.图示AWA2数据库的未见过类的合成生成的分布。(a)AWA2数据库的真实分布。不同的颜色表示使用PS协议的AWA2数据库的不同类别，（b）通过CVAE的未见过类别的近似分布，以及（c）通过CVAE的未见过类别的近似过完全分布。从分布图中可以观察到，（c）是（a）中所示的真实不可见类别分布的更接近表示。(Best（彩色）N（µHP，σHP），其中µHP，σHP作为分布的参数和不可见的类属性a。第二部分当列车的行为公式1，µz|X和σz|X是通过使用测试集接近测试集。在该情况下，分配-编码器模块pE（. ）的情况。方程2的第一部分表示超完全分布X∈OC的生成分布是未知的，近似未知分布其中潜变量从高斯分布中采样，其中潜在变量z<$N（µOC′，σHP）随机这可能导致特征空间中的盲点作为ob-从高斯分布中采样，其中，分布μOC的平均值由当前类和每个竞争类的平均值估计。例如，在给定的一批μ上，j是范围从1，.，批量大小，随机抽样，不重复。在我们的方法中，译码器/发生器PG（x|z，a）以属性为条件并用于等式1和2中。在可编程逻辑问题中，假设属性是类的良好表示，并在属性空间中分离。在一个类中，如果样本远离分布的中心，则可以认为作为硬样品。但是，示例的属性应该与类的属性相同。因此，在生成OCD时，类的属性保持不变。另一方面，潜在变量z已经基于其他类别的平均参数而改变分布的可视化：图4（b）显示了通过CVAE预测/生成的不可见分布，并且这些类别被很好地分离。然而，如图4（a）所示，看不见的类的真实分布更接近于其他类，并且其中一些是重叠的。如果生成的分布无法模仿真实分布的行为，则此类分布的效用在训练中受到限制。通常，在这种分布上训练的判别分类器在看不见的类上表现不佳另一方面，学习类可分性通过最大化互-在图4（b）中，盲点是样品不存在，并且用这样的数据训练分类器将不能确保模型学习对于分离真实的不可见分布有效的变换。图4（c）说明了OCD，它是通过CVAE生成硬样本时看不见的类实验表明，使用这种分布进行训练可以提高分类性能。3.2. OCD CVAE框架培训如图2所示，我们建议分三个阶段训练OCD- CVAE框架在第一阶段中，CVAE损失（LCVAE）被优化。在第二阶段，OBTL损失以及中心损失，即，LOBTL+LCL，是迷你型迷乱了然后将训练的模型用作预训练的模型的第三阶段，在那里我们建议训练回归器上产生的OCD，同时最大限度地减少在线批量三重损失（OBTL）和CL损失。在本节中，我们首先讨论损失函数，然后是三个训练阶段的细节。3.2.1损失函数最大化类间距离的在线批处理三重态损失：三重态损失已在文献中广泛用于增加类间距离（D_inter）和减小类内距离（D_intra）。在数学上，三重态损失可以表示为：113304Cc=1s=1u=12ΣNΣCL=1S+U||xc− xCT||2（四）L（fa，fp，fn）= ||fa−fp||2−||fa−fn||2+α2c2tii2i=1i i2+（三）c=1其中，xc表示来自类别c的样本，并且xCT是其中，f表示嵌入的特征向量，Lt是三元组损失，并且三元组（fa，fp，fn）分别是锚、正和负α代表边际以确定正负对之间的距离+=max（0，. ）表示铰链损失函数。如果D_inter_。他是一个艰难的三胞胎。根据等式3，它可以是仅当满足Lt（fa，fp，fn）>0时，||fa−fp||2+α>c班学习中心。3.2.2拟议模型的学习阶段如图2所示，拟议框架的学习阶段可分为三个阶段。在第一阶段，使用KL-发散和条件边际似然训练编码器后解码器（CVAE）。a n22在第二阶段，使用以下参数训练回归器/分类器：||二、||2. 因此，硬三重态开采是必不可少的步骤以最小化三重态损失。如图3所示，两个类之间生成的硬样本导致生成类的过完备分布然后利用近似的OCD用于训练用于最小化三元组损失的判别分类器。在离线模式中选择Nt个硬三元组需要在单个时期中处理所有生成的三元组，这在现实世界的EML设置中是非常具有挑战性的。因此，我们提出了在线批量三重损失，这是启发[4]《易经》中的“三位一体”。以批处理方式生成三元组减少了查找硬否定建议的OBTL连同CL。在第三阶段解码器/生成器和回归器已经被训练，同时最小化OTL、CL和SNR驱动的损失[32]。让训练集包含它们各自的类属性表示为{ac}S+U，其中ac∈RL，L是属性的长度。培训DS和测试DU集合可以表示为数据、属性和标签的三元组{Xs，as，ys}S和{Xu，au，yu}U分别表示。在上述设置中，WML算法旨在在DS上建立一个分类模型，样本和深度模型的总训练时间1.映射函数f：XU→ YU，其中，XU={XuUu=1建议的LOBTL最小化生成的三元组是一组不可见的样本，YU={yu}U是在训练模型的时候，LOBTL 是opti-对应的类集[2，16]。u=1以类似于等式3中定义的Lt的方式来计算。它是我们的主张，综合生成硬否定，可以改善深度模型的学习。中心损失：将样本映射到它们的属性已被用于找到针对该问题的解决方案。为了学习不同样本到类的属性的映射，类分布在属性空间中的标准差因此，中心损失[35]以及回归量损失[32]已被用于最小化与中心的偏差。如图2所示，回归量将近似的x映射到关联的属性a。由于硬样本增加了标准差，因此最小化过完全分布的中心损失是很重要的。因此，判别式分类器是在中心丢失的情况LCL：1例如，我们从数据集中的10个类中每个类有20个样本。从每个类别中选择2个图像的每个组合作为锚定图像和阳性图像，然后从剩余图像中选择一个硬阴性图像，得到10×（C20）= 1900个三联体。尽管有200个独特的山姆-它需要19个向前和向后的通道来处理100个三胞胎，一次在OBTL中，这些嵌入被映射到1900个三元组，这些三元组被传递到三元组损失函数，然后导数被映射回原始样本，用于向后网络传递-所有这些都是一个向前和一个向后传递。第一阶段培训：在训练的第一阶段中，在DS 上训练CVAE，其中输入样本是用于编码潜在变量zi的编码器的xi。编码变量-able附加有相应样本的属性ai然后，将附加的潜在变量[zi，ai]提供给生成器模块，生成器模块生成用于特定分布的输出xi，该特定分布接近于提供给编码器模块的输入经过训练的CVAE允许解码器在给定属性a上生成合成数据。的CVAE损失（LCVAE）可定义为：L CVAE=−EpE（z|x），p（a）|x）[logpG（x）|z，a）]+KL（pE（z|x）||p（z））（五）其中，−EpE（z|x），p（a）|x）[logpG（x）|z，a）]是条件边际似然，KL（pE（z|x）||p（z））是KL-散度。灵感来自Hu et al.”[13]《礼记》云：在潜在码[z，a]上的分布被分解为两个分量pE（z|x）和pR（a|x）作为一个解纠缠的表示。第二阶段培训：在第二阶段的训练中，回归器在DS上训练，同时最小化两个损失}113305测试测试测试最小LOBTL+LCL（6）θR训练回归量以改进生成的合成数据到相应属性的映射。第三阶段培训：在训练的第三阶段，使用了Ds和近似OCD。从第一阶段，我们获得θG（生成器参数），用于第三阶段的训练。在第三阶段，损失Lc（θG）是基于预测的，LReg（θG）被用作正则化子。Lc（θG）=−EpG（x<$|z，a）p（z）p（a）[10gpR（a|（x）]表1.实验中使用的数据库数据集可见/不可见类图像属性-尺寸孙645/7214340102幼崽150/5011788312AWA240/103732285200种鸟类的11788张属性向量的大小为312。SUN场景分类（SUN）[25]数据库包含717个场景的14，204个它有一个长度为102的属性向量。4.2.评价方案LReg （θG）=−Ep（z）p（a）[logpG（七）（x|z，a）]实验进行了零拍学习和广义零拍学习协议。在这种正则化用于确保生成的OCD产生类特定的样本，即使z是从p（z）随机采样的。第三阶段的完整目标函数可以使用以下等式表示，其中λc和λreg是超参数。min（λc. Lc+ λreg. LReg+LOBTL+LCL）（8）生成了用于未见过类的OCL、OCD，并利用它们来训练所提出的OCD+CVAE框架。结果在Larochelle等人给出的两个标准分割（SS）上报告。[18]和建议的分裂（PS）给出了西安等人。[37]第三十七话不可见的类分类精度的报告，港口PS和SS协议。对于GSTML，将数据集的可见类划分为80-20的训练-测试比率，以获得两个集合：θG，θR3.3.实现细节实验在1080Ti GPU上使用Tensorflow-1.12.0 [1]进行。 CVAE 学习的超参数：λc=0。1， λR=0。1 ，λreg=0。1，批量=256为了生成硬样本，hyper-火车XS. 集合S+U用于训练，其中U已由生成器mod合成生成-拟议框架的规则。为了进行测试，在XU和XS上对模型进行评估。如文献中所定义的，在GABEL中，报告了协议A和B的平均类准确度。协议A是在XU上的平均每类分类准确度，其中，回归变量在参数µHP，σHP′和σHP在等式1和2中，测试S+U类（A：U→S+U）。协议B是一个平均值0，0。12，0。5所示。在我们的实验中，256×100，进行行式洗牌。4. 实验结果及分析所提出的框架进行评估，在两个GALML和GALML设置，并与最近的国家的最先进的算法。本节简要介绍了数据库和评估方案，然后是AWA2 [17]，CUB [34]和SUN [25]基准数据库的结果和分析。4.1. 数据库详细信息数据库的统计数据和方案见表1。所有数据库都有可见/不可见的拆分以及相应类的属性。具有属性的动物2（AWA2）[17]是AWA [16]数据库的扩展，包含37，322个样本。该系统具有50类图像，属性向量大小为85，与AWA数据库一致85个维度属性由人类专家手动标记。加州理工学院UCSD Bird 200（CUB）[34]数据库包含X S上的每类分类精度，其中，针对S+U类（B：S→S+U）训练回归器。上述协议是为AWA 2 [17]、CUB [34]和SUN [25]数据库预定义的，并广泛用于评估GML/GML算法。拟议的模型映射了sample对应的属性。4.3. 传统零触发学习（英语：Zero ShotLearning）表2总结了传统零触发学习的结果。所有三个数据集的训练分割已被用于优化所提出的框架。对于非线性问题，在未看到的类之间生成合成硬样本。在AWA2、CUB和SUN数据库上，PS协议的分类准确率为71。百分之三，六十。3%，63。5%，分别。所提出的框架提高了AWA2，SUN和CUB数据库的最先进的性能1。8%，0. 7%，0。1%，分别。为了估计这种差异是否显著，使用McNemar检验[21保持0.05或5%的显著性阈值，我们观察到AWA2和CUB数据库拒绝了零假设，113306A+BHP表2.标准分割（SS）和建议分割（PS）的传统零触发学习的分类准确率（%）[37]。（前两名为粗体）方法AWA2幼崽孙SSPSSSPSSSPSCONSE [24]67.944.536.734.344.238.8[42]第四十二话67.561.043.743.954.551.5LATEM [36]68.755.849.449.356.955.3ALE [2]80.362.553.254.959.158.1[9]第十九话68.659.753.252.057.556.5SJE [3]69.561.955.353.957.153.7西班牙语[28]75.658.655.153.957.354.5同步[8]71.246.654.155.659.156.3严重不良事件[15]80.254.133.433.342.440.3[第12话]--55.8---GVRZSC [6]--60.1---[33]第三十三话79.367.053.049.262.962.6[23]第二十三话-65.8-52.1-61.7[32]第三十二话80.869.260.359.664.563.4DCN [19]--55.656.267.461.8[10]第10话-69.5-54.9-59.0RAS+cGAN [41]---52.6-61.7提出81.771.360.860.368.963.5表3.采用PS方案对三个数据集进行消融研究报告值为分类准确度（%）。AWA2孙幼崽OBTL65.856.454.5CL65.356.253.7强迫症+OBTL70.96260.5强迫症+CL66.557.656.8OCD+OBTL+CL71.362.160.9这两个数据库的差异在统计学上是显著的。然而，对于SUN数据库，零假设没有被拒绝，这意味着所提出的算法与SOTA之间的差异是微不足道的。对于SS协议，在AWA2、CUB和SUN数据库上的分类准确率为81。百分之二，六十。8%，68。4%，分别。在一般情况下，在三个数据库中，提出的算法产生的最好的精度相比，现有的几种方法。4.4. 消融研究所提出的框架OCD-CVAE利用了多个损失函数来改善BWL/GWL的性能。进行消融研究以评价每个组件单独和组合的有效性。表3总结了由此获得的五种设置的结果可以观察到OCD+OBTL+CL产生最好的结果，其次是OCD+OBTL。此外，仅应用OBTL和仅CL会产生较差的性能，并且这可以归因于缺乏足够的硬样本用于OBTL和CL损失函数来反向传播4.5. 广义零次学习（GSTOL）在GSTML中，测试样本可以来自可见或不可见的类。这是一个具有挑战性的设置，其中训练和测试类不是完全不相交的，但是训练集和测试集的样本是不相交的。因此，在测试集中重叠分布和硬样本的可能性增加。大多数的GSTML算法在GSTML上表现不佳。我们认为，解决这个GARML需要学习嵌入空间（回归量的输出）中的可分性。结果以协议A和B的平均每类分类准确度报告，并且最终准确度是准确度的调和平均值（表示为H），由2 × A×B计算。表4总结了现有算法的结果三个数据库上的数据算法分为非生成和生成模型。在非生成模型中，COSMO+AGO [5]产生最佳性能。在考虑所有算法的同时，可以观察到生成模型利用不可见类的近似分布比非生成模型表现该方法还利用CVAE的生成模型。我们假设，在训练集上生成OCD并利用它来优化所提出的框架，可以使网络在测试集上更好地泛化。在协议A和协议B之间，正如预期的那样，协议B对应于具有可见类的测试集的结果优于具有不可见测试的结果设置（方案A）。有趣的是，观察到所提出的框架不一定会产生最好的结果，看到的测试集，但它是前三名的算法对所有三个数据库的更具挑战性的看不见的测试协议。此外，从表4可以观察到，所提出的框架改善了现有技术的谐波特性。AWA2数据集上的平均精度H乘以1。百分之八该算法是在SUN和CUB数据库上性能最好的两个算法之一值得男人-指出GALML是一个具有挑战性的问题，并且没有一个算法在所有三个数据库上都表现出色4.6. 超级参数选择图5（a）显示了随着合成生成的样本数量的增加的性能。可以观察到，当OCD不用于训练回归器时，增加样本数量不会影响性能。通过使用OCD，生成400到600个样本可以提高性能。确定′公式2中的σHP值，我们探索了′σHP 从0. 05，0。九十五如图5（b）所示，它可以据观察，最佳业绩已实现0.5 标准偏差σHP的值选自梯度离心标准法线，而σ′使用PS计算113307表4.当测试样本可以来自可见（S）或不可见（U）类时，广义零次学习的平均每类分类准确率（%）和调和平均准确率A：U→S+U，B：S→S+U。（前两名成绩突出）类型方法AWA2幼崽孙一BH一BH一BH非生成模型CONSE [24]0.590.61.01.672.23.16.839.911.6[42]第四十二话8.182.514.88.546.914.42.136.44.0SJE [3]8.073.914.423.559.233.614.730.519.8西班牙语[28]5.977.811.012.663.821.011.027.915.8同步[8]10.090.518.011.570.919.87.943.313.4严重不良事件[15]1.182.22.27.854.013.68.818.011.8LATEM [36]11.577.320.015.257.324.014.728.819.5ALE [2]14.081.823.923.762.834.421.833.126.3DCN [19]---28.460.738.725.537.030.2COSMO+LAGO [5]52.880.063.644.457.850.244.937.741.0[9]第十九话17.174.727.823.853.032.816.927.420.9生成模型[23]第二十三话--51.2--34.5--26.7[32]第三十二话58.368.162.841.553.346.740.930.534.9[10]第10话56.271.763.042.745.644.144.430.936.5F-CLSWGAN [38]---43.757.749.742.636.639.4RAS+cGAN [41]---31.540.235.341.226.732.4CADA-VAE[29]55.875.063.951.653.552.447.235.740.6GDAN [14]32.167.543.539.366.749.538.189.953.4提出59.573.465.744.859.951.344.842.943.8(a) 合成生成的样本数量(b) 标准差[σ forz~N（0，σ）]宠物课我们已经观察到，过完备分布有助于确保类之间的可分性实验结果表明，该方法在三个基准数据库上的性能得到了OCD的概念以及优化类间和类内距离也可以用于其他框架，例如生成对抗网络，异构度量学习[11]和应用程序，例如具有伪装变化的人脸识别[30]。图5.使用PS协议对AWA2数据集进行超参数选择不同（a）样品数量和（b）标准差的准确度图分体式列车组。图5中的结果还表明，所选值（0.（5）取得最佳效果。大多数超参数与Vermaet al.[32 ]第32段。在OBTL损失中，α参数在优化训练集时计算，并设置为0。4.第一章5. 结论本文讨论了零拍学习和广义零拍学习的挑战。我们提出了过完备分布的概念，并利用它来训练判别式分类器在GML和GML设置。过完备分布是通过为一个类生成所有可能的硬样本来定义的，这些样本更接近于其他样本。6. 确认R. Keshari部分得到Visvesvaraya博士的支持。奖学金M. Vatsa部分由印度政府Swarna-Jayanti奖学金提供支持。引用[1] Martın Abadi ， Ashish Agarwal ， Paul Barham ， EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S Corrado，AndyDavis，Jeffrey Dean，Matthieu Devin，et al.Tensorflow：异构系统上的大规模机器学习，2015年。软件可从张量流。org，1（2），2015. 6[2] Zeynep Akata 、 Florent Perronnin 、 Zaid Harchaoui 和 CordeliaSchmid。基于属性分类的标签嵌入。在CVPR，第819-826页，2013年。二、五、七、八[3] Zeynep Akata，Scott Reed，Daniel Walter，Honglak Lee，andBernt Schiele.用于细粒度图像分类的输出嵌入的评估。在CVPR，第2927-2936页，2015年。七、八113308[4] 布兰登·阿莫斯。Openface 0.2.0：更高的精度和减半的执行时间。http://bamos.github.io/2016/01/19/openface-0.2.0/，2016. 5[5] 尤瓦尔·阿特兹蒙和加尔·阿格西克。广义零激发学习的自适应置信平滑在CVPR中，第11671二七八[6] 马克西姆·布谢尔，圣·法恩·赫宾，弗雷德里克·朱利。为零炮分类生成视觉表示。在ICCV，第2666-2673页，2017年。7[7] 瑞奇·卡鲁阿纳多任务学习。Machine learning，28（1）：41-75，1997. 1[8] Soravit Changpinyo，Wei-Lun Chao，Boqing Gong，and Fei Sha.用于零镜头学习的合成分类器在CVPR，第5327七、八[9] Andrea Frome，Greg S Corrado，Jon Shlens，Samy Bengio，Jeff Dean，Tomas Mikolov，et al. Devise：一个深度的视觉语义嵌入模型。NIPS，第2121-2129页，2013年。七、八[10] 芮高、兴松侯、捷勤、李流、范铸、赵章。一种用于零触发学习的联合生成模型。见ECCV，第631-646页。Springer，2018.二七八[11] Soumyadeep Ghosh，Mayank Vatsa，and Richa Singh.交叉光谱交叉分辨率人脸识别的子类异质性感知损失。 IEEETransactions on Biometrics，Behavior，and Identity Sci-ence，2020. 8[12] 郭雨辰、丁贵光、韩俊功、高跃。使用转移样本的零触发学习。TIP，26（7）：3277-3290，2017年。7[13] ZhitingHu ， ZichaoYang ， XiaodanLiang ， RuslanSalakhutdinov，and Eric P Xing.控制文本的生成。ICML，第1587-1596页。JMLR。org，2017. 5[14] 黄和，王长虎，菲利普·S·余和王长东。广义零射击学习的生成对偶对抗网络在CVPR，第801-810页，2019年。二、八[15] Elyor Kodirov，Tao Xiang，and Shaogang Gong.语义自动编码器的零射击学习。在CVPR中，第3174-3183页，2017年。七、八[16] Christoph Lampert，Hannes Nickisch，and Stefan Harmeling.通过类间属性传递学习检测未见过的对象类见CVPR，第951-958页。IEEE，2009年。五、六[17] Christoph H Lampert，Hannes Nickisch，and Stefan Harmeling.基于属性的零镜头视觉对象分类。TPAMI，36（3）：453-465，2014年。二、六[18] Hugo Larochelle、Dumitru Erhan和Yoshua Bengio。零数据学习新任务。在AAAI，第1卷，第3页，2008中。一、二、六[19] Shichen Liu，Mingsheng Long，Jianmin Wang，and Michael IJordan.深度校准网络的广义零触发学习。在NIPS中，第2009-2019页，2018年。二七八[20] 杨龙，刘丽，沈富民，邵凌，李雪龙。零射击学习使用合成的看不见的视觉数据与扩散regularisation。TPAMI，40（10）：2498-2512，2018。2[21] 奎恩·麦克尼马有关相关比例或百分比之间差异的抽样误差的说明。Psychometrika，12（2）：153-157，1947. 6[22] 埃里克·刚德森·米勒。通过共享概率密度从机器视觉的一个例子中学习。博士论文，麻省理工学院，2002年。1[23] Ashish Mishra、Shiva Krishna Reddy、Anurag Mittal和Hema AMurthy。使用条件变分自动编码器的零拍摄学习的生成模型在CVPRW，第2188-2196页，2018年。二七八[24] Mohammad Norouzi 、Tomas Mikolov、Samy Bengio、YoramSinger 、 Jonathon Shlens 、 Andrea Frome 、 Greg S Corrado 和Jeffrey Dean。基于语义嵌入凸组合的零次学习。arXiv预印本arXiv：1312.5650，2013。七、八[25] 吉纳维芙·帕特森和詹姆斯·海斯太阳属性数据库：覆盖、注释和识别场景属性。在CVPR中，第2751-2758页。IEEE，2012。6[26] 拉杰特·雷纳，亚历克西斯·巴特尔，洪拉克·李，本杰明·帕克，和吴安德鲁.自学：从未标记的数据中转移学习。ICML，第759-766页。ACM，2007年。1[27] 西尔维娅·理查森和彼得·J·格林。关于未知组元数混合物的平衡分析（附讨论）。RSS：series B（statistical methodology），59（4）：731-792，1997.3[28] Bernardino Romera-Paredes和Philip Torr一种非常简单的零射击学习方法。在ICML，第2152-2161页，2015中。七、八[29] Edgar Schonfeld 、 Sayna Ebrahimi 、 Samarth Sinha 、 TrevorDarrell和Zeynep Akata。通过对齐的变分自编码器的广义零和少拍学习。在CVPR中，第8247二、八[30] Maneet Singh，Richa Singh，Mayank Vatsa，Nalini K. Ratha和Rama Chellappa。在野外识别伪装的面孔。IEEE Transactionson Biometrics，Behavior，and Identity Science，1（2）：978[31] 塞巴斯蒂安·特伦学习第n件事比学习第一件事容易吗？NIPS，第640-646页，1996年。1[32] Vinay Kumar Verma、Gundeep Arora、Ashish Mishra和PiyushRai。通过合成示例的广义零镜头学习。在CVPR中，第4281-4289页，2018年。二、五、七、八[33] Vinay Kumar Verma和Piyush Rai。一个简单的指数族零射击学习框架参见ECML，第792Springer

下载后可阅读完整内容，剩余1页未读，立即下载