没有合适的资源?快使用搜索试试~ 我知道了~
有限监督学习的最新进展:连续广义零次学习与在线设置
9245在以后的时间里看不到的课? 没问题Hari Ganana Kuchibhotla先生,Sumitra S Malagi先生,Shivam Ganhoko先生,Vineeth NBalasubramanian先生印度理工学院海得拉巴,印度oINRIA,格勒诺布尔阿尔卑斯大学{ai20resch11006,cs20mtech14006,vineethb} @ iith.ac.in,chandhokshivam@gmail.com摘要从有限监督中学习的最新进展鼓励人们努力设计能够在测试时识别新类的模型(广义零射击学习或GSTOL)。GALML方法假设所有类的知识,无论是否有标记的数据,事先.然而,实际场景要求模型具有自适应性,并且可以处理动态添加新的可见和不可见的类(即连续广义零次学习或CGSRL)。一种解决方案是按顺序重新训练和重用传统的GALML方法,然而,这样的方法遭受灾难性的forgetting导致次优的泛化性能。最近为解决CGAHL问题所做的一些努力受到了设置、实用性、数据分割和所遵循协议的限制--这出于这些观察,在这项工作中,我们首先巩固了不同的CGAPDL设置变量,并提出了一个新的在线CGAPDL设置,这是更实用和灵活的。其次,我们介绍了一个统一的特征生成框架的CGCARL杠杆年龄双向增量对齐,以动态地适应添加新的类,有或没有标记的数据,随着时间的推移到达任何这些CGCARL设置。我们在五个基准数据集上的综合实验和分析以及与基线的比较表明,我们的方法始终优于现有的方法,特别是在更实用的在线设置上。1. 介绍深度神经网络(DNN)作为预测模型已经显示出巨大的前景,并且越来越多地用于各种计算机视觉应用。然而,它们对大规模标记数据集的依赖限制了它们在现实世界中遇到的实际场景中的使用。现实世界中物体的出现本质上遵循长尾分布[16,35],这意味着从现实世界中采样的视觉数据可能不容易获得平等贡献图1. 建议设置的图示。一般化零射击学习(GSTML)模型(第1行)和我们提出的模型(第2行)在真实世界场景中动态添加新的可见(黄色)和不可见(蓝色)类别的适用性。GALML设置不允许动态添加随着时间推移而添加的新类(可见或不可见)我们提出的CGCQL设置更灵活,可以处理可见和不可见类别的初始池中的动态变化,增强模型的可扩展性和在实际环境中的适用性。所有感兴趣的类别同时。因此,需要模型具有概括和识别语义上类似于在训练期间遇到的对象的新对象现有的努力旨在解决这个问题,通过设计广义零射击学习(GSTOL)模型,这些模型具有在测试时推广到看不见的类的能力。现实世界中物体出现的另一个重要方面是随着时间的推移逐渐增加物体类别这可以归因于新对象的发现或数据收集过程的连续性,由于这一点,以前罕见的对象可能在稍后阶段具有丰富的可用然而,现有的GALML方法并没有被设计为解决在可见和不可见类别的初始池中动态添加类,限制了它们在具有挑战性的实际设置中的可扩展性和适用性。图1说明了GALML模型在类随时间到达的实际设置中实际上,GALML设置是有限的,并且无法适应由于逐渐添加新的可见和不可见类而对初始类别池所带来的动态变化。9246时间这可以归因于以下事实:由于先前的数据不再可用,所以当随着时间的推移顺序地训练和重用时,GJML模型倾向于灾难性地忘记与复杂任务有关的知识。这就需要共同努力,仔细设计类似于现实世界中对象发生的问题设置,并构建能够随着时间的推移而适应并无缝应对这些挑战的模型。最近,零星的努力[6,9,26]已经朝着设计模型,可以动态地适应和推广新的可见和不可见的类。上述作 品 将 这 种 设 置 称 为 连 续 通 用 化 零 触 发 学 习(CGSRL)。然而,这些努力都是新生的,在问题设置的定义、实用性、数据分割和遵循的协议方面各不相同为了解决这一问题,并出于在这一方向上取得进展的需要,在这项工作中,我们首先巩固了在这些最近的努力中解决的不同的CGCQL设置,并根据它们解决的挑战明确分离现有的方法和设置我们提出了一个更灵活,更现实的在线CGCGL设置,更接近于在现实世界中遇到此外,我们提出了一个统一的框架,采用了双向增量的基于重放的策略,无缝地适应和推广到新的看到的和看不见的类,随着时间的推移到达。我们的重放策略基于特征生成架构,因此不需要存储来自先前任务的样本。我们还使用静态架构进行增量学习(而不是使用模型增长),以促进可伸缩性和效率。总括而言,我们工作的主要贡献如下:我们确定了相对较新的CGCARL设置的不同挑战我们希望,这将有助于对这些办法进行公平比较,并在这一领域取得进一步进展。我们建立了一个实用的,但更具有挑战性的,在线的CGCQL设置,更接近现实世界中遇到的情况下,在实践中。我们提出了一种新的特征生成框架来处理不同的CGRQL设置变体,该框架通过双向增量对齐来避免灾难性遗忘,从而允许从先前任务向前转移语义知识并实现泛化。我们在三个不同的CGRML设置上进行了广泛的实验和分析,这些CGRML设置在知名的基准数据集上:AWA 1 , AWA 2 , Attribute PASCAL 和 Yahoo(aPY),Caltech-UCSD-Birds(CUB)和SUN,展示了我们方法的前景我们观察到,我们的模型在基线和现有的基础上不断改进,方法,特别是在更具挑战性的在线设置.2. 相关工作广义零拍 学习 (GALML). 现有的GML方法可以大致分为基于嵌入的方法和生成方法。传统的基于嵌入的方法[4,12,23,34]旨在将视觉和/或语义特征投影到公共嵌入空间上,并使用基于最近邻的分类器对视觉样本进行分类。另一方面,一组相对较新且更有效的方法[1,5,13,20,32]提出使用生成模型来合成看不见的视觉特征,从而将Gandrel问题转换为监督分类问题。虽然,上述方法旨在在测试时推广到新的不可见类,但它们并不被设计为解决类别(可见或不可见)随时间的动态添加。持续学习(CL)。旨在持续学习和解决灾难性遗忘[19]的现有方法可以大致分为:参数隔离方法[17],基于正则化的方法[10,14,33],模型增长架构[24]和基于排练的方法[2]。参数隔离方法[17]旨在识别对任务重要的参数,而基于正则化的方法[10,14,33]则限制参数以避免对先前任务重要的权重偏差。另一方面,模型增长架构[18]动态地增加模型容量,并且基于排练的方法存储或生成先前任务的图像以避免遗忘[15]。此外,各种方法使用知识转换技术[15,22]将知识从任务转移到当前任务。然而,这些方法不能推广到模型在训练期间没有遇到视觉样本的不可见类。连续广义零次学习(CGSRL)。CL的目标是通过将学到的知识转移到未来的任务中来进行增量学习,而GALML的目标是将语义知识从可见的类转移到识别不可见的类。考虑到转移所学知识的共同目标,最近有一些统一这些范式的努力。Lifelong RationalL [30]标志着解决CGRationalL问题的第一次尝试,其中使用多头架构来积累知识,同时从多个数据集进行训练。然而,该方法需要在测试时以task-ids的形式进行任务级监督,限制了其在现实场景中的适用性。另一方面,[26]提出了一种基于类规范化的方法来解决CGBML问题,[9]为每个任务学习了一个新的VAE。然而,[9,26,29]特别考虑了以前遇到的任务作为可见的类,未来的任务作为不可见的类,因此只处理静态CGML····9247不图2. 建议设置与其他已知设置的比较。在CNOL中,模型在可见的类上进行训练,并在不可见的类上进行评估。在GALML中,模型在可见和不可见的类上进行测试。CL模型在顺序到达的类上进行训练,但在训练或测试期间没有看不见的类。在这项工作中,提出了连续的GHEL(CGHEL)设置(用 * 突出显示)。在static-CGRML中,将来到达的类被认为是不可见的。在Dynamic-CGRML中,每个任务都有一组不相交的可见类和不可见Online-CGRQL允许将以前看不见的类转换为可见的类(基于数据的可用性),此外还可以在每个任务中处理新的可见和不可见类在实践中具有限制性的设置(第二节)(3)第三章。[6,7]最近制定的CGRQL作为一个问题,其中每个任务都有自己的一组可见和不可见的类,并在动态CGRQL设置中工作。虽然此设置是对静态CGRQL设置的改进,但它仍然是限制性的,因为它不允许在数据随着时间的推移变得可用时动态转换看不见的类。此外,为每个任务学习新的VAE [9]或存储先前任务的示例样本[7]会导致内存需求逐渐增加,这是低效的。另一方面,[6]采用了一种基于排练的策略,但没有考虑到随着时间的推移,由于新类别的增加,视觉空间3. CGCARL:设置和公式在本节中,我们将对最近的努力所处理的各种CGGML设置进行整合和提供全面的概述,并详细讨论其制定中的主要差异。我们还描述了我们提出的在线CGCQL设置,它更灵活,更接近真实世界的场景。图2示出了各种CGRQL设置的图形表示,并努力将它们与相对于其他相关的有限监督和持续学习环境。我们现在在下面描述每个CGRQL设置变体静态-CGAXL。在这种设置中[8,9,26,29],数据集被划分为T个子集,模型随着时间的推移以增量方式遇到每个子集。该设置假定所有以前遇到的任务都是可见的,而将来的任务由不可见的类组成。形式上,对于A在给定的时间步t,给定任务t,前t个子集,即属于当前和先前任务的数据被认为是可见类,而未来任务被认为是不可见的。这种设置与传统的GSTML不同,因为在第t任务的评估期间,先前的训练数据不可用。因此,模型应该能够保留以前学习的知识,同时适应新遇到的seen类。然而,static-CGRQL提供了一个受约束的设置,它需要预先知道类或任务的总数(因此称为static)。此外,该设置要求直到当前时间步t的所有任务都被认为是可见类,只有未来任务包含不可见类。因此,类的动态添加仅限于在连续学习的同时遇到特定任务后将不可见类转换为可见类。虽然假设看不见的类别的视觉特征在未来可能变得可用是合理的,但假设在训练开始时未知的新的可见或不可见类别在未来将不被添加可能是不可行的。这从根本上限制了持续学习的概念,模型应该适应-能够完成任意数量的任务或添加新类。动态-CGCGL。考虑到静态CGRQL设置的局限性,[6,7]提出了另一种设置,其中每个任务都有一组唯一的可见和不可见类,并且模型可以随时间推移容纳任何数量的任务我们将此设置归类为动态CGRQL,其限制性低于静态CGRQL设置,因为它允许以连续的方式添加可见和不可见的类。然而,此设置强加了一个约束,9248−s树s树te}图3. 我们的方法包括三个阶段:(1)训练;(2)生成重放;(3)推理。(1)在训练过程中,训练CNOD以将输入属性映射到视觉空间,并且训练生成器G以生成伪视觉特征。GAN使用相似性分数进行对抗训练。Lrcl、Lpcl和Lsnl损失项有助于生成可见和不可见类别的区别特征。Lsal和Lnuclear被用于增量双向增强;(2)我们在给定的时间步长t对三种不同的设置进行测试,如第2节所述3 .第三章。余弦相似性用于对目标视觉特征进行分类;(3)训练的G用于重放/生成直到任务t遇到的所见类的特征。看不见的类在将来可能永远不会被看到,并且不能处理稀有类在稍后的时间阶段可能具有大量可用样本的情况这在实践中是有限的,因为由于数据收集的连续性,当其数据随着时间的推移变得可用时,一些看不见的类可能会变得可见。在线咨询-CGCALL. 为了更好地与现实世界中常见的scenar- ios 保持一 致,我们引 入了一个新的Online-CGCQL设置,它可以处理可见和不可见类池中的各种动态变化。具体地,每个任务具有一组不相交的可见和不可见类,并且可以动态地结合任意数量的这样的任务/类别。重要的是,如果相应的可视功能变得可用(取决于将来数据可用性的变化),则此设置允许将以前不可见的类转换为可见类。请注意,我们的设置更加灵活,因为它不需要事先了解整个类别池,对未见过的类到可见类的转换施加任何限制,也不需要在测试时进行任务级监督。接下来,我们正式描述和制定我们提出的在线CGCQL问题设置。问题表述。让下标s和u分别表示可见类和不可见每个任务t由训练数据和测试数据组成。让At是迄今为止遇到的可见(At)和不可见(At)培训数据在每个任务结束时,通过对当前和先前任务的可见和不可见数据进行测试来评估模型的性能。我们在语义trans-ductive设置中操作,并且在训练期间不使用看不见的视觉特征4. CGCGL:拟议方法总体框架。我们的方法的总体框架如图所示3 .第三章。给定时间步长t,我们首先训练生成器G,其采用基于余弦相似性的公式,使其能够随时间动态地合并任何4.1)。为了确保所生成的视觉特征在当前时间步处是关于类别分布的区分性,我们施加归一化区分损失(第12节)。4.2)。此外,我们提出利用增量双向对齐,以适应和确保来自先前(t1)任务的知识转移,并加强在时间t之前遇到的类之间的语义关系,从而减少 灾难性 遗忘 (第2 节) 。4.3)。 在时间 步(t+1),我们使用生成重放策略来生成所有先前任务的可见类视觉特征(Rt),并将它们与来自当前任务的可见类样本(Sec.4.4)。对于下一个时间步重复此过程。4.1. 基于余弦相似性的GAN分类器我们学习一个生成模型,它包括一个生成器,S数据Dtu在任务t处由Dt给出={(training visualsam-erator,Gθ:Z × A → X和a θD:A → X。tr当前任务t(X t)的数量tr),它们的类标签(Yt),类该发生器将随机噪声作为输入,z∈Zd,attributes(At))}。在任务t处的测试数据是Dt={(测试类属性a∈At),并且输出生成的视觉fea。可见的和不可见的类的可见样本,因此属于同一类。另一方面far(Xste和Xute),它们的类标签(Yste和Yute),类Dφ将类属性a∈At作为输入,attributes(At))。设Rt是先前任务的重放的可见视觉在每个任务的训练阶段,与当前任务和Rt有关的数据被用作训练输出属性的标识符投影。标识投影是属性在视觉空间中的投影。Gθ和Dφ是逆向训练的,其中判别式9249我s树s树s树|sal我θg NSIMCJCi∪1Σ ΣTOR试图最小化标识符投影和属于同一类的所生成的可见特征之间的余弦相似性,而生成器试图最大化该余弦相似性。除了减少上述成本外,用于为看不见的属性找到适当的映射。分类损失Lrcl、Lpcl和Lsnl定义如下:(x,D(i))正弦相似性,该算法试图最大化真实视觉特征与对应标识符投影之间的余弦相似性。通过这种对抗训练,Lrcl,Lpcl,Lsnl=c e(logni∈At exp(cos(x,D(a))),yi)(二)Gθ学习生成与真实视觉特征相似的视觉特征,Dφ学习更好的属性映射。利用生成的可见特征(X′)之间的余弦相似性反向训练Gθ和Dφ,因子投影(D(a))和真实视觉特征(XtRt)被公式化为:x对应于Lrcl中的真实视觉特征,在L pcl中看到视觉特征,并在Lsnl中生成看不见的视觉特征。c e代表交叉熵,yi是x的真类标号。t仅覆盖Lrcl和Lpcl中的可见类;但对Lsnl的可见类和不可见类求和。在 测试期间,分类跨越直到t遇到的所有类。LGAN=ExEXP数据(Xt[ log [ cos(x,D(a))]](一)4.3. 增量双向对准损耗+ Ex'θpθ(X'|(a))[ log [1-cos(x′,D)]]其中真实视觉特征和生成视觉特征的分布分别用p数据(XtRt)和pθ(X′(a))表示。在测试过程中,我们计算测试样本和所有标识符投影之间的余弦相似性,到目前为止遇到的类属性。测试样本被分配与其共享最大相似性的标识符投影的类标签。因此,我们能够使用单个GAN模型实现连续的广义零射击分类,而无需在每个任务期间训练线性分类器。所提出的架构是简单的,并允许容易地适应越来越多的类,作为分类是通过仅仅计算余弦相似度之间的标识符投影的类遇到的测试样本。4.2. 真实和伪归一化损失随着时间的推移,新的任务或类逐渐到来,使我们能够最好地区分类池的特定功能会动态变化。因此,为了确保所生成的视觉特征是有区别的,对于在任何给定时间步t的类分布,我们在从当前和所有先前时间步生成的视觉特征上施加一组损失具体来说,我们计算所有标识投影和视觉特征之间的余弦相似性的softmax得分 对应于具有最高softmax得分的标识符投影的类标签是预测标签。我们使用三个分类损失-(i)真实分类损失(Lrcl)是对应于真实视觉特征(当前任务+重放样本)的分类损失 L rcl强制在映射属性时考虑类间距离。(二)公司章程;与生成的可见视觉特征相对应的变形损失由于CGFML设置的性质,随着时间的推移添加新的可见和不可见类,视觉特征空间会动态变化。此外,属于先前时间步的可见类的视觉特征和整个不可见类池在当前时间步期间不可用。因此,需要一种机制,该机制可以从先前的任务向前传递知识,以避免灾难性遗忘,并利用当前的语义结构来生成更好的视觉特征(特别是不可见的)。为此,我们建议使用由核丢失和语义对齐丢失组成的增量双向对齐丢失(Liba)语义对齐损失有助于使用语义信息[27]作为生成不可见视觉特征的参考,而核损失有助于将视觉信息从可见类别转移到标识符投影(视觉空间中属性的投影)。两个类c i和c j之间的视觉相似性是它们的类均值之间的余弦相似性。 它表示为Xsi m(µci;µcj),其中µci代表类别i的平均视觉特征。让类之间的语义相似性表示为τ sim(a ci,a cj),其中a ci是类i的属性。 语义对齐损失约束Xsi m(µci;µcj)位于范围τsim(aci,acj)加上或减去(超参数),从而将语义结构转移到生成的特征。 随着新类的添加,ci的语义相似类可能会改变。因此,我们递增地计算到目前为止遇到的所有类的语义对齐损失(Lsal核损失是µ ci和相应标识符投影之间的L2范数。增量双向语义对齐损失由下式给出:NL= min|| max(0,X)(µ,µ′)称为伪视觉分类损失(Lpcl),i=1j∈Ici2发电机。Lpcl鼓励生成器生成更有区别的视觉特征。(iii)由于视觉功能的-(τ sim(a cj,a ci)+ τ))||+的||max(0,(τ sim(a c,a c)− τ)− X sim(μc,μ′c))||2不可见类不可用,生成的不可见视觉特征的分类损失称为可见归一化损失j i j我(三)LSNL已添加到该列表中。LSNL作为基准Lnuclear=||µci-S c||第二(四)条∪9250s树s树Ss树SL←eqn(2)//使用X,D(A)snlSSS和X'SGsteSNSG算法1提出的CGRQL方法输入: Dt、Dt、G、D连接的数据充当用于训练生成模型的输入。在培训期间,特尔代输出:预测标签ypred参数:θG,φD如果新任务到达,如果任务编号大于1,则Rt=重放数据直到任务t-1;Xtend if对于epochs =1到N,tstrrt在不同的任务上依次接受训练在训练过程之后,机器学习器学习映射函数以将属性映射到视觉空间。生成器学习生成以属性为条件的合成视觉特征。在测试过程中,我们使用余弦相似度对测试样本进行分类如Sec. 四点二。基于我们工作的背景-X'=G(z,At)//可见伪视觉特征X'=G(z,At)//看不见的伪视觉特征在中,按照附录中所述计算精度。u uLGAN←eqn(1)//使用XtLrcl←eqn(2)//使用Xt,X' D(t)D(t)5. 实验和结果对于三个CGRQL问题设置中的每一个不u//整体D损失Lt= λ1LGAN + λ2Lrcl +λ3Lsnl动态和在线,我们在五个不同的基准数据集上评估了所提出的方法:具有属性的动物(AWA1和AWA2)[11,31],Attribute Pascal和YahooDφD=φD-η1× μLt// updateDLpcl←eqn(2)//使用X' D(t)Liba←等式(3)和等式(4)//使用X'u//整体G损失不=λ1LGAN +λ2Lpcl +λ4LibaθG=θG-η2× μLt//更新G(aPY)[3],Caltech-UCSD-Birds 200-2011(CUB)[28]和Sun [21].我们遵循[6,9]中提到的数据分割进行公平比较。我们遵循[6,7,26]并在所有任务中评估我们的模型的平均可见准确度(mSA),平均不可见准确度(mUA)和平均谐波值(mH)。有关指标的更多详细信息见附录。端推断:模型在Dt上进行评估end if其中N是到目前为止遇到的类的数量为给定类ci,Sci是标识符投影,μci是真实视觉特征的均值,μ′ci是生成的视觉特征的均值 真实视觉特征的平均值可用只看班级。设Ici表示ci的nc个最近邻的集合。4.4. 生成重放我们在数据增量到达的环境中工作,并且在当前任务期间无法访问以前任务的样本。这导致了灾难性的遗忘。为了保留以前学到的知识并采用新知识,我们使用生成重放。通过将属性和噪声向量的串联传递到生成器网络来生成预处理类的视觉特征先前任务的生成特征和当前任务的真实特征的组合充当训练模型的输入数据。为了确保我们在时间步长t处重放可靠且高质量的视觉特征,我们对生成的视觉特征进行分类,并且仅重放被正确分类的特征。图4. AWA2数据集w.r.t.的不可见类“绵羊”的余弦相似性得分标识符投影显示了在每个任务的推理过程中与“绵羊”共享的前三个余弦相似性得分看不见的类是红色的,看不见的类是黑色的。有关详细说明,请参阅附录。基线。为了分析处理动态添加新类的CGRQL模型的需求,我们Rt=G(z,A≤st−1)(5)其中z(0,1)和A≤st−1表示到目前为止遇到的所有可见类的属性。4.5. 训练和推理对于给定的时间步长t(>1),我们将来自所看到的类的重新播放的视觉特征和当前任务的视觉特征连同它们对应的标签连接起来图5. AWA2数据集在静态(左上)、动态(右上)和在线(下)设置中的任务mH值。=XDL9251−APY AWA1 AWA2 CUB SUNmSAmUAMHmSAmUAMHmSAmUAMHmSAmUAMHmSAmUAMH公司简介EWC [10]40.44--53.62- -一种-55.18- -一种-38.64- -一种-25.79- -一种-AGEM [2]---- --57.25- -一种-41.93- -一种-28.61- -一种-Seq-fCLSWGAN [32]26.9216.3420.3424.83十五点二十九分18.9324.56十六点八十四19.9814.2610.011.7614 10.3811.92Seq-CVAE [20]63.5816.2425.8772.41二十六点三十九分38.6871.84二十五点三十三分37.4536.23二十一点七27.1430.87二十二点六九26.16Seq-CADA [25]62.5422.8933.5175.45二十三点二十八分45.5878.59三十五点八一49.2053.18二十七点二十二分36.0040.67二十四点一三分30.29[20]第二十话77.7427.6240.7681.35三十九点六三53.2985.29三十四点六四49.2764.27二十六点三十九分37.4236.11二十二点三十九分27.64[25]第二十五话67.1835.0646.0779.23五十八点二八67.1578.49五十五点三二64.9064.83四十块九毛九50.2245.25二十八点十九分34.74[8]第八话59.4418.9428.5178.56三十七点四十一52.2379.7538.1151.5741.77二十四点三十四30.3916.33九点四六11.98Tf-GCNOL [7]69.0124.8137.5965.0150.4356.8065.59六十点一七62.7665.36四十四点一九52.8040.18四十一点零五分37.81[9]第九届全国人大代表57.9728.4635.2773.55四十四点二一55.2278.36四十块七十五53.6245.68十六点六十五分23.9423.02十四点16.92[26]第二十六话---- --84.25四十八点九四61.9161.40四十九点六四54.953.57二十七点五一36.35我们75.7937.7249.1178.9969.3373.3380.0672.6275.4444.0953.5748.0341.8745.7243.20表1. 平均可见准确度(mSA)、平均不可见准确度(mUA)及其在线CGCGL设置的调和平均值(mH)。公司动态-CGCGL在线-CGCGLAWA2 CUB AWA2 CUBA-C-L 0.09 0.14 0.07 0.13Tf-GC3 L 0.09 0.07 0.09 0.09DVGR-C40L 0.15 0.14 0.12 0.120.11 0.08 0.10 0.08我们的0.09 0.13 0.09 0.11表2. AWA2 CUB数据集上动态在线设置的遗忘度量将我们的工作与众所周知的传统GALML基线的顺序版本进行比较:f-CLSWGAN [32],CVAE [20]和CADA[25](我们分别称之为Seq-fCLSWGAN,Seq-CVAE和Seq-CADA)。现有的持续学习方法在保留先前学习的知识方面表现出可接受的性能,但无法处理不可见的类。我们将我们的方法与著名的持续学习框架EWC[10]和A-GEM [2]进行了比较。考虑到基于记忆的重放对于克服灾难性遗忘的重要性,我们在添加基于记忆的 重 放 策 略 ( 我 们 分 别 称 之 为 CV+ ESTA 和 CA+ESTA)后,使用CVAE和CADA的顺序版本来评估我们的模型。我们进一步评估了我们的模型对最近试图解决CGCQL问题的努力的性能:(i)A-CGCQL [8];(ii)Tf-GCGCQL [7];(iii)DVGR-CNOL [9];(iv)NM-CNOL [26].我们将这些基线与我们的模型在第二节中描述的三种设置上进行比较。3 .第三章。结果表1显示了我们的模型在多个基线的在线设置中的性能比较。表3显示了我们的模型在动态和静态设置下的性能作为解决Online-CGRQL设置的第一个努力,我们将第t个任务中的一个看不见的类转换为第t个任务中的一个看不见的类,此外还引入了新的可见和不可见的类,并将其用于评估我们的方法以及基线。我们在表1中介绍了针对此设置的所有数据集和基线的基准测试结果1.一、我们观察到,我们的模型优于基线的显著幅度为3.04%,6.18%,10.54%和5.39%9252分别在aPY、AWA1、AWA2和SUN数据集上对平均谐波值(mH)进行了分析。在图5(底部)中,我们显示了在线设置中AWA2数据集的每个任务的mH。在Dynamic-CGHNL(表3)上,我们观察到我们的模型在aPY、AWA 1、AWA 2和SUN数据集上产生了1.18%、3.57%、8.14%和2.91%的mH增加,并且相对于所有基线,在CUB数据集上产生了竞争性增加我们的模型在CUB、AWA1、AWA2和SUN数据集上的表现优于5种最先进的不可见精度中的4种。考虑到不可见类的准确性比可见类提出了更大的挑战,所提出的方法在不可见准确性上的一致性能我们相信,添加其他持续学习策略(如正则化器)可以进一步提高我们的方法在可见类上的性能在图5(右上)中,我们在动态设置中评估AWA2数据集的每个任务的在Static-CGHNL(表3)上,我们观察到我们的模型获得了最先进的性能,在mH的aPY、AWA 1和AWA2数据集上的基线上分别获得了2.26%、6.84%和9.81%结果支持我们的说法,即我们的模型在所有设置中对不可见的准确性表现非常好,这要归功于我们的双向对齐损失,这极大地帮助了性能的提高。图5(左上)显示了静态设置中AWA2数据集的模型mH与任务数的关系。我们在表2中报告了AWA2和CUB数据集在动态和在线设置中的遗忘度量,这表明添加生成重放有助于减少遗忘。图4演示了在推理过程中,未看到的类的余弦相似性如何6. 消融研究和分析为了理解不同组件的重要性,表4显示了我们的方法在粗粒度和细粒度数据集(即AWA1和CUB)上的消融研究。重放数据的作用。为了保留以前的任务信息,我们使用generator网络重放来自所见类的样本为了确认重放数据有助于克服灾难性的遗忘,我们在不重放seen类的视觉特征的情况下执行模型,并观察到9253APY AWA1 AWA2 CUB SUNmSAmUAMHmSAmUAMHmSAmUAMHmSAmUAMHmSAmUAMH公司简介EWC [10]42.68--50.41- -一种-53.29- -一种-40.95- -一种-24.46- -一种-AGEM [2]---- --57.0--43.1--27.15- -一种-Seq-fCLSWGAN [32]25.7315.2719.1723.39十二点五十七分16.3522.88十四点九二18.0613.14七点四七9.5312.708.6310.27Seq-CVAE [20]65.8717.9025.8470.24二十八点三十六分39.3273.7126.2236.3038.95二十点八九27.1929.06二十一点三十三分24.33Seq-CADA [25]61.1721.1326.3778.12二十五点九三47.0679.89三十六点六四47.9955.55二十六点九六35.6242.21二十三点四十七分29.60[20]第二十话78.1528.1040.2185.01三十七点四九51.6088.36三十三点二十四分47.8963.16二十七块五37.8437.50二十四点零一分29.15[25]第二十五话66.3036.5945.0881.86六十一点三九69.9282.19五十五点九八65.9568.18四十二点四十四50.6847.18三十点半34.88[8]第八话64.0616.8224.4678.03三十五点三八52.5182.9142.1957.7447.34二十七点六七32.7715.268.9311.27Tf-GCNOL [7]72.1219.6630.9061.79五十七点七七59.7267.42五十八点零八分62.4144.52四十三点二一43.8527.76三十九点零九分32.46[9]第九届全国人大代表69.6731.5843.4442.0453.3878.17四十点四十四50.8947.28二十二点五十八分29.7723.37十六点三三18.65[26]第二十六话79.6022.2932.6175.5960.8767.4489.22五十一点三八63.4164.9146.0553.7950.56三十五点五五41.65我们74.9233.9446.2679.5169.1373.4979.1970.7174.0950.5152.251.1845.4344.5944.56静态-CGCGLEWC [10]37.65--42.6--43.71- -一种-35.89- -一种-21.36- -一种-AGEM [2]---- --52.61- -一种-39.54- -一种-24.22- -一种-Seq-fCLSWGAN [32]21.188.9612.5920.32九点二五12.7118.97八点四十五11.6911.16六点五四8.2510.02六点八九8.16Seq-CVAE [20]51.5711.3818.3359.27十八点二十四分27.1461.42十九点三十四分28.6724.668.5712.1816.88十一点四十分13.38Seq-CADA [25]45.2510.5916.4251.57十八点零二分27.5952.30二十点半30.3840.82十四点三七21.1425.94十六点二十二分20.10[20]第二十话64.8815.2423.9078.56二十三点六十五分35.5180.97二十五块七十五38.3444.89十三点四十五分20.1523.99十四点十分17.63[25]第二十五话57.6920.8328.8462.64三十八点四一45.3862.80三十九点二三46.2243.96三十二点七七36.0627.11二十一点七二22.92[8]第八话58.1415.9123.0571.00二十四点二十六分35.7570.16二十五点九三37.1934.47十二点17.15- --Tf-GCNOL [7]57.9221.2229.5564.00三十八点三十四分46.1664.8940.2348.3346.63三十二点四二36.3128.09二十四点七24.79[9]第九届全国人大代表62.522.731.765.1 28.53873.5 28.840.644.87十四块五毛五21.6622.36十点六七14.54[26]第二十六话45.2621.3527.1870.90三十七点四六48.7576.3339.7951.5155.45四十三点二五47.0450.01十九点七七28.04我们60.9626.533.9666.3050.6355.5967.1554.1961.3242.3937.0936.3521.4427.5723.87表3.动态静态CGMRL设置的平均可见准确度(mSA)、平均不可见准确度(mUA)及其调和平均值(mH)&。(seen或者看不见),这妨碍了在现实世界中的应用。在这项工作中,我们解决了上述问题,并将现有的连续广义零射击学习(CGSRL)边界推向更实用的在线CGSRL设置。为此,我们提出了一个双向的基于数据的生成框架,可以处理类别池和数据可用性的变化表4. AWA 1 CUB数据集上的消融研究,用于在线-CGAXL设置。AWA1和CUB数据集的平均谐波准确度分别下降了53.09%双向对齐的效果。我们假设双向对齐损失有助于模型适应和对齐新的类;我们通过验证有和没有损失的模型来经验性地展示其重要性。只有一个对齐(单向损失),即Lsal或Lnuclear导致AWA1数据集的性能下降4%,CUB数据集的性能下降8%。在AWA1和CUB数据集上,无双向损失的模型性能显著下降了16.95%和28.15%,这支持了对它的需求。分类损失的影响。催化双向比对的分类损失的缺乏清楚地表明AWA1上的27.68%和CUB数据集上的37.31%的下降。7. 结论和未来工作现有的文献已经见证了加速的努力,以-ward解决GALML问题,但静态性质的设置不允许逐步增加类别MSAAWA1mUAMHMSA幼崽mUAMH我们78.9969.3373.3344.0953.5748.03我们的w/o重播21.2733.6420.241.892.742.21我们的,不含L销售78.1664.3869.1033.8349.6240.10我们的无核武器72.3367.6269.3137.6642.3639.53我们的不含L盐和L核57.3960.2256.3814.1436.5219.88我们的,不含Lrcl和Lpcl78.6533.445.6513.799.5010.72Ours w/oLsnl77.1661.8767.7437.5345.6640.92我们的w/o重播,Lrcl和Lpcl3.366.294.290.530.810.589254随着时间在基准数据集上进行的大量实验验证了我们的方法与现有基线相比具有优越的性能我们未来的工作将包括探索基于动态特征的atten- tion机制,以设计适应性强的模型,从而更好地解决CGAPDL设置。限 制 和 更 广 泛 的 影 响 。 持 续 通 用 化 零 触 发 设 置(CGHNL)是设计AI系统的一个步骤,该系统可适应数据可用性的变化和对象类别的动态添加,这不可避免地会随着时间的推移发生在现实世界中。然而,获取
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功