基于能量的增量学习潜在对齐器

134 浏览量更新于2023-10-25 收藏 2.12MB PDF 举报

增量学习

深度学习模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7452M联系我们ϕT{···}MϕθM F<$ F∈ T基于能量的增量学习潜在对齐器约瑟夫·萨勒曼·汗·法赫德·沙赫巴兹·汗·拉奥·穆罕默德·安维尔·瓦尼埃·巴拉苏布拉马尼安†印度理工学院印度海得拉巴穆罕默德·本·扎耶德大学瑞典林雪平大学芬兰阿尔托大学{cs17m18p100001，vineethnb}@iith.ac.in，{salman.khan，fahad.khan，rao.anwer}@ mbzuai.ac.ae摘要深度学习模型往往会忘记他们以前的知识，而逐渐学习新的任务。出现此由此产生的潜在表示不匹配导致遗忘。在这项工作中，我们提出了ELI：基于能量的潜在对齐器用于增量学习，其首先学习潜在表示的能量流形，使得先前的任务潜在具有低能量，并且当前任务潜在具有高能量值。这种学习的流形用于对抗增量学习期间发生的代表性转变。我们提出的方法所提供的隐式规则化可以用作现有增量学习方法中的即插即用模块。我们通过对CIFAR-100，ImageNet子集，ImageNet 1 k和Pascal VOC数据集的广泛评估来验证这一点我们观察到一致的改善，当ELI被添加到三个突出的方法在类增量学习，在多个增量设置。此外，当添加到现有技术的增量对象检测器时，ELI提供超过5%的检测准确度的改进，证实了其有效性和对现有技术的补充优势代码可在： https ： github.com/JosephKJ/ELI.1. 介绍学习体验在现实世界中是动态的，需要模型随着时间的推移逐步学习新功能增量学习（也称为持续学习）是一种学习模型T t的范式。在时间步长t，这样它就有能力解决一个连续的任务t=τ1，τ2，τ t在其生命周期中引入到它。每个任务τi包含来自不相交类集合的实例重要的是，由于以下原因，在学习τt时不能访问先前任务τ1，τt-1的训练数据：隐私、存储器和/或计算限制。我们可以将增量模型MTt表示为潜在特征提取器FθTt和使用提取的特征解决任务的尾随网络FTt的组合图1.我们在图的顶部展示了一个在连续任务上训练的增量学习模型在学习当前任务τt（放大）时，任务τt-1数据的潜在表示受到干扰，如红色箭头所示。ELI学习一个能量流形，并使用它来抵消这种固有的代表性转变，如绿色箭头所示，从而减轻遗忘。Tt（x）=（TtTt）（x）;其中xt.增量学习的一种简单方法是使用当前任务τ t的数据样本来微调训练的模型，直到前一个任务Tt−1。这样做会使网络的内部表示偏向于在τt上表现良好，从而显著降低旧任务的性能这种现象被称为灾难性遗忘[13，35]。增量学习问题需要在长时间的学习任务中积累知识，而不会发生灾难性的遗忘。主要的挑战是如何在不同的训练片段中整合冲突的内隐表示，以学习适用于所有学习经验的通用模型。为此，实验方法研究了基于正则化的方法[2，23，24，29，40，55]，这些方法约束θ和θ，使得模型在所有任务上都表现良好。示例性的基于重放的方法[7，8，21，33，41]保留了每个任务的数据点的子集，并排练它们以学习连续模型。动态扩展模型[34，44，45]，在增量学习的同时扩大θ和θ作为对现有方法的补充，我们引入了一种新的方法，该方法使用学习的能量流形，最大限度地减少了增量模型潜在空间中的表示移位。能量模型提供了一种处理灾难性遗忘的自然机制7453MMF∈我们所建立的。图1说明了我们提出的方法，ELI：E能量为基础的潜在对齐器，创新的学习，有助于减轻遗忘。后学习先前任务数据zTt的当前任务τ t、来自特征提取器的特征（此后称为潜在特征为θTt（x），xτt−1漂移，如红色箭头我们的方法的第一步是学习能量流形，其中训练到当前任务Tt的模型的潜在表示具有较高的能量，而训练到前一个任务Tt-1的模型的潜在表示具有较低的能量。接着，使用学习的基于能量的模型（EBM）将漂移的复杂任务潜伏期zTt（通过将先前的任务数据传递通过当前模型获得）转换为其他任务潜伏期。在潜在空间中的三个位置，这样代表性的转变被撤销（如绿色箭头所示）。这有助于减少渐进式学习中的遗忘。我们解释了如何在第二节中实现这种转变3 .第三章。我们还提出了一个概念验证与MNIST（图。3）模仿上述设置。学习新任务后，潜在的空间可视化和准确性恢复与图1中的插图相关，这加强了我们的直觉。我们的基于能量的潜在对准器的一个独特特征是它能够扩展和增强现有的连续学习方法，而不对其进行任何改变。方法论我们通过将ELI添加到三个突出的类增量方法来验证这一点：iCaRL [41]，LUCIR [20]和AANet [31]和最先进的增量对象检测器：iOD [22]。我们对大规模分类数据集的增量版本进行了全面的实验评估，如 CIFAR-100 [25] ， ImageNet 子集 [41] 和ImageNet 1k [9];以及Pascal VOC [12]对象检测数据集。对于增量分类实验，我们考虑两个突出的设置：将类添加到以所有类的一半作为第一任务训练的模型中，一般增量学习设置，考虑所有任务的类数量相等。ELI持续改善所有数据集和所有方法的性能，心理分类设置，并在增量对象检测上获得令人印象深刻的性能增益，与当前最先进的技术相比[22]，提高了5。4%，7%和3%，而增量学习10，5和一个类分别。总而言之，我们工作的主要亮点是：• 我们介绍了一种新的方法ELI，这有助于对抗发生在LA中的代表性转变增量学习模型的帐篷空间。• 我们的基于能量的潜在对准器可以作为现有增量分类器和对象检测器的附加模块，而无需对其方法进行任何更改。• ELI在三个大规模增量分类的超过45个数据集，并将当前最先进的增量对象检测器平均提高了5%以上mAP。2. 相关工作增量学习：在这种设置中，模型在新任务上不断改进自己，而不会影响其在旧任务上的性能。实现这种行为的一种流行方法是通过约束参数，使其不会从先前调整的值中偏离太多[7，10，28，32，41，52]。在这方面，知识蒸馏[19]已被广泛用于在增量分类[7，28，41]和对象检测[15，21，46]设置中执行显式正则化。在基于重放的方法中，通常存储样本的一个小子集，以回忆和保留对早期任务有用的表示[6，20，24，32，41]。另一组独立的参数学习方法将参数的独立子集专用于不同的任务，从而避免干扰，通过新的网络块或门控机制[1，31，38，39，44]。此外，已经探索了元学习方法来学习在多个增量任务之间共享的更新方向[22，40，43]。与这些方法相比，我们建议学习EBM来调整增量任务ELI可以增强这些现有的方法，而无需任何方法上的修改，通过强制执行一个隐含的法律，使用学习的能量流形进行帐篷空间正则化基于能量的模型：EBM [26]是一种最大似然估计模型，可以将低能量分配给观察到的数据标签对，否则将高能量分配给观察到的数据标签对。EBM已用于分布外样本检测[30，47]，结构化预测[4，5，48]和提高对抗鲁棒性[11，17]。基于能量的联合模型（JEM）[14]表明，任何分类器都可以被重新解释为生成模型，可以对标签和数据的联合可能性进行建模。虽然JEM需要在区分性和生成性目标之间交替，但Wangetal. [49]提出了一个基于能量的开放世界softmax目标，可以联合执行判别学习和生成建模。EBM也用于合成图像[3，53，56，57]。Xie等人[54]使用CNN表示EBM，并利用Langevin动力学进行MCMC采样以生成逼真的图像。与这些方法相比，我们探索的EBM的效用，以减轻遗忘在一个持续的学习范式。这些方法中的大多数在数据空间中操作，其中从EBM中采样将是昂贵的[56]。随后，我们学习具有潜在表示的能量流形，这在控制影响增量模型的表示移位方面更快更有效最近一项未发表的工作[27]提出用基于能量的分类器头替换增量模型的标准softmax层。我们的方法使用学习的能量流形在潜在空间中引入了隐式正则化，这与他们的方法基本不同，可以很好地扩展到更硬的数据集和不同的设置（分类和检测）。7454MMA MM数据FθFM一θF∈ TF不我我数据我我数据ϕθθθϕT{···}F F FFMTMM3. 基于能量的潜在对齐器我们提出的方法ELI利用基于能量的模型（EBM）[26]来最佳地适应潜在的代表性，这是一个增量模型的表现，这样它就可以避免灾难性的遗忘。在我们的讨论中，我们将从模型的主干网络中提取的中间特征向量称为潜在在对第二节的问题设置做了简短的介绍后，3.1，我们解释了EBM是如何学习和使用的第二节对齐3.2. 我们学习能量流形基于能量的潜在对齐器（ELI）使用能量流形对齐上一个任务潜伏期潜空间数据从骨干潜在特征来自任务的数据的潜伏期的旧位置任务中潜在项的当前位置图2.我们使用通过当前模型FTt传递的当前任务数据的潜在表示来学习能量流形最后以第二节的一个玩具实验作为结束。三点三上一个ModelFθTt−1。该歧管用于对准la-3.1. 问题设置在增量学习范式中，一组任务t=τ1，τ2，，τt随着时间的推移被引入模型。τ表示在时间步t引入的任务，其由图像Xτt和从其corp采样的标签yτt响应任务数据分布：（xτt，y τt）p τt- 是的每个在学习新任务时从τt−1转移的帐篷。直到前面的任务Tt-1。学习新任务的训练数据从相应的数据分布中采样：（xτt，y τt）p τt。我们可以使用任何现有的持续学习算法A来学习递增模型M Tt。M Tt−1的隐表示任务τt包含来自不相交类集合的实例我们试图建立一个模型Tt，这是胜任解决所有的任务t。在不失一般性的情况下，Tt可以表示为两个函数的组合：Tt（x）=（TtTt）（x），其中Tt是特征提取器，Tt是分类器在分类模型和com的情况下，目标检测器的正确分类和定位分支，解决了迄今为止介绍给它当在当前任务τt上训练MTt时，模型不将针对学习τt进行优化，这会导致Tt在先前任务上的性能下降。根据的功效，Tt在减轻固有遗忘方面可以具有不同程度的有效性我们提出的方法有助于撤消在通过T t时发生在先前任务实例上的这种表示转换。如图2所示，在第一步中，我们使用三种成分学习能量流形：（i）来自当前任务的图像：xpτt，（ii）来自无法访问以前任务中的所有数据1.当前和先前任务数据之间的这种不平衡可能会使模型偏向于关注最新的任务，同时灾难性地降低其在早期任务上的性能。如何使增量学习者对这种遗忘具有鲁棒性是一个具有挑战性的研究问题。正则化方法[2，23]，示例重放方法[8，33，41]和渐进模型扩展方法[34，44，45]已经成为解决遗忘的标准方法。我们提出的方法是补充所有这些领域的发展，是通用的，足以作为一个附加到任何这样的持续学习的方法，以最小的开销。3.2. 潜在对齐器我们在持续学习模型的潜在空间中执行基于能量的建模。我们的潜在对齐器方法避免了明确识别哪些潜在表示应该被调整或保留以在学习新技能的同时跨任务保留知识的需要它隐式地识别哪些表示是理想的任务之间共享，保留它们，并同时适应表示的负面影响增量学习。让我们考虑一个具体的增量学习设置，其中我们将新任务τt引入到经过训练1这种受限的内存被认为是由于实际的限制，如有限的存储，计算预算和隐私问题。模型训练到前一个任务：zTt−1=Tt−1（x），（iii）从训练的模型到当前任务的x的潜在表示：为θTt（x）。一个基于能量的模型E被学习为zTt−1分配低能量值，为z T t分配高能量值。接下来，在推理期间，学习的能量流形E_n用于抵消表示。当先前任务实例通过当前任务实例时，model：ZH 为θTt（x）其中xt−1。由于潜在空间中的代表性移位，zTt将在能量流形中具有更高的能量值。我们调整zTt来改变-在潜在空间中的位置，使他们的能量在歧管被最小化，如图2的右侧部分所示。这些转移的潜伏期表现出较少的遗忘，这是我们通过SEC中的增量分类和对象检测的大规模实验经验验证的4.第一章值得注意的是：1）我们的方法在潜在空间中添加了隐式正则化，而没有对增量学习算法、2）ELI不需要访问先前的任务数据来学习能量流形。电流通过模型Tt-1传递的任务数据在学习EBM时确实充当了先前任务数据的代理。3.2.1 学习潜在对齐器：EBM提供了一种简单灵活的方法来建模数据可能性[11]。我们使用连续的基于能量的模型，制定了一个新的，7455∈数据←M数据θFϕθθ不5：zt← Fθt（x）一期+1我 2zψ我我ϕθral网络，它可以通用地模拟各种功能映射。具体来说，对于给定的潜在fea-在ELI中，我们学习一个能量函数，D算法1算法L学习 EBM输入：训练到当前任务的模型的特征提取器：FθTt;训练到前的模型的特征提取器E（z）：R →R将其映射到标量能量值。一个task：FTt−1;当前任务的数据分布：pτtEBM被定义为吉布斯分布p（z）除以E（z）：1：Eθ初始化能量函数。数据exp（−E（z））（一）第二章：而直到需要的迭代p（z）=z∫zψexp（−E、（z））dz3：xpτt4：zTt−1← F不6：zTTt−1（x）小批量取样第EBM通过最大化数据对数似然在从真实分布ptrue（z）中提取的样本集上：不采样以zTt为起始值点参考公式4L（）=Ezp 真 [logp（z）]。（二）7：in_dist_energy←E（zTt−1）8：out_of_dist_energy←E（zTt）上述目标的导数如下[51]：∂ ψ L(ψ)=Ez∼ptrue[−∂ ψ E ψ(z)]+Ez∼pψ[∂ψE ψ(z)].（3）第一项在Eq。3、确保一个人的能量9：损失←（−in_dist_energy10：优化损失的E值。11：返回E采样+out_of_dist_energy）参考公式3从真实数据分布ptrue中提取的plez将是最小化，而第二项确保从模型本身提取的样本将具有更高的能量值。在ELI中，ptrue对应于潜在从训练到前一个任务的模型的表示在任一时间点由于等式中的归一化常数，从p（x）采样是难以处理的。1.一、使用Langevin dynamics [36，50]递归地绘制近似样本z=z−<$E（z）+<$λω，ω<$N（0，I）（4）λ3.2.2 使用ELI的对齐：在增量设置中学习任务τt之后，我们使用算法1来学习能量流形。该流形用于使用算法2将来自当前模型Tt的先前任务实例的潜在表示对齐。计算能量函数E*相对于潜在表示z然后，这些潜伏期被连续更新以减少它们的能量（第3行）。我们重复L步朗之万迭代。校准器假设，在推理过程其中λ是步长，ω捕获数据不确定性。也就是说，一个潜在对象是否属于当前任务。当量4产生稳定到平稳分布在几次迭代内，从初始zi开始。算法1示出了能量流形如何在ELI学习。能量函数E由输出中具有单个神经元的多层感知器层，其量化输入样本的能量。它是在第1行初始化的Kaiming。直到几次迭代之后，我们才从当前任务数据分布p τ t中抽取小批数据. 接下来，算法2算法ALIGNLATENTS输入：待适配的潜在向量：z; EBM：Em;朗之万步数：L步;学习速率：λ1：while直到L步迭代2：grad←zE（z）3：z←z−λgrad4：返回z从训练到前一任务FTt-1的模型和训练到当前任务θTt，在第4和第5行中相对于水平。从这里开始，我们准备根据方程计算梯度3、这是训练能量函数所需要的。第一项在Eq。3最小化了对分布内能量的期望，这在第7行中计算，而第二项最大化了对分布外能量的期望计算分布外能量所需的朗之万采样将来自当前模型的潜伏期作为马尔可夫链的初始起点，如第6行所示。最后，在第9行中计算损失，并在第10行中使用RMSprop [18]优化器优化能量函数E3.3. 玩具示例我们的方法建立在一个关键前提上，即增量学习模型的潜在表征在新任务训练后会受到干扰，并且基于能量的流形可以帮助以事后方式成功减轻这种不必要的表征转变。在图3中，我们提出了一个概念证明，我们的假设确实成立。我们考虑使用增量MNIST的两个任务实验，其中第一个任务是学习前5个类，而第二个任务是学习其余的T1={τ0. . .τ4} 和 T2={τ5. . .τ9} 。我们首先学习 MT1（x）=（FT1<$FT1）（x），其中x∈T1，然后逐步更新为MT2（x）=（FT2<$FT2）（x），其中哪里exp（−E（z））dz是一个难处理的分区函数。∫7456任务1准确性; |z|= 32。任务1准确性; |z|= 512。九十九点一六九十九点五四89.1499.0483.4420.88After Learning After Learning调整后任务1任务2使用ELI不T {} T {}TψFF×ϕ×θ1ϕψθ1F∈T∈ TF<$F <$F∈T100500(a) 在学习任务1、任务2和使用ELI进行适应后，任务1的表现(b) 在学习任务1之后，可视化任务1的潜在内容(c) 在学习任务2之后，可视化任务1的潜在内容(d) 使用ELI比对后可视化任务1潜伏期图3.我们基于我们的方法的一个关键假设是，在学习一个新任务时，潜在表征会受到干扰，这反过来会导致对前一个任务的灾难性遗忘，并且可以使用能量流形来对齐这些潜在表征，从而消除遗忘。在这里，我们说明了一个概念证明，我们的假设确实是正确的。我们考虑两个任务实验，MNIST;1=τ0、τ1、τ2、τ3、τ4，2=τ5、τ6、τ7、τ8、τ9。学习第二个任务后，1个测试集的准确率下降到20。88%，在32维潜空间实验时。ELI中的潜在对准器提供62. 测试准确率提高56%至83。百分之四十四。在子图（c）中学习2之后的512维潜在空间的可视化确实示出了由于表征移位而导致的混乱。ELI能够如子图（d）中所示对准潜伏期，这消除了从89. 14%至99。04%。X2.当使用（T1T2）（x）（其中x检验）评估任务1分类准确度时，我们看到了catastrophic遗忘。有一个显着下降，性能99 2%到20。9%，当我们使用32维潜在空间时。让ELI表示我们提出的潜在对准器。在重新评估分类准确性时，使用（T1伊莱T2）（x），其中x测试，我们看到62的改进。6%至83。百分之四我们还尝试将潜在空间维度增加到512。与我们之前的观察，我们观察到准确度从99下降。54%至89。百分之十四ELI帮助将其提高到99。04%。由于遗忘导致的性能绝对下降低于32三维潜在空间，因为更大的容量的模型。子图形中潜在空间的可视化(c)也意味着更混乱子图（d）明确地强调了ELI在重新排列潜伏期方面的效用。具体-很明显，注意3类潜伏期是如何混合的，与第2潜伏期现在很好地移动在洛杉矶-ELI的帐篷空间。这些结果强烈激励我们的方法的效用。通过使θT2更强，使用主-流增量学习方法，我们将im-进一步提高性能。我们在第二节中针对类增量学习和增量对象检测设置的4.1和SEC。4.2分别。4. 实验和结果我们进行了大量的实验，增量分类器和对象检测器来评估ELI。到达贝斯特在我们的知识中，我们是第一种方法论，在这两种设置下都可以工作，无需任何修改。协议：在这两个问题域中，我们研究类增量设置，其中一组类构成一个增量任务。对于分类器的类增量学习，我们实验了文献中存在的两个突出的协议：a）将类总数的一半作为第一个任务进行训练[20，31]，b）确保每个任务（包括第一个）具有相同数量的类[7，24，38，41]。for- mer测试了极端的类增量学习设置，其中在25个任务设置中，对于具有100个类的数据集，我们在每个阶段仅增量添加两个它具有学习强大的初始分类器的优势，因为它已经访问了任务1中的一半数据集。后一种设置在任务之间具有统一的类分布。这两种设置都测试了增量分类器的不同合理动态。对于增量对象检测，类似于现有的作品[22，37，46]，我们遵循两个任务设置，其中第二个任务包含10，5或单个增量类。数据集和评估：在现有的工作[7，20，22，31，41，46]之后，我们使用CIFAR-100 [25]，ImageNet子集[41]，ImageNet 1 k[9]和Pascal VOC [12]数据集。CIFAR-100 [25]包含50 k个训练图像，对应于100个类，每个类的空间维度为32三十二ImageNet-subset[41]包含从ImageNet中随机选择的100个类数据集。我们还使用完整的ImageNet 2012数据集[9]进行了实验，其中包含1000个类。与CIFAR-100相比，每个类别有超过1300个图像，224 224大小在ImageNet-子集和ImageNet-1 k中。PascalVOC 2007 [12]包含9963个图像，其中每个对象实例都标有其类标签和位置在图像中在Pas-calVOC中注释了来自20个类的数据跨任务的平均准确度[31，41]和平均平均精度（mAP）[12]分别用作增量分类和检测的评估指标实施细节：根据标准实践[31，41]，我们使用ResNet-18 [16]进行CIFAR-100实验，使用ResNet-32 [16]进行ImageNet实验。我们使用128的批量大小，训练160个epoch。我们从初始学习率0开始。1，衰减为0。80、120历元后1EBM是一个三层神经网络，前两层有64个神经元，7457表1.该表显示了当我们的潜在对齐器ELI被添加到三个突出的和性能最好的增量方法时的类增量学习结果[20，31，41]。ELI能够为这些方法提供额外的潜在空间正则化，在所有设置中不断绿色下标突出显示了相对改善。参见第二节。4.1进行详细分析。设置→所有班级的一半都用来学习第一个任务每个任务数据集→CIFAR-100ImageNet子集CIFAR-100ImageNet子集方法地点5个任务10个任务25个任务5个任务10个任务25个任务5个任务10个任务20项任务5个任务10个任务20项任务[41]第四十一话五十六97 53。两万八98五十八24516490261岁5960. 0557. 81七十一四六六五。256021iCaRL +ELI63岁68 + 6.71 58. 五十二加五点六四五十四. 00+ 3.0268岁六十四+十点七三六十一. 四十八+9.88五十六. 十一加七点零八70.13+ 8.54 67.81+ 7.75 63.06+ 5.2578.51+ 7.04 71.66+ 6.41 66.77+ 6.56[20]第二十话CVPR19六十四37 62. 五十七五十九91七十一3868. 9964. 6562.0158. 9554. 274岁22679762. 2LUCIR +ELI66岁。第六十三章. 50 + 0.93 60.30+ 0.3974.58 + 3.21七十一62+ 2.61 66岁。35+ 1.71六十四55 + 2.49 59. 五十一+零点五六五十四. 98+ 0.7875. 70 .第70章二十八加二点三一六十五. 51+ 3.31AANet [31]CVPR 21 67岁5366. 2564. 28七十8470.3690763岁8960. 9456. 88六十五86 54. 1344. 96AANet +ELI68.78+ 1.25 66.62+ 0.37 64.72+ 0.44七十三。54 + 2.73 71.82+ 1.5270.32+ 1.2566岁。三十六加二点四十七六十一. 72 + 0.78 57. 65+ 0.7767岁43 + 1.57 55. 四十七+1.34四十六. 93+ 1.97图4.在这里，我们绘制了ImageNet 1k数据集上学习每个增量任务后的平均准确率。ELI能够在5个任务、10个任务和25个任务设置上持续改进iCaRL [41]、LUCIR [20]和AANet [31]。平均来看，8。17%，3. 05%，2。比三种基本方法提高了53%。（彩色效果最佳）最后一层的角神经元。传递到基础网络的最终softmax分类器的特征用于学习EBM。它被训练了1500次迭代，小批量大小为128。学习率设置为0。0001我们使用30次langevin迭代从EBM中采样。我们发现保持EBM模型的指数移动平均是有效的。三种著名的类增量方法（iCaRL [41]、LUCIR [20]和AANet [31]）的实现遵循AANet [31]作者的官方代码，并在MIT许可下发布。他们每个类使用20个图像的样本存储。请注意，我们的潜在对齐器不使用样本。iCaRL推断被修改为使用完全连接的层以下卡斯特罗等人。[7]的文件。所有结果均为三次运行的平均值。我们使用增量版本的Faster R-CNN [42]进行对象检测实验，遵循iOD [22]。使用来自RoI Head的2048维倒数第二个特征向量来学习EBM。4.1. 增量分类结果我们用我们提出的潜在对齐器增强了三种流行的类增量学习方法： iCaRL [41] ， LUCIR [20] 和 AANet[31]。表1展示了CIFAR-100 [25]和ImageNet子集[41]数据集的结果。如前所述，我们在第一个任务中学习了一半的类的设置上进行实验，当所有任务都有相同数量的类时。在前者中，我们在50个初始类上训练模型后，分别将10个、5个和2个类分组，分别创建5个、10个和25个学习任务。在第二个设置中，我们将20个、10个和5个类分别分组，以创建5个、10个和20个增量任务。我们看到所有这些设置的一致改进，我们将ELI添加到相应的基础方法中。在这两种情况下，改善更明显，数据集。LUCIR [20]和AANet [31]使用显式潜在空间正则化方法。ELI能够进一步改进它们像iCaRL[41]这样更简单的方法从ELI提供的隐式正则化中受益更多（这在SEC中进一步探讨了这一问题5.1）。图4、我们把在ImageNet 1k上学习5个任务、10个任务和25个任务设置中的我们看到了类似的趋势，但在这个更难的数据集上有了更大的改进。当添加到iCaRL [41]，LUCIR[20]和AANet [31]时，ELI提供8. 17%，3. 05%，2。平均改善53%ImageNet 1k实验中的年龄。当我们考虑在每个增量任务中添加相同数量的类时，iCaRL [41]提供的简单logit蒸馏以及我们提出的潜在对齐器显著优于复杂方法。这是因为在第一个任务中一半的类发生的特征学习是良好理解LUCIR [20]和AANet [31]等方法的主要先决条件7458表2.增量对象检测在Pascal VOC 2007数据集[12]的两个任务设置中进行评估。我们考虑将10个、5个和一个类（用颜色突出显示）添加到在其余类上训练的检测器中。当添加到最先进的增量目标检测器iOD [22]时，ELI提供了5的竞争性改进。在10+10、15+ 5和19+ 1设置中分别为4%、7%和3%mAP10 + 10设置Aero周期鸟船瓶总线车猫椅子牛表狗马自行车人植物羊沙发火车电视地图所有2079.483.373.259.462.681.786.68356.481.671.98385.481.582.749.474.475.179.673.675.2前1078.678.67254.563.981.58778.255.384.4----------73.4标准培训35.79.116.67.39.118.29.126.49.16.157.657.172.667.573.933.553.461.166.55737.3Shmelkov等人[46个]69.970.469.454.34868.778.968.445.558.159.772.773.573.266.329.563.461.669.362.263.1[37]第三十七话72.875.771.260.561.770.483.376.653.172.336.770.966.867.666.124.763.148.157.143.662.2ORE [21]63.570.958.942.934.176.280.776.334.166.156.170.480.272.381.842.771.668.17767.764.6iOD [22]7674.667.555.957.675.185.47743.770.860.166.47672.674.639.76460.268.560.566.3iOD +ELI78.581.673.865.563.280.287.782.552.481.255.573.180.576.580.442.268.86672.670.871.715 + 5设置Aero周期鸟船瓶总线车猫椅子牛表狗马自行车人植物羊沙发火车电视地图所有2079.483.373.259.462.681.786.68356.481.671.98385.481.582.749.474.475.179.673.675.2前1578.182.674.261.863.980.48781.557.780.473.180.885.881.683.9-----53.2标准培训12.70.69.19.1308.59.1039.103.32.39.137.651.257.851.559.816.8Shmelkov等人[46个]70.579.268.859.153.275.479.478.846.659.45975.871.878.669.633.761.563.171.762.265.9[37]第三十七话66.578.171.854.661.468.482.682.752.174.363.178.680.578.480.436.761.759.367.959.167.9ORE [21]75.48167.151.955.777.285.681.746.176.255.476.786.278.582.132.863.654.777.764.668.5iOD [22]78.479.766.954.856.277.784.679.147.77561.874.781.677.580.237.85854.67356.167.8iOD +ELI80.185.873.668.866.385.287.584.159.981.274.683.785.377.980.345.263.466.277.669.574.819 + 1设置Aero周期鸟船瓶总线车猫椅子牛表狗马自行车人植物羊沙发火车电视地图所有2079.483.373.259.462.681.786.68356.481.671.98385.481.582.749.474.475.179.673.675.2前1976.377.368.455.459.781.485.380.347.878.165.777.583.576.277.246.671.465.876.5-67.5标准培训16.69.19.19.19.18.335.39.1022.39.19.19.113.79.19.123.19.115.450.714.3Shmelkov等人[46个]69.479.369.557.445.478.479.180.545.776.364.877.280.877.570.142.367.564.476.7 六十二点七68.3[37]第三十七话64.274.773.255.553.770.882.982.651.679.758.778.881.875.377.443.173.861.769.8 61.168.6ORE [21]67.376.86048.458.881.186.575.841.579.654.672.885.981.782.444.875.868.275.7 60.168.9iOD [22]78.277.569.4555678.484.279.246.67963.278.582.779.179.944.173.266.376.4 57.670.2iOD +ELI84.779.273.760.161.882.885.482.951.382.764.582.382.975.978.750.773.974.776.7 五十九点二73.2图5.在增量对象检测的这些定性结果中，植物、绵羊、沙发、火车和tvmonitor的实例被引入到在其余对象上训练的检测器我们检测旧类和新类的实例。更多结果在补充材料中4.2. 增量对象检测结果遵循增量对象检测的标准评估协议[22，46]，我们将Pascal VOC 2007 [12]中的类分为两个任务。这里考虑三种不同的任务组合。我们最初学习10、15或19类，然后引入10、5或1类作为第二对齐潜在表征以减少遗忘。这些结果还表明，ELI是一种有效的塞-和播放方法，以减少遗忘，跨分类和检测任务。图5显示了我们的定性结果。5. 讨论和分析任务，分别。表2显示了该实验的结果。每个部分的前两行给出了上限和学习第一个任务后的准确率。“标准训练”行显示了在新类实例上简单地微调模型时，接下来的三行标题为Shmelkovet al。[46]，更快的BHD [37]和ORE [21]显示了现有方法如何帮助解决灾难性遗忘。我们添加ELI到iOD [22]，当前最先进的方法，以将其mAP提高5。添加10、5、一个类分别，到一个检测器训练的其余部分。这种改善可归因于ELI的有效性5.1 ELI作为隐式正则化器：为了展示隐式正则化器的有效性，为了确保ELI的有效性，我们将来自我们的最佳执行方法的显式潜在正则化项（在图6745970.876.170.770.371.872.969.369.170.368.971.5777573 716967 6563 5任务10任务25任务AANet AANet + ELIAANet-ER AANet - ER + ELI图6. ELI作为ImageNet子集上的隐式正则化器。73.57460表3.我们改变Langevin步骤L步骤的数量，需要从EBM中采样潜伏期甚至在几步之内就对齐了。步骤数5个任务10项任务25个任务表4.在算法中，我们改变了训练EBM的迭代次数。1.一、EBM收敛在1k次迭代内，此后有适度的改善。迭代次数5个任务10项任务25个任务表5.我们在这里改变EBM的架构。i和o表示输入层和输出层，而中间的值表示每层中神经元的数量。架构5个任务10项任务25个任务20 63.63 58.90 53.761000 63.60 58.88 53.66i - 64 - 64-o30 63.68 58.921500 63.68 58.92i - 64 - 64 - 64-o60 63.73 59.01 54.07200063.80 58.97 54.03i - 256 - 256-o 63.5358.68 54.1690 63.79 58.97 54.04300063.67 58.85 54.06i - 512 - 512-o 63.6658.66美元AANet [31]在ImageNet子集[41]实验上。当ER被移除时，基本方法（绿色条）。ELI能够将这种模型的性能提高5. 41%，3.58%和2。百分之五十七分别在5、10和25个任务实验上（紫色条）。我们注意到，当我们与使用显式正则化将ELI添加到AANet相比时，增益更显著，这证明了隐式正则化器的有效性5.2对齐最终层Logits：ELI对齐来自特征提取器z=FθTt（x）的潜在表示。另一种方法是将最终的logitsFTt（FTt（x））。我们重新评估增量CIFAR-100，来自Algo的EBM样本。二、ELI能够以非常少的步骤对准潜伏期，因为能量歧管是善于引导潜在表征的排列。所需迭代次数：使用Algo训练EBM时。1，我们改变所需的迭代次数，并在Tab中报告精度4.第一章在大约1000次迭代时，EBM收敛。进一步增加迭代次数不会导致显著的改进。架构：我们在Tab中尝试了不同容量的EBM模型五、我们发现使用较小的架构或较大的架构并没有帮助。我们认为这是一个可取的特点，因为我们学习的en-它是潜在空间而不是数据空间的能量流形。在这种情况

下载后可阅读完整内容，剩余1页未读，立即下载