学习和记忆超长多领域任务序列中的灾难性遗忘问题及其解决方案

191 浏览量更新于2023-10-25 收藏 12.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

79820学习和记忆超长多领域任务序列0王振义1，沈力2，段铁航3，詹东林4，方乐1，高明晨101 纽约州立大学布法罗分校，美国 2 JD探索学院，中国北京 3 Meta，美国西雅图 4哥伦比亚大学，美国纽约0{zhenyiwa, lefang, mgao8}@buffalo.com, {mathshenli, tiehang.duan}@gmail.com, dz2478@columbia.edu0摘要0灾难性遗忘（CF）经常在学习非稳态数据分布时发生。当在一系列领域（数据集）上进行元学习时，CF问题在顺序域元学习（SDML）中更具挑战性且几乎未被探索。在这项工作中，我们提出了一种简单而有效的学习方法，即元优化器，以减轻SDML中的CF问题。我们首先将所提出的元优化器应用于SDML的简化设置，即领域感知元学习，在学习过程中已知领域标签和边界。我们提出动态冻结网络并将其与所提出的元优化器结合起来，通过考虑领域特性进行元训练。此外，我们将元优化器扩展到SDML的更一般设置，即领域不可知元学习，在学习过程中未知领域标签和边界。我们提出了一种领域转移检测技术，以捕捉潜在的领域变化，并将其与元优化器结合起来在这个设置中工作。所提出的元优化器是通用的，并且可以很容易地与几种现有的元学习算法集成。最后，我们构建了一个具有10个异构领域的具有100K个任务的超长任务序列的具有挑战性和大规模基准。我们对两种设置在提出的基准上进行了大量实验，并展示了我们提出的方法的有效性，通过大幅超越当前强基线。01. 引言0灾难性遗忘（CF）[47]经常在学习数据分布转移时发生。在更具挑战性的问题设置中，即在一系列领域上进行元学习时，CF问题往往被忽视，当模型在大量任务上进行元学习并旨在推广到来自先前领域的未见任务时，领域转移会顺序发生。这对于现实世界的应用有重要影响，例如：0•机器人在许多视觉识别任务上进行学习，其中每个任务可能只包含少量带标签的图像数据。它可能按顺序经历许多环境，如图1所示。当适应新环境时，之前学习的技能可能很容易被遗忘。0• 对于个性化对话/推荐系统[44，050],其中学习每个用户的个人模型被视为一个独立的任务，用户群体可能随时间而变化，例如，系统首先部署给加拿大用户，然后公司将市场扩展到欧洲。在了解欧洲用户的同时，系统可能很快忘记之前加拿大用户的习惯。我们将上述问题设置概括并形式化为顺序域元学习（SDML），其中模型需要根据只有少量训练示例和不断变化的底层环境/领域做出适当的决策。最近的研究表明，当将元学习模型转移到新的上下文中时，往往会发生灾难性遗忘[55,79]。我们期望对新环境/领域的调整不应该抹去旧环境的学习知识。另一方面，大多数现有的持续学习作品[58,61]只能减轻短序列（通常少于50个）任务的遗忘。这些持续学习方法无法直接应用于包含（至少）100K个任务的超长任务序列的SDML，这是我们的主要关注点。我们提出学习元优化器来减轻学习过程中的灾难性遗忘问题。直观地说，对于以前的领域来说，更重要的参数应该更新得更慢，以避免遗忘，而不太重要的参数可以更快地更新，以便有效学习当前的领域。为了实现这个目标，我们在内存缓冲区中存储少量任务，并在每次迭代中计算与可学习学习率相关的内存任务的元损失的梯度。0图1. SDML学习场景示意图79830梯度对应于当前任务与先前内存任务之间的灾难性干扰程度。元优化器根据这个梯度动态调整学习率。接下来，我们将所提出的优化器应用于SDML的简化设置，即领域感知元学习，在学习过程中已知领域标签和边界。为了在SDML中融入异构领域性质的事实（不同领域不共享类别），我们提出在元训练期间动态冻结网络并将其与所提出的元优化器集成。此外，我们将元优化器扩展到SDML的更一般设置，即领域不可知的元学习，在学习过程中未知领域标签和边界。我们提出了一种领域转移检测技术来捕捉潜在的领域变化，并将其与元优化器结合起来。大多数现有的元学习基准是为静态设置而设计的，不适合评估SDML中的CF问题。为了评估所提出的方法，我们构建了一个大规模且具有挑战性的数据集，其中包含SDML设置的10个异构领域的任务序列。我们将所提出的方法与代表性的基于度量和基于梯度的元学习方法集成。领域感知和领域不可知的元学习的结果表明，我们的方法明显优于相关的强基线。我们的贡献可以总结如下：•据我们所知，我们是首次在至少100K个任务的超长任务序列上解决CF问题，并且存在顺序领域转移。0•我们提出了一种元优化器来解决SDML的灾难性遗忘问题，这是比现有的连续学习方法更具挑战性的问题。0•我们将所提出的元优化器应用于SDML的领域感知和领域不可知的元学习设置。所提出的方法具有多功能性，可以轻松集成到基于度量和基于梯度的元学习方法中。0•为了验证所提出方法的有效性，我们构建了一个具有10个异构领域的具有挑战性和大规模的数据集。全面的实验表明，我们的方法明显优于相关的强基线。02. 相关工作02.1. 连续学习0连续学习（CL）[3, 9, 14, 33, 43, 47, 58,78]专注于在不忘记之前任务的情况下学习一系列任务。CL仅在少量任务上进行顺序学习（通常少于50个任务），旨在对来自所有先前任务的测试数据进行泛化。连续少样本学习（CFSL）[8]是一个应用0CL到少样本学习的扩展通常在单个领域内进行，并且专注于在当前任务上学习时记住先前学习的少样本任务。[8]的目的是在CFSL条件下评估现有的元学习方法。由于大量动态形成的少样本任务（超过100K个任务）存在领域转移，因此SDML与CL和CFSL显著不同。因此，在学习过程中记住如此大量的任务对于CL或CFSL模型来说是不可行的。此外，CL还可以应用于一系列数据集（领域）[63]，但其目标是对来自所有先前（少量）任务的测试数据进行泛化。相比之下，在SDML中，目标是通过在具有显著顺序领域转移的大量任务上进行训练，从而对来自所有先前领域的未见任务进行泛化，这使得我们的SDML与现有工作有所不同。任务/领域/类别增量学习[69]是任务感知CL的三种常见场景。随后，CL的更一般情况，即无任务CL[4, 27,52]，侧重于在训练和测试期间都不知道任务身份和边界的情况。这些学习场景侧重于任务级数据分布的变化，并且每个类别都有大量数据。它们旨在对已见任务进行泛化。相比之下，SDML侧重于：1）任务级数据转移；2）领域级任务分布转移；3）少样本学习挑战。目标是对未见的测试任务进行泛化。连续领域自适应[42]是将连续学习应用于领域自适应的最新应用。与SDML相比，对其进行的差异讨论见附录G。02.2. 元学习0大多数现有的元学习工作[6, 19, 21, 29, 38,0[65, 70, 75, 81]关注稳态任务分布。相反，SDML关注具有顺序域转换的非稳态任务分布。直接将这些元学习方法应用于SDML将导致在元学习过程中显著遗忘先前的知识，而没有额外的机制。在线元学习（OML）[22]假设任务按顺序到达，并旨在在未来任务上实现更好的性能。SDML与OML根本不同，而且比OML更具挑战性，因为OML在元学习过程中忽略了CF问题，通过在其小规模问题设置中将所有先前任务的数据存储在内存中。然而，我们在我们的大规模设置中考虑了一个更实际的设置，通过在内存中存储少量任务。Jerfel等人[30]扩展了MAML，并使用Dirichlet过程混合将相似的训练任务分组在一起，但无法扩展到我们的大规模设置。MOCA[26]专注于在线学习中的元学习，即利用更多先前数据的上下文来改进未来的顺序预测；它们与SDML完全不同。CAVIA[82]使用单独的上下文向量进行快速任务适应，而SDML专注于At the end of meta training, the performance is evaluatedon many unseen tasks sampled from P(D1), · · · , P(DJ),respectively.To this end, our framework allows allocating a smallmemory buffer M to store a small number of training tasksfrom previous domains. We maintain and update the mem-ory with reservoir sampling (RS) [71], which assigns equalprobability for each incoming task of being stored in M. RSworks by maintaining a reservoir of size V to maintain amaximal number of V tasks in memory. More details formaintaining memory buffer is provided in Appendix B.4. Learning to Mitigate Forgetting in SDMLTo address the CF issue in SDML, we present the pro-posed meta optimizer in section 4.1. In section 4.2, weapply the meta optimizer to the simplified setting of SDML,domain-aware meta-learning.In section 4.3, we applythe meta optimizer to the more general setting of SDML,domain-agnostic meta-learning.4.1. Learning meta optimizer for SDMLStandard meta-learning methods, such as Prototypi-cal Networks (PNet) [65] and MAML [21], are mostlywidely studied in meta-learning literature. Given the task-specific data Tt = {S, Q}, the task-specific loss functionis Lθ(Tt) = P(Q|θ, S). They update the meta parametersθ by learning on current task Tt, which we denote as theupdate θ′ = θ − λ ∂Lθ(Tt)∂θ, where λ are the learning rates.In standard meta training on a single domain (dataset)in a stationary setting, the learning rates λ for the metaparameters are usually set to be constant and equal for allparameters during the training process. However, this wouldincur significant forgetting of previous knowledge if meta-learning on a sequence of domains in a non-stationary set-ting. Therefore, we propose to adaptively and separatelyadjust the learning rates for each meta parameter to balancebetween remembering previous domains and learning thecurrent domain. Intuitively, more important parameters forprevious domains should be updated slower to avoid forget-ting, and less important parameters could be updated fasterfor efficient learning of the current domain. We store a smallnumber of tasks from previous domains in memory M tometa-learn the importance, which equals the degree of inter-ference between current tasks and memory tasks M. We firstdefine the concepts of transfer and catastrophic interference.We propose a versatile framework that does not dependon which specific meta-learning algorithm to be used. Itcan be integrated into these standard meta-learning methodsto mitigate the CF problem by dynamically adjusting thelearning rates λ for the meta parameters. ∇iθ = ∂Lθ(Ti)∂θdenotes the gradient of Lθ(Ti) with respect to meta parame-ters. ∇iθ ·∇jθ = ∂Lθ(Ti)∂θ· ∂Lθ(Tj)∂θis the dot product betweena pair of task gradients. For any pair of tasks Ti and Tj,79840领域级任务分布记忆和适应。连续元学习[1, 13, 54,74]是将元学习技术应用于连续学习的方法。它们要么依赖于上下文切换[13]，固定大小的状态向量[1]，或者通过RNN对最近的上下文进行编码[54]。这些方法在我们非常长的任务序列中无法充分解决CF问题。增量少样本学习（IFSL）[24,55,79]旨在在单个域内学习新类别的同时保留对旧类别的知识，并假设可以无限访问基础类别。SDML与IFSL有很大的区别。附录G中提供了详细讨论。02.3. 学习率自适应0动态更新元学习中的学习率并不是新鲜事。Meta-SGD[41]为MAML学习每个参数的学习率，以加速训练过程。Lee和Choi[39]以及flennerhag等人[23]提出了学习元学习的梯度更新规则。与Meta-SGD[41]类似，Gupta等人[25]将元学习应用于任务参数的适应以减轻CL中的遗忘。与这些工作不同的是，我们的工作是在域级元参数上操作，而不是在任务参数上操作。03. 问题设置0对于SDML（图1），我们首先提供一些定义。0定义1. 非稳态异构域。一系列域 D 1 ， D 2 ，...， D J顺序到达。每个域 D i 被表示为带有 I i个标记数据点的标记数据集 { ( x k , y k ) } I i k =1，其中 xk 是数据点，y k 是标签。所有域不共享类标签。D 1 ， D 2，...， D J 被称为非稳态异构域。0定义2.非稳态任务序列。从时间1到N1，我们从任务分布P(D1)中在每个时间t随机采样小批量任务Tt；从时间N1+1到N2，我们从任务分布P(D2)中在每个时间t随机采样小批量任务Tt；从时间Ni−1+1到Ni，我们从任务分布P(Di)中在每个时间t随机采样小批量任务Tt，其中P(Di)是域Di中大量任务的集合。这个学习过程一直持续到域DJ。时间步{Ni, i = 1, 2, ..., J -1}是域转换发生的时间。T1, ..., Tt, ...,TNJ被称为非稳态任务序列。0代理人在每个域内停留很长时间，即 | N i − N i − 1 |是一个很大的数，以学习一个超长的任务序列。每个任务 T被分为支持集 S（训练数据，包括 K 个数据示例，{ ( x k , yk ) } K k =1）和查询集Q（测试数据）。我们的目标是在每个到达的域中在线元学习一个模型 f θ，同时不忘记所有先前的域，其中 θ表示网络参数。catastrophic interference occurs between tasks Ti and Tj if∇iθ · ∇jθ < 0; transfer occurs between tasks Ti and Tj if∇iθ · ∇jθ > 0. The concepts of catastrophic interferenceand transfer are used for explaining why the proposed metaoptimizer can mitigate the CF issue in SDML. Our idea formitigating the CF in SDML is to use memory task loss as sig-nal guidance for learning rate adjustment. The objective fortraining the model to avoid catastrophic forgetting becomesminθ [F(θ) =ET ∈M Lθ′(T )], where θ′ = θ − λ∂Lθ(Tt)∂θ,where θ′ are the updated parameters by standard meta train-ing on tasks Tt with gradient descent and λ are the learnablelearning rates. F(θ) is the meta loss which optimizes thegeneralization on memory tasks M. The derivative of F(θ)with respect to the learning rates λ (by chain rule) is(3)79850∂F0∂ λ = ∂ F0∂ θ' ∂ θ'0∂ λ = - ∂F（θ）0∂ θ' ∙ ∂ L θt）0∂ θ。（1）0根据上述对 λ 的估计梯度，更新学习率 λ 如下：0λ = λ - η ∂ F0∂ λ。（2）0算法 1 SDML 的元优化器。01: 需要：一系列小批量训练任务 {T 1，...，T N 1; ...; T N i+1，...，T N i +1; ...; T N J-1 +1，...，T N J}；其中 {N i，i =1，2，...，J-1} 是发生领域转移的时间步骤；初始化学习率 λ 0和模型参数 θ；η 是用于更新学习率的步长。02: 对于 t = 1 到 N J，通过在 T t 上进行元训练来更新参数 θ t：θ t +1 = θ t - λt ∂ L θ t（T t）04: λ t +1 = λ t - η ∂ F（θ t）05: 蓄水池抽样以更新任务内存 M ← M ∪ T t，如果决定存储任务 T t06: 结束循环0∂ θ' 是内存任务的元梯度，∂ L θ（T t）0∂ θ 是当前任务的梯度。换句话说，∂ F（θ）0∂ λ 反映当前任务与内存任务之间的灾难性干扰（或传输）。如果 ∂ F（θ）0∂ θ（点积为正，即发生传输），∂ F（θ）0然后，∂ λ为负，学习率在等式（2）中增加；否则，发生灾难性干扰，学习率减小。等式（2）通过鼓励当前任务和先前内存任务之间的较少灾难性干扰来自适应地减轻灾难性遗忘。另一方面，我们的方法可以解释为通过添加额外的梯度点积正则化来近似优化以下目标：0最小化θ0� L θ（T t）+ E T j �M L θ（T j）- ρ E T j �M（� tθ ∙ � j θ）�0其中 j 是内存缓冲区 M 中的任务索引，ρ权衡点积项的相对重要性。自适应学习率优化第三个正则化项。最大化该项鼓励参数更新朝着当前任务梯度和内存任务梯度之间的任务梯度方向对齐的方向。附录 D中提供了更多关于这种解释的讨论。下面，我们将所提出的元优化器应用于图 2(a) 和 2(b)中所示的网络的领域感知和领域不可知设置。我们假设所有领域都共享用于特征提取的相同的基于 CNN的结构，同时模型还具有在领域共享层之上扩展一个小子网的灵活性，用作新到达的领域的特定于领域的单元。在训练领域 D i 时，仅使用领域共享层和子网 i进行元训练；其他子网 1，2，...，i-1固定以避免遗忘先前的领域知识。用于减轻 SDML 中的 CF的元优化器在算法 1 中描述，测试算法在附录 F中提供。备注：所提出的动态架构与现有方法（例如 PNN[60]、DEN [78]、PathNet [20] 和 PDEN[40]）有一些相似之处。PNN为每个领域复制网络，并使参数数量成二次增长。DEN在神经元级别扩展网络。PathNet需要预定义的一组模块来学习路径。PDEN使用与我们类似的网络，但旨在改进领域泛化。相比之下，我们的方法在不同领域之间共享和固定一个共同的主干，从而显著减少了参数数量，并且不需要预定义的模块。梯度点积信息已应用于各种机器学习问题，包括领域泛化[46,64]、多任务学习[80]和持续学习[58]。这些方法使用梯度乘积/投影来调整多任务和领域泛化的参数。相比之下，我们的方法使用任务梯度而不是数据梯度。我们使用梯度乘积来调整学习率以减轻 SDML 中的遗忘。04.2. 面向领域感知设置的元优化器0在本节中，我们考虑了SDML的简化设置，即领域感知元学习，其中每个任务关联的领域标识是已知的。在元训练期间，我们还知道领域转换发生的时间步骤{Ni, i = 1, 2, ..., J -1}。虽然直接应用所提出的元优化器可以减轻遗忘，但它在很大程度上忽视了领域的难度，在元训练期间不同领域的难度是不同的。例如，在SDML中，假设一个复杂的领域先出现，然后是一个简单且非常不相似的领域；在第二个领域上进行更少的迭代就足以达到接近最佳性能。问题在于在第二个领域上的持续训练可能逐渐丢失对先前领域的知识。79860（a）领域感知设置模型架构0（b）通用领域设置模型架构0图2. 模型架构概述0由于它们在图2(a)中共享相同的网络结构，因此我们可以将其应用于不同的领域。然而，如果我们在适当的时间点冻结共享部分，可以大大减轻对先前领域的知识遗忘。当在长时间的领域序列上进行训练时，这种机制尤其有益。我们在元优化器之上提出了一种在线自适应冻结机制，以确保在当前领域上获得良好的性能并防止对先前领域的遗忘。我们通过最小化θ KL(q(θ)|P(θ|{Tt,M}))来近似真实的后验分布P(θ|{Tt,M})，并用近似后验分布q(θ)来估计变分下界（ELBO）：0log P({Tt, M}) ≥ -ETj∈M Eq(θ)Lθ(Tj) - Eq(θ)Lθ(Tt) + H(q(θ))0= ELBO(θ)，0其中H(q(θ)) =-Eq(θ)logq(θ)是q(θ)的香农熵。在右侧，第一项对应于记忆任务的似然（衡量对先前领域的遗忘），第二项对应于当前任务的似然，而H(q(θ))则衡量了q(θ)在当前领域上的收敛性和不确定性。H(q(θ))随着逐渐收敛而逐渐减小。它鼓励θ的后验具有更广泛的支持，并避免过度拟合当前领域。H(q(θ))通常没有闭合形式，我们简化地使用高斯均值场来近似。通过均值µ和标准差σ，高斯的熵为log(σ√02πe)。0因此，这个ELBO反映了在先前领域上遗忘和在当前领域上拟合之间的权衡。argmaxθELBO(θ)对应于合理的冻结点。与所提出的元优化器结合使用时，当ELBO在固定的迭代次数内不增加时，网络将被冻结。有趣的是，我们提出的方法不需要任何保留验证集，这对于我们的设置是可取的。我们在有限时间间隔内的在线ELBO计算方法在附录F中展示。04.3. 通用领域元优化器0在本节中，我们将所提出的元优化器扩展到更一般的SDML设置，即领域不可知的元学习，即在元训练期间不知道领域转换发生的时间步骤{Ni, i = 1, 2, ..., J -1}。领域感知设置相对较简单，因为我们知道新领域何时到来以及与每个任务相关联的领域标识。因此，我们知道何时在新到达的领域上添加小子网，如图2(a)所示。相比之下，在领域不可知的设置中，领域转换发生的时间完全不知道，因此何时扩展网络并添加子网是未知的。我们的想法是，如果我们给元优化器配备一个领域转换检测组件，并且检测到领域转换，将在领域共享层的顶部添加一个小子网，如图2(b)所示。这为网络提供了必要的灵活性，可以学习不同数量的领域，而不是提前固定网络。然而，由于（1）少样本任务的高度不稳定性；（2）不同领域之间的相似度变化不同，领域转换检测是一个相当具有挑战性的问题。因此，在我们的初步研究中，简单地设置损失值的阈值来检测领域转换效果不好。为了解决这个问题，我们构建了一个潜在空间，并启用贝叶斯在线变点检测（BOCPD）[2]在其中进行有效的领域转换检测。潜在空间。到达时间t的少样本任务Tt被转换为任务嵌入et =fθt(S)（也可以是fθt(Q)）。假设S包含K个数据示例{(xk,yk)}Kk=1，它们通过et =fθt({xk}Kk=1)进行嵌入。以减少不同少样本任务之间的方差，以减少不同少样本任务之间的方差，计算一系列移动平均嵌入Et，形式为Et = αet +(1-α)Et-1，其中常数α是平滑因子，权衡当前任务嵌入和过去移动平均的相对重要性。我们跟踪过去m步的Et-1，Et-2，...，Et-m，并利用它们形成距离度量向量dt = (d(et,Et-1), d(et, Et-2), ..., d(et,Et-m)))，其中编码了跨前几个任务的广义领域信息。每个元素d(et,Et-i)表示当前任务嵌入et到i步前的移动平均Et-i的欧氏距离。领域转换检测。然后我们使用构建的(4)dding et oft using fθ11:Lt = Et79870潜在空间dt用于检测领域转移，因为潜在空间捕捉到领域转移发生时的突变。我们将时间t处的潜在领域标签表示为Zt（Z0=0），将从t=1到时间t的所有潜在空间向量表示为d1:t。BOCPD最初设计用于在线设置中检测数据流中的突变点。它估计了运行长度lt的后验分布，其中lt是自上次领域转移以来的时间步数。lt=0对应于领域转移发生的情况，lt=τ>0表示当前领域的继续，过去τ批次（步骤）的任务都属于当前领域。我们的目标是估计给定d1:t的lt的后验概率，即P(lt|d1:t)，可以通过使用运行长度后验的递归关系高效计算：0P(lt|d1:t)∝0lt−1P(lt|lt−1)先验0P(dt|lt−1,d1:t−1)先验0P(lt−1,d1:t−1).0基础预测模型（UPM）被建模为指数族。变点先验定义为：0P(lt|lt−1)=U(lt−1+1),lt=01−U(lt−1+1),lt=lt−1+10其中第一种情况是领域转移发生的概率，第二种情况对应于领域转移不发生的概率，即当前领域继续。U(∙)是常数函数。将定义的先验和UPM代入方程（4），从P(lt|d1:t)推断出lt。有两种情况：（1）如果lt=0，领域转移发生在时间t，将一个小的子网络附加到领域共享层；更新潜在领域标签为Zt+1=Zt+1。（2）lt=lt−1+1，没有领域转移；潜在领域标签和网络保持不变。我们还将一个领域中所有任务嵌入的平均值存储为Eq，用于元测试期间的领域身份推断。元测试。在元测试期间，每个测试任务的领域身份是未知的，因此我们需要推断领域身份以选择用于测试的子网络。对于一个未见过的任务T，领域推断通过以下步骤进行：（1）首先将任务数据T馈送到领域共享层，然后通过每个子网络1,2,...,Z进行馈送，得到任务嵌入eq,q=1,2,...,Z，如图2(b)所示；（2）用qo=argminq∈{1,...,Z}d(eq,Eq)推断领域身份；（3）使用子网络qo对T进行性能评估。元训练算法如算法2所示。0附录F提供了测试算法。对于算法2，第3-4行是用于减轻CF的提出的元优化器，第5-15行用于检测任务流中的领域转移。具体而言，第5-7行用于计算潜在空间dt，第8-9行检测潜在空间中的领域转移，第10-14行用于更新潜在领域标签并相应地扩展子网络。0算法2 无关领域的元训练。01：要求：一系列小批量训练任务{T1,...,TN1;...;TNi+1,...,TNi+1;...;TJ−1+1,...,TNJ};领域转移发生的时间步{Ni,i=1,2,...,J−1}未知；初始学习率λ；移动窗口大小m；潜在领域标签初始化为Z0=0；初始化移动平均E0=0；η是更新学习率的步长；移动平均权重α；内存缓冲区M={}02：对于t=1到NJ循环执行03：任务Tt到达，θt+1=θt−λt∂Lθt(Tt)04：λt+1=λt−η∂F(θt)06: 计算 e t 的移动平均值，即 E t = α e t +(1 − α ) E t − 107: 计算 d t08: 通过公式（4）计算 P ( l t | d 1: t )010: 如果 l c = 0 则012: Z t +1 = Z t + 1013: 向领域共享部分添加新的小子网014: 结束如果015: 更新UPM的参数016: 使用Reservoir Sampling更新任务存储器M ← M ∪ Tj，如果决定存储任务017: 结束循环05. 实验0在本节中，我们通过将提出的元优化器应用于解决SDML中的CF问题，评估了其有效性，包括领域感知和领域不可知的设置。我们的方法是通用的，可以与现有的元学习方法无缝集成，以减轻CF问题。为了说明，我们评估了元优化器在当前最广泛使用的元学习模型（包括ANIL[51]和PrototypicalNetwork（PNet）[65]）上。前者是MAML的简化版本。下面，我们构建了一个新的基准来模拟SDML中的领域转移。构建包含100K个任务的大规模基准。我们构建了一个大规模基准，并收集了10个具有不同相似度和难度程度的数据集，其中默认的领域到达顺序为Quickdraw[31]，AIRCRAFT[45]，CUB[77]，Miniimagenet[70]，Omniglot[35]，Plantae[28]，Electronic fromLogo-2K+[73]，CIFARFS[10]，Fungi[62]，NecessitiesfromLogo-2K+[73]。我们还通过改变10个数据集的领域顺序进行了详细分析，结果在附录C中显示。每个数据集被划分为元训练、元验证和元测试类子集。每个数据集的子集是不相交的，即在元训练期间未见过元测试类。有关数据集和划分的更多细节，请参见附录A。非稳态剧集的构建在第3节中描述，元79880训练集从每个数据集的元训练类中采样训练剧集。元测试剧集从元测试类中采样，形成未见过的测试任务。我们从每个数据集中随机采样10K个任务，总共有100K个训练任务。我们可以从每个数据集中采样更多的任务，例如20K个任务，因此在每个数据集上进行更多的训练迭代；相比于每个数据集上的10K个任务，SDML对于每个数据集上的20K个任务更具挑战性，遗忘更多但训练时间更长。元学习模型需要在一个数据集序列上进行顺序元学习，而不会遗忘先前的知识。我们在5-way1-shot和5-shot学习上与不同的方法进行比较。有关更多实现细节，请参见附录B。数据集和代码可在https://github.com/joey-wang123/SDML.git上获得。05.1. 领域感知设置下的实验0CL基线。对于领域感知的情况，我们将上述元学习基准模型与相关的强CL基线相结合，包括弹性权重一致性（EWC）[33]，硬注意掩码（HAT）[63]，UCB[18]，A-GEM[14]，经验回放（ReservoirSampling（RS））[15]，元经验回放（MER）[58]，DEGCL[12]和GPM[61]。这些基线最初是为标准连续学习而开发的，其在小规模任务序列上运行。因此，直接将这些CL基线应用于SDML的大规模设置中的每个任务是不可行的。因此，我们将这些方法扩展到SDML，使这些CL基线在元参数上运行。为了方便起见，我们将这些组合方法称为PNet-和ANIL-，例如PNet-EWC，ANIL-EWC等。我们还包括（i）联合训练，在多领域元学习设置中同时学习所有领域，并提供性能上限；和（ii）顺序训练，按顺序在每个领域上进行训练，不使用任何外部存储器，并提供模型遗忘的程度。0图3. 5-way 5-shot元测试性能随不同数量的训练领域而变化。0评估指标。ACC（准确率）定义为从所有数据集的元测试类别中采样的许多未见过的episode的平均测试准确率。0表1. 基于领域感知的SDML结果（基于PNet的方法）05-way 5-shot 算法准确率 BWT0PNet-Sequential 46.83 ± 0.10 -22.95 ± 0.12 PNet-EWC49.88 ± 0.15 -14.51 ± 0.14 PNet-HAT 50.25 ± 0.26 -16.32± 0.28 PNet-UCB 49.06 ± 0.22 -15.83 ± 0.20 PNet-A-GEM49.21 ± 0.31 -20.01 ± 0.39 PNet-RS 49.56 ± 0.18 -18.87 ±0.19 PNet-MER 50.38 ± 0.24 -15.10 ± 0.24 PNet-DEGCL50.79 ± 0.37 -13.82 ± 0.45 PNet-GPM 49.73 ± 0.51 -14.91± 0.58 我们的方法 55.28 ± 0.19 -11.15 ± 0.270联合训练 66.32 ± 0.18 N/A0表2. 基于领域感知的SDML结果（基于ANIL的方法）05-way 5-shot 算法准确率 BWT0ANIL-Sequential 45.85 ± 0.46 -23.47 ± 0.43 ANIL-EWC45.45 ± 0.29 -21.99 ± 0.34 ANIL-HAT 40.58 ± 0.19 -28.89 ±0.24 ANIL-UCB 47.21 ± 0.28 -20.18 ± 0.22 ANIL-A-GEM48.08 ± 0.33 -20.30 ± 0.35 ANIL-RS 46.97 ± 0.27 -21.37 ±0.33 ANIL-MER 47.96 ± 0.52 -19.25 ± 0.50 ANIL-DEGCL47.91 ± 0.45 -18.57 ± 0.53 ANIL-GPM 47.73 ± 0.53 -19.76± 0.46 我们的方法 51.56 ± 0.21 -16.07 ± 0.200联合训练 68.16 ± 0.11 N/A0从所有数据集的元训练结束时评估的所有先前数据集上的正向迁移量或灾难性遗忘量。形式上，ACC和BWT定义为 ACC = 1 N � N i =1 a N,i 和 BWT = 10N − 1 � N − 1 i =1 a N,i − a i,i ，其中 a j,i定义为在数据集 j

下载后可阅读完整内容，剩余1页未读，立即下载