基于知识驱动Dirichlet过程的终身无限混合模型的理论分析和新方法提出

58 浏览量更新于2023-10-13 收藏 762KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10695XZZ →X基于知识驱动Dirichlet过程的终身无限混合模型Fei Ye和Adrian G. 鲍斯约克大学计算机科学系，York YO10 5GH，UKfy689@york.ac.uk，adrian. york.ac.uk摘要最近在终身学习方面的研究工作提出了一种混合模型，以适应越来越多的任务。所提出的方法在克服灾难性遗忘方面显示出有希望的结果。然而，这些成功模式背后的理论仍然没有得到很好的理解。在本文中，我们进行了理论分析，终身学习模型的风险界的基础上产生的数据的概率表示模型和相应的目标数据集之间的差异距离。在理论分析的启发下，我们提出了一种新的终身学习方法，即终身无限混合（LIMix）模型，该模型可以自动扩展其网络结构或选择适当的组件来调整其参数以学习新任务，同时保留其先前学习的信息。我们建议将知识通过Dirichlet过程，通过使用一个门，ING机制，计算以前学到的知识和存储在每个组件，和一组新的数据之间的依赖关系。此外，我们训练了一个紧凑的学生模型，它可以随着时间的推移积累跨域的代表，并作出快速推断。该代码可在https://github.com/dtuzi123/Lifelong-infinite-mixture-model上获得。1. 介绍终身学习（LLL）的目的是从特定数据库的相应概率表示中连续地学习一系列任务。终身学习模式的目标是在任何特定时间执行所有学习任务。现代深度学习方法已经在各种应用中取得了成功，包括图像翻译[24]，图像合成[29]和对象检测[37]，但所有这些模型在应用于先前任务时都面临着性能方面的重大挑战，同时一个接一个地学习多个任务。这种挑战是由灾难性遗忘引起的，当模型调整其参数以学习新任务时会发生这种情况[31]。源风险累积误差目标风险风险源风险加累积误差任务：任务1任务2任务3图1.在学习了两个额外的任务后，忘记某个数据集的信息的过程生成重放机制（GRM）生成的源分布在学习新任务时退化。生成重放机制（GRM）[41]是一种流行的终身学习方法，显示出克服灾难性遗忘的有希望的结果[1，33，39，48，56]。生成重放模型Gθ：旨在将低维随机变量转换为高维变量。 Gθ可以是这样的隐式生成模型作为生成对抗网络（GAN）[11]或显式潜在模型，如变分自动编码器（VAE）[16]。一旦学习了一个任务，Gθ就会生成数据，然后可以将这些数据与从给定数据库中采样的数据相结合，以形成用于训练的联合数据集。一些方法[1，41]通过仅使用GRM的一个拷贝G θ ′，仅为每个训练步骤生成一批样本来减少存储器大小。然而，基于GRM的方法的主要挑战是跨任务逐渐丢失知识，因为GRM模型在其自己的代上重复训练当GAN用作GRM时，另一个缺点是面临模式崩溃[44]。已经提出了两种解决方案来解决这个问题。Rao等人。 [34]使GRM具有网络扩展机制，其中模型的容量在移动数据分布时增加。另一种解决方案是使用扩展机制[20]或系综10696i=1MMM不不SS----结构[10，14，47]，其中每个专家都建立在共享模块的顶部，并且在训练期间这些方法通常保留了以前任务的最佳性能，但这些方法背后的理论分析还没有得到很好的理解。在本文中，我们提供了终身学习模式的理论分析，图中所示的想法的启发。1.一、当学习某个任务时，模型的遗忘行为受到不断增加的上限的影响（图中的实线1）对目标风险，终身学习。这主要是由于在学习附加任务时，目标和源分布的差异也逐渐增大，导致累积错误增加然而，由于训练模型的源分布是逐渐退化的，因此最优源风险不能保证低目标风险。受这些结果的启发，所提出的终身无限混合（LIMix）模型的主要思想是，如果给定任务与先前学习的知识相比足够新颖，则自动增长其网络架构，或者更新与给定任务具有小差异的适当组件Dirichlet过程（其在使用期望最大化算法来估计部件参数[8]时通常是计算昂贵的）可用于这些机制。为了减少计算成本，并作出准确的推断模型架构的选择和扩展，我们推断出一个指标变量为每个数据样本，通过使用门控机制的基础上的Dirichlet过程，计算之间的校正存储在每个组件和新的数据的知识。此外，通过积累知识，同时实现跨数据域的快速推理，使用轻量级模型是LLL中的一个有吸引力的特征，这在现有的终身混合或集成模型中没有出现[20，47]。我们的主要贡献是：我们通过评估累积风险来分析LLL过程中的遗忘行为，发现源和目标分布之间的分布距离是克服遗忘的关键。这是第一项研究，以提供理论见解时，使用混合模型的LLL。我们还扩展了理论分析，以解释一个模型的性能变化时，改变任务的顺序。• 我们提出了一个新的终身混合模型与theo-学习新任务时网络权重的变化这可以减轻灾难性的for-getting，但不能保证有效的性能上的先前学习的任务。动态架构方法将通过添加处理层或增加参数数量来增加网络的大小，以适应不断增长的任务数量[6，20，32，40，50，59]。Lee等[20]使用Dirichlet过程扩展其网络架构。然而，他们的方法没有提供任何理论上的性能保证，主要集中在生成和分类任务，仍然需要存储过去的样本。存储器重放方法将使用生成器[1，34，33，41，56，51，52，55，57]或存储器缓冲器[2，4，46]作为生成数据的重放机制，其在统计上与先前学习的知识一致。连续无监督表示学习（CURL）[34]是一种存储器重放方法，其训练潜在的生成模型，以便重放与先前学习的信息一致的数据CURL扩展了推理组件的架构这可能会导致灾难性的遗忘，当学习某些任务。除了这三个研究方向之外，还有其他方法，如[10，53，54]，其创建由共享模块和其他多个任务特定模块组成的网络架构共享模块不会过多地改变其参数，而特定任务模块仅在学习某些任务时更新其参数。这些方法可以保证先前学习的任务的完全性能，但是仍然需要在训练和测试阶段期间知道任务的数量和任务标签在本文中，我们假设我们的终身学习模型不知道要学习的任务的确切数量，而任务边界仅在训练阶段提供。虽然一些方法可以以无任务的方式使用[34]，但它们仍然限于从单个域学习一系列任务。3. 方法3.1. 问题设置终身人工学习系统旨在学习一系列任务，其中每次我们具有数据 xi 的 N 个配对实例的训练集DS={（xi，yi）}N，接着是训练集D S ={（xi， yi）}。LLL的理论保证。我们还探索在LLL下从混合物训练紧凑的Student模型。2.相关作品人工终身学习模型通过三种不同的方法进行训练：正则化、动态体系结构和存储器重放。正则化方法在损失函数中引入辅助项以惩罚被视为图像，并且它们的对应标签yi。让我们顺序地考虑用t个任务训练模型（分类器或生成器）t，每个任务由训练集和测试集DT定义。t的学习目标是对所有测试数据集D1，. . . .，D t在用集合D1，. . .，D t.当考虑非监督学习设置时，t的学习目标是学习没有任何标签的有意义的数据表示。··10697我N||XZ∈ X ∈ Z--我我V我q=1--我联系我们我−−in−1 +a我我i、j我c t=K+ 1|C t得双曲余切值.Z我−i1NKJ不我我我.Σ3.2. 终身无限混合（LIMix）模型在本节中，我们首先介绍用于无监督学习的深度学习网络的混合，然后扩展此一个监督设置的框架让我们定义一个深通过在πj上积分并允许K增加到无穷大来实现，[36]：p. c t= j |c t，an =n−i，j ，（4）在第t个任务学习K个分量的混合：Σp（x，z |Θ，πι，. . . ，π K）=j=1其中n-i，j是与第j个分量相关联的样本的数量，不包括xt，其中下标−i表示除i以外的所有索引。当量（4）代表概率-其中Θ=θ1，. . . ，θK为元件参数。 x和z是观测变量和潜在变量，其中和是输入空间和潜在空间。每个pθj（xz）被实现为高斯分布（gθj（z），Σ），其中Σ被视为对角矩阵，并且gθj表示将z映射到pθj（xz）的均值的确定性映射，其被实现为深度学习网络[53，54]。πj是第j个组分的混合参数。p（z）是先验，由正态分布实现训练此模型的一种方法是最大化可以影响将样本分配给新组件的先验概率和训练后的组件总数[36]。然而，该概率并不能正确地推断ct，因为它不能评估新样本xt与每个组件所学习的信息的一致性。将先前学习的知识与输入的数据进行比较对于选择最合适的混合组分以便更新或对于向混合物添加新组分是有用的。在本文中，我们没有将新样本与已经存储的样本进行比较[20，36]，而是将新样本与已经存储的样本进行比较[20，36]。建议将每个COM学到的知识p（x，z）的边际似然|Θ，Ω，π1，. . . ，π K）为：用于估计n−的分量i、j以考虑类似的-p.x1，. . . ，xMMK| Θ, π1,. . . ，πKΣ =先验知识和新样本之间的一致性：1YYNt∫NMΣπjpθj。n|zΣ p（z）dz，（二）n−i，j=（n−1）？ΣKe（1/Ki，j）e（1/Ki，q）+e（1/V）、（五）t=1n =1j =1q=1其中M和Ni是任务的总数，并且针对每个第i个任务考虑的数据样本的数量，i=1、. . . ，M. 这个优化问题在实践中是棘手的其中是控制混合物膨胀的常数。真实模型和Ki，j=. F. Xt|ct，θj，ωjΣ−F。x′|ct，θj，ωjΣ.（六）在学习了第t个任务之后。此外，通过最大化当量（2）当只学习一项任务时，混合模型忘记先前学习的信息当网络参数被更新为新值时，使用数据xtDt进行训练。为了解决这个样本总数，并且x′i，j是第i个样本gen。由分量j表示。我们在新样本x t的对数似然和生成样本x′i，j的对数似然之间评估Ki，j，由第j个分量估计。如果Ki，j非常小，则xt有很高的可能性要分配给问题，我们建议调整组件的数量根据任务的复杂性，在混合物中-学习。Dirichlet过程适合于选择和混合物的膨胀机制[35]。在本页中-第j个分量。的概率生成新的组件并分配指示符变量Ct至Xt然后被定义为：a+（n − 1）。exp（1/V）Σ具有多个任务的混合组件。我们引入一个-指示符变量ct用于每个xt，其指示哪个com-其中Z=ΣKe（1/Ki，q）+e（1/V）是（5）的分母。iti确定新任务的指示符。通过使用在-分量被分配给xi。估计混合权重π1，. . .π K可以通过指示变量的推断间接实现，[5]：K当学习最后给定的第t个任务时，为所有样本提供指示符变量是计算密集的。我们还知道，来自数据库的数据样本，表征某个任务，具有相似的特征。我们只考虑p. c1，. . . K，c|π1，. . . ，πKΣ=YπNj，（3）其中π1，π2，. . .，π KDir（a），a =a/1，，a/K且Dir（a）是一个对称Dirchlet分布，其参数向量为α。推断单个指示符ct可以是im-t。KX我Sπjpθj（x|z）p（z），（1）第i个数据样本与混合物的第j个分量相超参数向量a因为我们无法访问以前的数据样本具有关联训练集的任务{Di| i= 1，. . . ，t− 1}所以F（|ct，θj，ωj）是log-li k k k函数。n是我们通过定义一个概率来p=、（7相似性的度量，以便能够训练相同的n−1 +aj=1在每次任务切换之后，计算任务的单个指示符变量，而所有数据的指示符变量10698任务内的样本是相同的。假设我们已经完成了第（t1）个任务的学习，我们想推断第t个任务的指标。首先，我们随机选择一个10699我LL∫||ΣΣ·|我i=1--.Σ|NX → YYM Z → X1nGCtCtCtCPj =1，…K +1nGi=1我−iLstu= ESt，Xlogpθstu（x）+EPθlogpθstu（x）一组样本{x，t，. . . ，Xt}从第t个训练集中模型p ς（y |x，z），q ω（z |x，y），p θ（x |y，z）。类似的然后计算每个xt属于每个第j分量p（c t=j|c t，a），i= 1，. . .，n G，lihood函数F（·|ct，θct，ωct）为只有LG和优化的主要目标函数哪里i−it第t个分量是最大化LL.在行动实践上对于第t个任务：ct=argmax1ΣnGp.ct=j|ct，aΣ，（8）在同一个小批量中分别优化P和G。在SM提供的LMix-J中，我们提供了将LIMix应用于图像到图像翻译任务的框架，附录M提供了实验结果。一旦确定，在第t个任务学习时，我们仅更新所选分量的参数，而不是通过最大化样本对数似然对数来更新整个模型Θ。pθct（xz）p（z）dz是难处理的因为我们需要对z积分。类似于[16]中，我们引入了通过在第t个任务学习时使用变量分布qωct（zx）来最大化样本对数似然的下限：3.4.训练压缩的Student模型为了降低LIMix算法的复杂度，我们提出了通过一个联合网络来共享生成器和推理模型的大部分参数，其中参数每个分量的系数θi={θS，θ~i}和ωi={ωS，ω~i}由每个分量的共享部分{θ S，ω S}和单独部分{θ~i，ω~i}组成。混合组分logpθcr（x）≥Eqωct （z|x）Σlogpθct（x|z）Σ（九）是建立在共享组件之上的我们还训练了a无监督学习下的压缩Student模型-DKLqωct（z|x）||p（z），其中右侧是我们的对数似然函数F（ct ， θct ），ωct），称为证据下限（ELBO），用于训练模型和评估当量（六）、 pθct（x|z）和qωct（z|x）是解码和编码分布，由网络g θct：Z →仅，旨在将来自LIMix的知识嵌入到一个潜在空间中，该潜在空间支持跨多个域的插值。Student与组件共享相同的网络架构，并在第t个任务学习时使用知识蒸馏（KD）损失以及样本对数似然进行训练：X和fωct：X → Z，其中下标de-Σ的补充材料（SM），我们展示了如何LIMix可以推断跨域的选择过程。`Log-likelihoodx`knowledgeedistillationX3.3.学习预测任务在本节中，我们将扩展LIMix模型用于预测任务。条件性VAE [43]是预测任务中最常用的生成模型之一，定义如下：其中θstu=θS ，θ~stu并且θ~stu是Student 的个体集合。 log p θstu（x）由ELBO估计，Pθi是由LIMix中的第i个分量建模的分布。SM的附录J中提供了更多详细信息以及LIMix模型图。此外，本文logp（y|x）≥Eqωct （z|x，y）Σlogpςct（y |x，z）Σ−（十）并没有集中在KD的改善，我们发现，学生是弱于LIMix。这在理论上是前-DKLqωct（z|x，y）||pςct（z|X）。对于分类，y属于离散域（独热向量），并且|x，z）被实现为分类器。我们将pct（z x）表示为等式中的（0，I）。用于减小模型大小，并且这导致目标函数：在SM的附录I.2中解释4. 终身学习在本节中，我们首先对所提出的无限混合模型进行理论分析，该模型不LP=Eq ωct （z|x，y）Σlogpςct（y |x，z）Σ（十一）在终身学习中发展其架构。在这种情况下，模型使用GRM来克服灾难性的-DKL（qωct（z|x，y）||p（z））。我们还要求每个组件学习一个生成器，以便在重用选定的组件时克服遗忘，为因此，我们定义生成模型的ELBO，p θt（x |y）作为：KnG是组的大小。然后我们定义指标cG+注意组件索引。在附录F（十三）Ct10700联系我们不X → T遗忘，并被视为一个单一的模型表示为（θ，θ，φ），由生成器g θ：和分类器h θ：组成，其中是输出空间，对于二进制分类是1，1，对于二进制分类是1，2，. . .，n′，n′>2。我们假设模型L G = E qω ct（z|x，y）CΣ log p θct（x|z，y）Σ（十二）还包含任务推理网络Uφ：其中是任务域。然后，我们提供了理论保证的收敛LIMix。最后，我们分析-DKL（qωct（z|x，y）||p（z））。分类设置中的每个组件都有三个现有方法的遗忘行为以及模型性能和复杂性之间的权衡10701S S所形成我S不我HH∈i，XX × Y Y × Y →.′∈HS.SY × Y →S1不我≤Rh，hi，Si[τ（h（x），h（x））]。Y和τ我是满足假设1的损失函数。--M--4.1. 预赛定义1（近似分布）。让我们定义一个由生成器gθt和分类器h θt估计的S ~ t应用上的联合分布i 的（θ t，ς t，φ t）在序列上训练的集合D1，. . .，D t.我们假设我们有一个完美的任务推理网络U φ，它可以精确地预测给定样本x的任务标签。利用最优任务推理网络Uφ，我们可以形成若干个联合分布。S〜t，. . . ，S1其中r eea c hS~（t-i+1）由一组样本组成，其中每个配对样本通过使用如果U φ（x）= i，则采样过程{x，hςt（x）}S~t。我们使用方法[3，7，26]，并且还用于在训练期间匹配GAN的鉴别器中的生成和在下文中，我们基于差异距离推导出终身学习模型的风险界限。分析退化性能的模型的主要思想是评估风险之间的目标和动态退化的源分布所造成的再训练过程中使用GRM。在这种情况下，可以以明确的方式测量学习每个任务时积累的错误定理1设S和S∈（t-i+1）是两个联合分布表示~1上标（t-in~（t-i+1）是我我（t−i+1）i+ 1）SiSioverX×Y。设hi=argminh∈HR（h，Si）且h~i=通过GRM过程af-对（t-i+ 1）次进行细化argminh∈HR（h，S~（t−i+1））表示理想分类器称为第t个任务学习。我们进一步使用S〜（t-i+1）来表示边际分布（t−i+1）。 ~ni，X对于Si和S~（t-我i+1），其中H是分类器i i空间。通过满足假设1，我们有：来自Di的如果n= 1，否则，通过抽取.Σ′。~（t−i+1）~（t−i+1）Σ（十六）+Ψ。Si，X，S~（t−i+1）Σ+σ。Si，S~（t−i+1）Σ给出表征第i个数据库Di中测试集的概率表示的联合分布，Si，X是其沿X的边缘分布。其中最优组合误差由下式表示：σ（S，S~（t−i+1））=R′（h*，h，S）假设1我们假设我我是一个对称-我我我（十七）τ：Y X Y-[0， 1]+R′（hi，h~（t−i+1），S~（t−i+1））有界损失函数ξ（y，y′）∈Y2，τ（y，y′）≤M′和τ（·，·）满足三角不等式y，其中M′是正我我和正整数R′（hi，hi，Si）=Ex<$Si，X τ（h*i（x），hi（x）），（18）定义3（差异距离）。对于两个给定的联合分布S（t-i+1）和Siover和τ：[0，1]是满足假设1的损失函数。设h，h′是两个分类器，其中是所有分类器的空间，并且我们将两个主要部分S〜（t-i+1）和Si，X之间的差异距离Ψ定义为：Ψ。S~（t−i+1），Si，XΣ=sup.E[τ（h′（x），h（x））]其中r eh*i是S i的真实标记函数。我们在SM的附录A中提供了证明。该定理提供了一种方法来测量在学习第t个任务之后模型的风险界限上的差距，但是没有提供关于先前学习的知识如何被遗忘的任何见解下面的定理提供了一种明确的方法来衡量学习时的累积误差i，X（h，h）2~（t−i+1）i，X’。一个特定的任务。定理2设S~（t−i+1）是X×上的联合分布（十四）定义4（经验风险）。对于给定的损失函数τ：[0，1]和联合分布Si，我们形成经验集合，其中我们将每个配对样本绘制为在学习给定的第t个任务之后，与先前学习的第i个任务相关联的知识中的累积误差可以被定义为：R（h，Si）≤R′（h，h~（t−i+1），S~（t−i+1））+{xi，y i} S i. 给定类别经验风险R（h，Si）-Σt−inΣ（19）−从G θn 而h ςn 最优任务推理网络。Rh，Si定义2（跨任务的数据分布）。让Si代表-i，X我ESi，Xh∈ H，由n个独立游程来计算Ψ（S~（k），S~（k+1））+σ（S~（k），S~（k+1））我我JJ10702我nJJ、R（h，S）= 1 Στ。H. xiΣ，y iΣ。（十五）k=0i，Xi，X i i4.2. 终身学习σ（S~（k），S~（k+1））=R′（h~（k），h~*（k），S~（k））我我（二十）差异距离，通过方程定义（14），用于推导域自适应的泛化界+R′（h（k），h（k+1），S（k+1）），j=1其中右手侧的最后一项（RHS）表示为：我我我10703我M--b′我不不≤≤ ≤≤·i，X我H联系我们我比伊比伊，S~（k+1））+σ（S~k，S~（k+1））我我ˆΣR′（h，h~（t-bi+1），S~（t-bi+1））其中，我们使用S~（0）来表示单纯y的Si。证据见SM的附录B。定理2提供了在学习第t个任务时模型（θt，ςt，φt）当i小时，即在初始训练阶段之一期间学习的任务，则累积项SM.下面的引理提供了模型性能和复杂性之间引理3设B=bl，. . . ，bj表示对应分布{S}（1），..，S~（1）}a_r_e在l_ felong_learn之后仅被访问一次。Σt−i~（k）~（k+1）~（k）~（k+1）Mb1bj′ ′--k=0τ（Si，X，Si，X）+σ（Si，Si）导致较大的ε r。错误这解释了（θt，ςt，φt）在其终身学习过程中会倾向于忘记先前学习的任务。我们在图1中可视化了这个遗忘过程。假设我们有假设1，那么在第t个任务学习之后学习所有数据库的概率表示之后的累积误差是：ing. 设B′=b1，. . .，bn指明使用用于不止一次地重新学习。我们还定义了一个集合B={1，. . . ，nbn}表示每个任务被用于再训练的次数，当rbi>1时表示b′i-此任务已经被保留了（（b-1）次S~（1）→S~（bi）其中，S~（bi）表示相应的概率表示。对于给定的混合模型，我们有：ΣΣ′~（t−i+1）~（t−i+1）测试卡（B）R（h，Si）≤R（h，hi，Si）+Σ。′˜1˜1˜1i=1Σt − ik=0~（k）i=1（k+1）~（k）（k+1）（二十一）i=1 R（h，Si）≤、S~1）i=1R（h，hbi，Sbi）+Ψ（Sbi，X，Sbi，X）′Ψ（Si，X，Si，X）+σ（Si，Si）.ΣcarΣd（B）.ˆˆ我们考虑定理2并从等式2中总结累积（19）的学习t个任务，这导致等式（19）。（二十一）（SM的附录C）。引理1示出了最小化gen-I之间的离散距离Ψ（S〜（k），S〜（k+1））bibiˆbΣi−1.+k=0i=1b′i，X比伊比伊比伊比伊ΣΣ混合物i，X i，X由模型和目标近似的标准分布分布，在学习每个任务时，在性能的提高中起着重要的作用。然而，当要学习的新任务的数量增加时，模型的累积误差将显著增加。以下引理示出了混合或集成模型如何能够解决该问题并提高性能。引理2让我们考虑假设1，并假设我们正在将具有K个分量的LIMix模型训练到第t个任务学习上。如果K=t，则针对所有任务的无限混合模型的累积误差被定义为：（二十三）其中t> 1表示正在学习的任务的数量。card（）表示集合中满足card（B）+card（B′）> K和0 card（B）K，0card（B′）K，card（B′）=card（B（）的基数，其中K是用于训练的组件的数量。单个学习模型M（θ t，ω t，ψ t）的风险定义为Rsingle，如等式2所示。（21），而混合模型的风险Rmixture是等式（21）的RHS。（二十三）.从所有这些表达式，我们有R单一≥ R混合。证明见SM的附录E引理3没有明确地指示哪个任务与输入相关联。由LIMix的特定组分记录的tt形成ΣR（h，Si）≤Σ。R′（h，h~1，S~1）i=1i=1模型然而，我们提供了一个明确的方式来分析-（二十二）在更实际的情况下，对混合模型的风险界进行分析+Ψ（Si，X，S~1）+σ（Si，S~1）Σ。的方式，其中我们根据不同的学习设置（例如通过consid）来改变组件的数量和模型针对每个任务进行训练的次数。我们在SM的附录D中提供了证明引理2提供了用于LIMix的最优解的框架，其中终身学习问题被转换为多目标源域下的泛化问题，其中在训练期间不存在遗忘误差h由hζ1，. . . ，hζK ，hζi，i = 1，. . . ，K在LIMix中，因此性能在每个目标域上依赖于相关组件的泛化能力。在实践中，组件的数量小于正在学习的任务的数量。我们调查了一个具体的情况下，+σ（S+Ψ（S~k=Rb′i，X10704- -联系我们安排任务的学习顺序或其复杂性。如果 B′=，则Eq.（23），简化为Eq。（22），这意味着风险界限中的较小间隙，同时需要额外的存储器。另一方面，如果卡（B）= 1B=t，Eq.（23）等于等式（24）。（21），这意味着风险边界上的巨大差距。我们定义比率v=（K卡（B））/（K卡（B′））作为解释模型复杂性与其性能之间的权衡的指标。当v增加时，模型在提高其性能的同时也增加了其复杂性。相反，当v较小时，模型10705--i=1--MSESSMIPSNR数据集LGM卷曲被LIMix螺柱LGM卷曲被LIMix螺柱LGM卷曲被LIMix螺柱MNIST129.93211.2119.2426.66176.820.450.460.920.880.4214.5213.2722.5721.0913.72时尚89.28110.6038.8130.19178.040.510.440.610.760.3715.8214.8914.4621.258.81SVHN169.55102.0639.5735.07146.700.240.260.660.650.478.1110.8618.9014.9213.58IFashion432.90115.2936.5230.14158.180.260.540.750.790.439.0415.5119.3220.2614.17RMNIST130.28279.4725.4122.80157.550.450.290.880.900.4314.5110.8421.3121.8114.18平均190.38163.7231.9128.97163.450.380.390.760.790.4212.4013.0719.3119.8612.89表1.各种模型在MSFIR终身学习后的表现而当学习新任务时，它积累更多的错误项。在SM的附录G中，我们使用所提出的理论框架来分析各种模型的遗忘行为，例如经典GRM模型[41]，具有扩展机制的混合模型[34]，[47]的集成模型和情景记忆模型[25，30]。我们还扩展了引理2和3，用于分析模型的风险界限，当改变附录H中的任务顺序5. 实验5.1. 数据集和评价标准我们考虑以下实验设置：对于无监督学习设置，我们创建了一系列与数据库相对应的学习任务：[19]，SVHN [27]，Fashion[49]，InverseFashion（IFashion）和Rated MNIST（ RM-NIST ），并且这种学习设置被命名为MSFIR。我们在MSFIR之后添加CIFAR10 [18]，作为最后一个训练任务，产生用于监督分类的MSFIRC序列所有图像的大小均调整为32×32×3。评价标准：在分类任务中，我们使用所有任务的平均准确率作为性能标准。虽然所提出的理论分析仅用于预测任务，但LIMix也可以在无监督设置中实现良好的性能，其中我们使用均方误差（MSE），结构相似性指数度量（SSIM）[13]和峰值信噪比（PSNR）[13]进行重建质量评估。5.2. 无监督学习任务我们首先评估MSFIR终身学习任务的各种方法，结果见表1。我们将我们提出的LIMix模型与三种最先进的方法进行比较：[ 33 ][ 34 ][35][36][37][38][39][39]BE被设计用于分类任务，并且我们将BE实现为由VAE组件组成的集成，其中每个VAE具有构建在神经网络的顶层上的可训练向量元组，该神经网络在第kk=2、3、. . .、K.我们使用大型神经网络，包含更多的参数，分别为LGM和BE，在数据集LGM [33]CURL [34][47]LIMixMRGANs [48]MNIST90.5491.3099.4091.1691.24SVHN22.5662.0574.4682.6064.12时尚68.2979.1888.9589.1480.10IFashion73.7082.5186.4588.7082.19RMNIST90.5298.5699.1098.8098.30CIFAR1057.4367.3452.4854.6667.19平均67.1780.1683.4784.1880.52表2.经过MS-FIRC的终身学习，各种模型的分类准确率。以确保公平的比较。型号尺寸见SM附录L 图图2a示出了传入任务和每个组件Ki，j之间的对数似然的绝对差，如等式2中所示。（6），以及在MSFIR终身学习期间导出的分量我们可以观察到，当学习第五个任务（RMNIST）时，第一个组件被重用，并且在LLL之后，LIMix扩展到4个组件当考虑SM附录K.2中更复杂的任务时，我们还评估了LIMix模型5.3. 分类任务在本节中，我们将介绍在考虑分类任务的终身学习时的结果为了使用LGM [33]进行分类，我们在来自连续任务的真实数据样本上并且还通过使用成对的数据样本xi、yi、in来不断地训练辅助分类器，其中xi由LGM中的教师或学生生成，并且每个yi由分类器在最后的任务学习期间推断。表2提供了LLL分类准确度，其中可以观察到LIMix实现了最佳结果。与图像重建结果不同，CURL[34] 在分类任务的LLL上也提供了良好的结果CURL使用单个解码器，其在多个任务中不断更新，因此导致较差的图像重建，这解释了CURL的重建和分类结果之间的差异。虽然所提出的LIMix主要是为跨领域终身学习而设计的，但我们也将LIMix应用于连续学习基准，置换MNIST和拆分MNIST [58]（参见SM的附录K.4）。与[30]类似，我们使用较小的网络来实现每个组件，并对cal-··107061添加专家添加专家添加专家阈值任务3Task1Task2Task1任务3Task2(a)（b）第（1）款（c）第（1）款（d）其他事项图2. (a)对数似然绝对差和MSFIR终身学习下的分量数。(b)MSFIR终身学习过程中使用不同阈值时模型性能和复杂度的变化（c）通过使用未扩展的LIMix的第一任务（MNIST）的风险和差异（d）通过使用具有扩展的LIMix的MNIST的风险和差异94 2± 0。百分之一94 9± 0。百分之一88岁78%（7 ℃）表3.持续学习基准的结果计算平均值和标准偏差。结果提供于表3中，其中LIMix实现了最优解的最佳性能，验证了引理2，并且当减小模型大小时将逐渐失去性能，如引理3中所讨论的。5.4. 烧蚀研究和理论结果我们评估了当改变各种超参数和阈值时LIMix模型的性能，结果如图2a和2b所示。通过扩展模型的架构来提高性能我们在SM的附录K.1中提供了超参数参数设置的其他结果。我们研究了定理2的理论结果，并在MNIST，Fashion和SVHN（MFS）学习设置下训练单个模型，并评估MNIST上的源风险，目标风险和差异，并在图中呈现结果。2杯我们可以观察到，目标风险的增加在很大程度上取决于差异，而不是源风险，保持稳定的学习额外的任务。我们还调查了MFS终身学习下的LIMix的结果，结果见图1B。其中“源+差异”表示源风险加上MNIST上的差异。当学习其他任务时，LIMix的差异不会增加此外，是组合误差σ（S1，S~1），根据等式（十九）、我们还研究了LIMix、BE和图3.其他数据集的MNIST目标风险评价。LGM和结果在图3a中示出，其中针对每个时期在MNIST上评估目标风险。BE的目标风险在六个任务的LLL中不改变，因为它不累积任何错误。LGM在学习每个任务后增加一个误差项，从而不断增加其目标风险，该目标风险以RSingle为界。LIMix只会在重用组件时增加目标风险，该组件在MNIST之后学习RMNIST时更新。这些结果由引理3解释，并在SM的我们还估计了重用时所有任务的平均在MNIST上训练的用于学习新任务的组件，结果如图所示。3 B.我们发现，一个单一的组件会导致一个大的退化时，perfor-曼斯学习一个完全不同的任务（CIFAR 10）比相关的任务（RMNIST）。这表明，建议的选择机制可以选择一个合适的组件，最大限度地减少目标风险。图像重建、生成和图像到图像转换的示例如SM的附录M所示。6. 结论我们提出了一个新的理论分析框架，终身学习的基础上的差异之间的距离的概率测量的知识已经学到的模型和目标分布。通过对模型风险的分析，我们提供了一个透视模型如何忘记在LLL过程中获得的一些知识。在此基础上，提出了在跨领域终身学习中表现更好的LIMix模型。方法置换MNIST拆分MNIST[42]第四十二话百分之八十二61岁百分之二EWC*[17]百分之八十四63岁百分之一SI*[58]百分之八十六九十八百分之九[45]第四十五话FRCL-RND*[46]FRCL-TR*[46]FROMP*[30]九十三1± 1%94 3± 0。百分之二九十八4± 0. 百分之四九十七1± 0。占7%九十七8± 0。占7%九十九。0± 0。百分之一LIMixLIMix96.46±0. 03%（10 ℃）九十五25%99.21±0. 04%（5 ℃）九十六。77%（4C）10707引用[1] 亚历桑德罗·阿希尔、汤姆·埃克尔斯、洛伊克·马齐、克里斯托弗·伯吉斯、尼克·沃特斯、亚历山大·勒奇纳和伊琳娜·希金斯。跨领域潜在同源的终身解纠缠表示学习。神经信息学进展Proc. Systems（NIPS），第9873-9883页，2018年。[2] Rahaf Aljundi，Min Lin，Baptiste Goujaud，and YoshuaBen- gio.基于梯度的在线持续学习样本选择。神经信息处理系统（NIPS）进展，第11817-11826页，2019年[3] Shai Ben-David ， John Blitzer ， Koby Crammer ， andFernando Pereira.域适应的表示分析。神经信息学进展Proc Systems，第137-144页，2007。[4] 放大图片创作者：Margaret K.菲利普·多卡尼亚S. Torr和Marc'Aurelio Ranzato。关于持续学习中的小片段备忘录。arXiv预印本arXiv：1902.10486，2019。[5] 陈涛，朱利安·莫里斯，伊莱恩·马丁。通过无限高斯混合模型的概率密度估计：应用于统计过程监控。英国皇家统计学会杂志：Series C（Applied Statistics），55（5）：699 - 715，2006.[6] Corinna Cortes 、 Xavi Gonzalvo 、 Vitaly Kuznetsov 、Mehryar Mohri和Scott Yang。Adanet：人工神经网络的自适应结构学习。在 Int. Conf. on Machine Learning（ICML），vol. PMLR 70，第874-883页，2017年。[7] 科琳娜·科尔特斯和梅赫里亚·莫赫里回归领域自适应Theoretical Computer Science，519：103[8] Arthur P Dempster，Nan M Laird，and Donald B Rubin.不完全数据的最大似然法。英国皇家统计学会杂志：Series B（Methodological），39（1）：1 -22，1977.[9] Gintare Karolina Dziugai

下载后可阅读完整内容，剩余1页未读，立即下载