没有合适的资源?快使用搜索试试~ 我知道了~
10728XK1:TXT+1:T+HkT检验“Pushing”k世界模型aT:T+H-1T1培训期T2T3从视频中耿晨1张文东1卢汉1高思宇1王云波1<$龙明生2杨小康11上海交通大学人工智能研究所MoE人工智能重点实验室2清华大学{chengeng,diergent,yunbow} @ sjtu.edu.cn摘要预测学习理想地在一个或多个给定环境中建立物理过程典型的设置假设我们可以随时从所有环境中收集数据然而,在实践中,不同的预测任务可能顺序到达,使得环境可能在整个训练过程中持续我们能否开发出能够处理更真实、非平稳物理环境的预测学习算法?在本文中,我们研究了一个新的持续学习问题的背景下,视频预测,并观察到,大多数ex-person方法遭受严重的灾难性遗忘在这种设置。为了解决这个问题,我们提出了持续预测学习(CPL)方法,它通过预测经验重放学习混合世界模型,并利用非参数任务推理进行测试时自适应。我们构建了两个新的基准RoboNet和KTH的基础上,其中不同的任务对应于不同的我们的方法被证明可以有效地减轻遗忘,并且在视频预测和持续学习方面明显优于先前技术的简单组合。1. 介绍预测学习是一种无监督学习技术,通过从历史观测、动作序列假设标准预测学习设置在具有相对固定的物理动态的静态环境中操作模型[9,15,38,41]。然而,平稳性的假设并不总是更现实,tic场景,例如在持续学习(CL)的设置中,模型通过到达的任务来学习*同等缴款。†通讯作者:王云波。“Pushing”测试时间图1.持续预测学习的新问题和我们在测试时的方法的一般框架。顺序地。例如,在机器人技术中(见图1),世界模型通常用作基于模型的控制系统的表示学习器[11,17-在这些情况下,为每个环境或每个任务维护单个模型是不切实际的,也不可能始终从所有环境收集数据本文的一个主要发现是,大多数现有的预测网络[9,15,38,41]在非平稳环境中训练时不能很好地执行,这是一种称为灾难性遗忘的现象[13]。我们将此问题设置形式化为持续预测学习,其中世界模型在时变环境中训练(即, 在整个训练阶段之后,该模型预计将处理较新的任务和较旧的任务(参见第2节以获得详细的se-to-se-toup)。有两大挑战。1.1. Covariate–Dynamics–Target与确定性模型的域增量或类增量CL设置不同,世界模型,10729M^XXM1:T1:TKk+1T+1:T+H其可以被看作是有条件的生成模型,不能假定训练目标或固定目标空间的固定分布。因此,与所有以前的CL问题不同,持续预测学习的独特挑战是由于三种类型的分布共存特征偏移,包括协变量PX的偏移、目标偏移PY和动态偏移PY|X1. 值得注意的是,协方差位移[14,28已被广泛认为是现有的方法,而条件分布通常被假定为不变的。然而,在我们的设置中,条件分布PY|对应于时空动态的X也随着训练周期而改变。它大大增加了世界模型为了对抗动态变化,我们首先提出了一个新的世界模型,该模型在特定于任务的潜变量之上学习不同任务的多模态视觉动态。未来帧是通过从以一组随机任务变量为条件的学习高斯混合先验中提取样本,并将它们与未来预测的确定性分量相结合来生成的(见第3.1节)。其次,我们专门设计了一种新的训练方案,称为预测经验重放。像深度生成重放(DGR)[40]一样,所提出的训练方法利用学习的生成模型来生成复杂任务的样本。然而,在我们的方法中,这些样本被馈送到世界模型中,作为生成整个se的第一帧我们还提出了一个自我监督,测试时的训练过程,通过一个或几个在线适应步骤,回忆推断任务的预先学习的知识。我们基于真实世界的数据集RoboNet [6]和KTH [37]构建了两个新的持续预测学习我们的CPL方法被证明可以有效地避免遗忘,并且在视频预测和持续学习中明显优于先前技术的直接组合。2. 问题设置与现有的预测学习方法不同,我们考虑在非平稳环境中学习世界模型()(即,任务的演变),这样,XT+1:T+H<$M(X1:T,aT:T+H−1,k<$),(1)其中,1:T和T+1:T+H分别是观测帧和要预测的未来帧任务指数k在训练时已知,但在测试时未观察到 它要求我们的方法不仅要解决到目前为止看到的每个任务,而且要推断出它所呈现的任务,表示为Tk。在这里,aT:T+H−1是动作信号的可选输入,是为基于视觉的机器人控制而学习的,就像在动作中一样条件视频预测实验。例如,持续预测学习假设:序列,其可以被重新用作排练的模型输入世界模型在(i)生成预演数据而不反向传播梯度,(ii)回归协变量变化:P(Xk)动力学位移:P(XP(Xk+1)|X1:Tk+1T +1:T+H|X1:T)促进由世界模型本身产生的先前任务的未来帧,以及(iii)生成未来帧目标偏移:P(Xkk+1T +1:T+H(二)当前任务的真实数据另一个好处是训练方案是关于记忆效率的,因为它只我们省略了一个T:T+H−1为了简单起见,在缓冲区中保留低维动作向量的一部分,用于动作条件预测重放(见3.2节)。1.2.任务推理:耦合的遗忘问题持续预测学习的第二个挑战是测试时的任务模糊性,这会极大地影响预测结果。与完全生成模型的现有CL方法不同[33,40],在我们的设置中,模型不仅需要解决到目前为止看到的每个任务,而且还需要考虑它们所呈现的任务一个简单的解决方案是使用另一个神经网络来推断任务。然而,由于任务推理模型本身不可避免的遗忘问题在第3.3节中,我们提出了非参数任务推理策略,它克服了确定性模型固有的遗忘特性1在预测学习设置中,输入X是连续观察帧X1:T的形式,训练目标Y对应于未来帧XT+1:T+H。为了简单起见,我们在这里跳过输入动作信号T+1:T+H)n=P(XP(X))的情况下,K10730YY{Y}XX{Y}{Y}视觉动态的分布 该设置部分类似于监督任务的类增量CL,假设P(k)=P(k+1),K=k+1,P(k)=P(k+1)。K表示常量标签集歧视性模型。 相反,持续预测学习不假定固定的目标空间,因此可能具有更严重的灾难性遗忘问题。3. 方法在本节中,我们将介绍新的持续预测学习(CPL)方法,它首先从两个方面减轻• 混合世界模型:一种捕获多模态视觉动态的递归网络。与现有的模型[9,18]不同,学习到的特定于任务的先验是混合高斯的形式,以克服动态变化。• 预测性经验回放:一种新的基于排练的训练方案,可以对抗世界模型中的遗忘,并且在内存使用方面非常有效。10731ML(X1:t^K1:t−1K联系我们-αD(q(zt| Xk,k)||p(πz| X 1:t−1,k)),XX1Dec2012火车X1不KLDec2012eK转换器KLN(μ$(t),σ$(t))KN(µ(t),σ(t))K生成模型FCST-LSTM微处理器µKµK的111L2N(µ1,σ 1)EncK(X,k)1N(µk,σk)足球俱乐部FCN(µ,σ)KK的1一代(stop梯度)足球俱乐部LSTM$LSTM(X1,k)K(X得双曲余切值.t1t-1)(k,zt)X(X得双曲余切值.2:T+HST-LSTMeeeKEnc$ENC世界模型11:T+H-1)(k,z1:KKENCeKL2动力学模块(X、k)K不(X,k)Kt1预测(停止梯度)N(µ(t),σ(t))表示模块编码模块火车L(X KM1:T+H1:T+H[XeK,eK1:T+H-11:T+H-1[a;a,$,b](D)混合世界模型(b)预测性体验回放LSTMConv图2.混合世界模型的整体网络架构和所提出的CPL方法中的预测经验重放训练方案(a)世界模型基于分类任务变量学习混合高斯形式的表示(b)对于预测经验重放,世界模型(M)与初始帧生成模型(G)相互作用在这个重放阶段,我们首先使用G生成先前任务的第一帧,而不反向传播梯度,然后使用M预测相应的未来帧,最后结合排练数据和真实数据来联合训练M和G。为了应对在未知任务中测试世界模型时任务模糊性的挑战,我们提出:• 非参数任务推理:我们不使用任何可能引入额外遗忘问题的参数任务推理模型,而是在任务标签集上使用试错策略来确定当前任务。3.1. 混合世界模型世界模型从时空表征的角度考虑了一种新的补救方法。如上所述,现有世界模型[9,18]中的遗忘问题主要是由时变环境中的协变量动态目标偏移引起的。因此,CPL中所提出的世界模型的关键思想是使用高斯混合变量来捕获潜在空间中视觉动态的多模态分布,以及空间外观中的多模态分布。模块学习从输入到预测目标的确定性转换分量。它通过将任务特定的潜变量zt作为输入来响应多模态时空动力学。所有组件都被实现为神经网络,其中动态模块特别由堆叠的ST-LSTM层组成[47]。特定于任务的潜在表示zt由下式得出:混合高斯分布,受现有的无监督学习方法的启发,该方法使用高斯混合先验用于变分自动编码器[10,22,33]。我们的混合世界模型是一个早期的工作,使用这种表示形式来模拟时空动力学中的多模态先验。具体地,对于每个任务,表示模块和编码模块都以当前任务标签为条件。 它们被联合训练,通过opti学习zt的后验和先验分布Kullback-Leibler分歧。在任务Tk处,输入输出观测空间 如图所示,目标函数kMK1:T+H,ak1:T+H−1)结合了如图2(a)所示,世界模型由三个部分组成:KL损失与重建损失:T+H表示模:zt<$q<$(Xk,k)不ψEq(z|X k −1,a k|X k−1, ak−1,z1:t,k)编码模块: z1:tp(Xk、k)t=21:t1:tt1:t1:t(四)Σ动力学模块:Xt = pθ(X1:t−1,a1:t−1,z1:t,k)。(三)在我们的实验中,α被设置为10−4在测试阶段我们丢弃表示模块q,仅使用表示模块从目标帧推断潜在状态zt 它将分类任务变量k 1,. . .,K来应对连续预测学习场景中的目标转变。 编码模块对应于协变量移位,并动态地将输入帧映射到与zt相同的潜在子空间中的xz t。动力学编码模块P,用于对任务特定的潜在变量进行用于帧生成。3.2. 预测性体验回放典型CL设置中的两个主要挑战是catastrophic遗忘和记忆限制。由于共同-KL不107321:T+H }{a^X^XG=Lk~M11^1M∼TGT GMXt=T/2+1不用Lk优化ME q(e|X^k,k)logp(X1|e、a1、k)G算法1预测经验重放算法2测试程序输入:训练数据{XkKk=1, k1:T+H−1Kk=1输入:观察框X1:T,可选动作a1:T+H输出:世界模型M,生成模型G1:在T1处根据等式1训练M(四)2:在T1处的列车G,根据等式(6)k=1输出:预测的未来帧T+1:T+H1:#非参数任务推理2:对于k = 1,. - 是的- 是的 ,K do3:对于k = 2,. - 是的- 是的 ,K do4:#重放视频序列(跳过批量大小)5:f或k∈ R=1,. -是的-是的,k−1do˜˜11kT/2+1:T第四章: 端5:k=argmin←M(X1:T/2,a1:T−1,k)T(Xt−X^k)26:X^k←G第七章:Xk(ak,k)←M(Xk,ak6:#测试时自适应(可选)^2:T+H^12:T+H−17:男8:结束9:#混合T1:k−1时的重放数据和Tk1:T+H1:T+H−11:T+H1:T+H−1第八章: #模型部署9:X^T+1:T+H←M(X1:T,a1:T+H−1,k)10:(X^1:k−1,a1:k−1M)(Xk、a、k)11:根据Eq. (五)12.根据Eq. (六)13:结束重播,我们在Tk训练世界模型Mk−1通过最小化k~MMk=1(X^1:T+H),ak)1:T+H−1(五)存在协变量偏移、目标偏移和动力学偏移,这些挑战变得更加紧迫,+LkK1:T+H,ak)。1:T+H−1基于视频数据的持续预测学习。解决这些挑战的一种常见方法是生成式重播[33,40],它考虑使用生成式模型来初始帧生成模型的目标函数G可以写成K K制作以前任务的样本然而,在我们的设置中不能直接使用生成重放方法,因为使用L G= Eq(e|Xk,k)log p(X1|e、a1、k)-βDKL(q(e|Xk,k)||p(e)|(k))k−1一个生成模型克雷蒂安k=11k(六)(G),它学习在预处理时生成第一帧视频M˜Σ-βDKL(q(e|X^k,k)||p(e)|(k)),在给定任务标签的情况下,使用世界模型()。为了对抗非线性系统静态环境,也使用可学习的高斯混合潜在先验,由e表示。如图2(b),对于每个先前的任务k,我们首先使用来生成排练视频序列的第一帧,然后使用来预测相应的未来帧。最后,我们将先前任务中的排练序列与当前任务中的真实序列混合k训练和反过来。我们总结了Alg中的训练过程。1.一、预测经验重放不同于所有现有的生成重放方法,因为世界模型在以下方面起关键作用:排练过程。特别是,对于动作条件预测学习场景,我们保持一个缓冲区,以保持部分(7%)来自先前任务的低维动作序列。在预测经验重放期间,我们首先采样一个AC-其中,重构损耗为β2形式,并且β被设置为10- 4通过经验网格搜索。3.3. 非参数任务推理在混合世界模型中,任务标签对学习的先验知识和相应的预测结果有重要影响。由于它在测试时是未知的,所以它只能从输入观察序列中推断出来,即,视频分类然而,现有的视频分类模型往往在域增量CL设置中表现不佳为了避免基于模型的任务推理的固有遗忘问题,我们提出了一种新的非参数方法,只利用学习的混合世界模型进行任务推理。更确切地说,如图所示,在Alg。2、我们喂上半场从底部到底部的顺序1:T+H−1 在之前的任务输入到世界模型中1:T/2,沿假设任务标签为k。然后,我们逐一列举}(Xk∈{1,…K},k)(X1:T,a1:T−1)因此,我们提出了预测经验重放,它牢固地结合了初始帧生成模型+第三章:L107331^T~。我们将初始动作ak和任务标签k送入Gk1表示任务标签k∈ {1,. . .,K},并评估以确保所生成的第一帧Xk对于机器人控制是有效的,并且执行M以产生预测重放结果世界模型在输入序列的剩余帧XT/2+1:T. 最后,我们选择任务标签k,它导致kkkX^2:T+Hgiv enX^1 anda2:T+H−1.在预测的经验中,最佳预测质量。10734不X|X→ →→→ → → →→方法非条件的PSNR↑SSIM↑(×10−2)无杂质的PSNR↑SSIM↑(×10−2)SVG [9]PredRNN [47]18.72± 0.6119.4568.59± 2.2266.3818.92± 0.5119.5668.08± 2.2069.92PhyDNet [15]19.6068.6821.0075.47PredRNN + LwF19.1064.7319.7971.43PredRNN + EWC [24]21.1574.7221.1578.02CPL-基础+ EWC [24]21.29± 0.3075.16± 0.9821.38± 0.1876.68± 0.69CPL基CPL-全19.36± 0.0023.26± 0.1063.57± 0.0080.72± 0.2320.15± 0.0222.48± 0.0371.15± 0.0878.84± 0.07CPL-base(联合训练)24.64± 0.0183.73± 0.0022.56± 0.0179.57± 0.02表1.在RoboNet基准测试中,在有动作条件和无动作设置下持续预测学习的定量结果(行1-3)具有i.i.d.假设。(第4-6)预测模型和持续学习方法的组合(第7-8行)我们的预测模型基于学习的高斯混合先验,以及具有预测经验重放和非参数任务推理的整个CPL。(第9行)在整个训练过程中对所有任务进行联合训练的基线模型,其结果可以粗略地视为我们方法的上限。除了使用P(T/2+1:T1:T/2)来执行任务推理,我们还使用这种自我监督来进行测试时适应,这允许模型在部署后继续训练。测试时自适应有效地重新调用了推断任务中预先学习的知识 通过一步(或几步)在线优化,从而进一步缓解遗忘问题。4. 实验4.1. 实验装置基准。我们在以下两个真实世界数据集上对CPL进行了定量和定性评估:• RoboNet[6].RoboNet数据集包含机器人手臂与各种环境中的各种对象交互的动作调节视频。我们根据环境将整个数据集分为四个连续学习任务(即,Berkeley Google Penn Stanford).对于每个任务,我们收集了大约3840个训练序列和960个测试序列。• KTH行动[37]。该数据集包含灰度视频,其中包括6种类型的人类动作。我们直接使用动作标签将数据集划分为6个任务(即,拳击、拍手、挥手、散步、慢跑、跑步)。对于每个任务,我们平均收集大约1500个训练序列和800个测试序列我们通过随机抽样定义任务顺序,并且不失一般性,我们的方法对任何任务顺序都有效(见4.4节)。更多的实验配置和实现细节可以在Supple-ComplexMaterial中找到。评价标准。我们采用以前文献[9,47]中的SSIM和PSNR来评估预测结果。我们运行持续学习过程10次,并报告两个指标的平均结果和标准差比较方法。我们将CPL与以下基线和现有方法进行比较:• CPL-base:一个基线模型,排除了高斯混合、预测重放和任务推理的新成分• PredRNN[47],SVG[9],PhyDNet[15]:视频预测模型分别专注于随机,确定性和非纠缠动态建模• LwF[26]:它是一种基于PredRNN [47]的记忆状态的基于蒸馏的CL方法。• EWC[24]:它将PredRNN和CPL-base的参数限制在具有额外损失项的新任务上。4.2. RoboNet基准测试我们首先在真实世界的RoboNet基准上评估CPL,其中不同的持续学习任务由实验室环境划分。我们在RoboNet上进行前者遵循通常的做法[3,48],训练世界模型从2个观察和11个时间步长的相应动作序列预测未来的10对于无动作设置,我们使用前5帧作为输入来预测接下来的10帧。定量比较。表1给出了RoboNet上的定量结果,其中在最后一个任务的训练期之后,在所有4个任务的测试集我们有以下发现。首先,CPL在很大程度上优于现有的视频预测模型.例如,在动作条件设置中,它将SVG的PSNR提高了24。3%,PredRNN为19。6%,PhyDNet为18。百分之七。其次,CPL通常比以前的连续学习方法(即,LwF和EWC)与视频预测骨干相结合。请注意,在PredRNN之上简单地实现LwF甚至会对最终结果产生负面影响。第三、10735PredRN- 全CPL基地(联合列车测试PSNR23.0021.0019.0017.0015.0030.0025.7521.5017.2513.0028.0026.0024.0022.0020.00SVG PredRNN PhyDNet PredRNN + LwFCPL-fullN + LwF CPL-base(联合训练)SVG PredRNN PhyDNet培训期T1T4伯克利谷歌宾夕法尼亚斯坦福输入框架基本事实和预测t=1 t=2 t=3 t=5 t=7 t=9 t=11图3.动作条件RoboNet基准测试结果。水平轴表示顺序训练过程,垂直轴表示每个训练周期后特定任务的测试结果紫色虚线表示在所有任务上联合训练的基线模型的结果。通过比较CPL-全(我们的最终方法)和CPL-基(w/o高斯混合潜伏期、预测经验重放或非参数任务推断),我们可以看到新的技术贡献对性能增益具有很大的影响。 我们提供更详细的消融研究 第4.4节。最后,CPL被证明可以有效地缓解灾难性遗忘,通过接近在i.i.d.中的所有任务上联合训练世界模型的结果设置(23. 26对24PSNR为64)。除了所有任务的平均得分外,在图3中,我们还提供了在个别训练期后特定任务的测试结果。如主对角线右侧的条形图所示,CPL在之前的任务中表现得特别好,有效地缓解了遗忘问题。详细对比结果见补充定性比较。图4提供了动作条件RoboNet基准的定性比较。具体来说,我们在最后一个任务的训练期之后使用最终模型从这些演示中我们可以看出,我们的方法在预测对象的未来动态以及场景的静态信息方面都更准确。相比之下,PredRNN+LwF和CPL-base +EWC的预测帧在运动对象或静态(但复杂)背景中遭受严重的模糊效应,表明直接将现有CL算法与世界模型相结合不能有效应对高度非平稳环境中的动态变化。4.3. KTH基准定量比较。 表2显示了最后一次训练后所有6个任务的测试集的定量结果图4.在RoboNet的第一个环境中展示了动作条件视频预测(即,Berkeley)在最后一个环境中训练模型之后(即,Stanford)。方法PSNRSSIM(×10−2)SVG [9]PredRNN [47]22.20± 0.0223.2769.23± 0.0170.47PhyDNet [15]23.6872.97PredRNN + LwF24.2570.93CPL-基础+ EWC [24]24.32± 0.1569.02± 0.48CPL基CPL-全22.96± 0.0529.12± 0.0368.98± 0.0284.50± 0.04CPL基地(联合列车)28.12± 0.0182.16± 0.00表2. KTH基准的定量结果。在最后一个任务中的模型周期。我们可以观察到CPL在PSNR和SSIM方面都明显优于比较的视频预测方法和连续学习方法此外,一个有趣的结果是,我们的方法甚至优于联合训练模型,如表2中的底线所示。虽然我们不知道确切的原因,但我们提出了两个假设,可以在未来的工作中进行研究。首先,高斯混合先验使世界模型能够更好地理清在不同的持续学习任务中学习到的视觉动态的表示第二,预测性经验重放允许关于先前任务的预先学习的知识以促进预测性经验重放。PennSVGPredRNNPhyDNetPredRNN+ LwFCPL基+ EWCCPL基CPL-全CPL基(联合训练)伯克利谷歌不10736培训期T1 T6SVGPredRNNPhyDNet输入框架基本事实和预测测试PSNR30.0027.2524.5021.7519.00PredRNN + LwF CPL-base + EWCCPL-baseCPL-full CPL-base(联合训练)t=6t=9t=12t=14t=16t=18 t=2031.0027.7524.5021.2518.0031.0027.7524.5021.2518.0030.0028.0026.0024.0022.0031.0029.0027.0025.0023.00拳击鼓掌挥舞步行慢跑跑步图5.KTH基准测试的结果水平轴表示连续的训练过程,垂直轴表示每个训练期后特定任务的测试结果。表 3. 在 KTH 基 准 上 对 CPL 的 每 个 组 件 进 行 消 融 研 究 。“Replay” denotes the use of predictive experience “Infer“Random “Adapt” means test-time图6.第一任务的预测帧的展示(即,拳击)在最后一项任务的训练期之后(即,跑步)。为CPL提供错误的任务标签如底部第三行所示,模型将Boxing帧以及错误的Running任务标签作为输入。有趣的是,CPL将输入帧的固有动力学(反映在手臂的运动中)与来自输入任务标签的动力学pri- ors(反映在腿的运动中)相结合。新任务的学习过程。图5提供了在每个训练期之后对特定任务的中间测试结果,其证实了上述结论。定性比较。我们在图6中可视化KTH的第一个任务上的预测帧序列。如图所示,所有现有的视频预测模型以及甚至具有LwF的视频预测模型生成具有在最后一个任务中学习的动态的未来帧(即,跑步),这清楚地表明了动力学转变的影响。由CPL-base +EWC生成的图像遭受严重的模糊效应,表明模型不能在非平稳训练环境中学习不同动态的解纠缠相比之下,CPL产生更合理的结果。为了证明任务推理的必要性,4.4. 消融研究CPL中每个组件的有效性。我们逐步在KTH基准上进行消融研究在表3中,第一行显示了基于CPL的模型的结果在第二行中,我们用预测性经验重放训练CPL库,并观察到从二十二岁96比27PSNR为21。在第三行中,我们改进了世界模型与混合高斯先验,并相应地执行非参数任务推理在测试时。我们观察到一致的改进,在PSNR和SSIM上的前一个版本的模型。在第四行中,我们跳过了测试过程中的非参数任务推断,而是使用随机任务标签我们观察到SVGPredRNNPhyDNetPredRNN+ LwFCPL基+ EWCCPL-baseCPL-full(带有“Running”标签CPL-base(联合训练)慢跑挥舞步行拳击鼓掌不重放推断k随机k适应PSNRSSIM’’’’22.9668.98✓’’’27.2179.99✓✓’’27.8281.51✓’✓’26.5678.64✓✓’✓29.1284.5010737数据集PSNR SSIM(×10−2)RoboNet第k23.58± 0.28 79.67± 3.7528.93± 0.14 83.99± 0.40表4. CPL对随机任务顺序的鲁棒性。业绩从27. 82比26 56,说明任务推理对预测性经验重放的重要性。最后,在底线中,我们介绍了自监督测试时间适应。与上述所有变体相比,它显示出显着的性能提升。CPL对任务订单是否稳健?如表4所示,我们进一步进行实验来分析CPL是否能有效地缓解与任务顺序无关的灾难性遗忘我们还以3-4个随机任务顺序训练CPL模型。从结果中,我们发现,所提出的技术,包括混合世界模型,预测经验重放,和非参数任务推理仍然是有效的,尽管改变了训练顺序。5. 相关工作监督任务的持续学习。持续学习的目的是应对不断的信息流,在吸收新知识的同时保留甚至优化旧知识。主流范例包括正则化、重放和参数隔离[8]。正则化方法通常通过使用额外的损失项来约束新任务上的学习参数来解决灾难性遗忘[13],例如,EWC [24],或从旧任务中提取知识,例如,LwF [26].对于基于重放的方法,典型的解决方案是在代表性数据或特征示例的早期任务上保留缓冲区[1,34,35]。一些方法还使用生成网络来对先前的数据分布进行编码并合成虚构数据以用于经验重放,[33]第40话,参数隔离方法允许神经网络在新任务到达时动态扩展[36]或鼓励新任务使用不必要的无监督任务的持续学习。大多数现有的方法主要集中在图像数据的监督任务。尽管以前的文献讨论了无监督CL [5,23,33],但我们的方法与这些方法有显著不同,因为它探索了视频数据持续预测学习的具体挑战,特别是协变量动态目标偏移。与CPL最相关的方法是CURL [33],它通过生成重放为类增量CL和COM-bat遗忘引入了高斯混合潜在空间CPL和CURL之间有三个主要区别。首先,CURL不能直接用于我们的设置,因为它不能处理非稳态时空中的动力学位移,而CPL处理通过一个新的世界模式。其次,CPL极大地受益于精心设计的预测重放算法,而CURL仅使用完全生成的模型来重放有效的视频帧是极其困难的。第三,CPL提供了一种非参数任务推理方法,而不是基于模型的推理方法在CURL。视频预测基于RNN的模型已被广泛用于确定性视频预测[7,32,38,41,42,46、47、49]。Shi等人[38]提出了ConvLSTM,通过将卷积与LSTM转换相结合来提高空间信息的学习能力。根据这条线,Wanget al.[47]提出了PredRNN,在统一的空间和时间表示中建模神经细胞。随机视频预测模型假设不同的合理结果对于相同的输入是同样可能的,因此使用GAN[44,45]或VAE [3,4,9,12,25]将不确定性纳入模型中。特别是,Yaoet al.提出了通过蒸馏将视频预测模型从多个源域适配到目标域[49]。然而,它不能容易地用作持续预测学习的解决方案,因为保留的模型参数的数量随着任务的数量线性增加。6. 讨论在本文中,我们探索了一个新的研究问题,连续预测学习,这是具有挑战性的,由于协变量,动态和目标转移的共存我们提出了一种称为CPL的方法,它的主要贡献可以从三个方面来看待。首先,它提出了一个新的世界模型,以捕捉特定任务的视觉动态高斯混合的潜在空间。其次,引入预测经验回放方法,克服了世界模型中的遗忘问题.三分之它利用非参数任务推理策略来避免耦合由任务推理模型的引入引起的遗忘问题。我们的方法在RoboNet和KTH基准测试中显示出了竞争性的结果,与现有世界模型和CL算法的简单组合相比,取得了显着的改进。虽然CPL可以很容易地扩展到更复杂的任务,但潜在的限制是它还没有在基于视觉的机器人控制的整个管道中进行评估,其中包括预测学习和决策过程。在未来的工作中,我们计划将CPL集成到基于模型的强化学习框架中,以进一步验证其对下游任务的有效性。7. 确认本 课 题 得 到 了 国 家 自 然 科 学 基 金 资 助 项 目(U19B2035、62106144、62021002、62022050)、上海市科技重大专项(2021SHZDZX0102)和上海市航海计划(21Z510202133)的资助。10738引用[1] Ali Ayub和Alan R Wagner。EEC:学习编码和重新生成图像,以便继续学习。ICLR,2021年。8[2] Kamyar Azizzadenesheli,Anqi Liu,Fanny Yang,andAnimashree Anandkumar.标签转换下的规则化学习。arXiv预印本arXiv:1903.09734,2019。2[3] MohammadBabaeizadeh 、 Chelsea Finn 、 DumitruErhan、Roy H Campbell和Sergey Levine。随机变分视频预测。在ICLR,2018年。五、八[4] Lluis Castrejon,Nicolas Ballas,and Aaron Courville.用于视频预测的改进条件VRNN。在CVPR中,第7608-7617页,2019年。8[5] Hyuntak Cha,Jaeho Lee,and Jinwoo Shin. Co2l:对比性持续学习。在ICCV中,第9516-9525页,2021年。8[6] Sudeep Dasari , Frederik Ebert , Stephen Tian , SurajNair,Bernadette Bucher,Karl Schmeckpeper,SiddharthSingh,Sergey Levine和Chelsea Finn。Robonet:大规模多机器人学习。在CoRL,第885-897页,2019年。二、五[7] Bert De Brabandere,Xu Jia,Tinne Tuytelaars,and LucVan Gool.动态过滤网络。在NeurIPS,第6678[8] Matthias Delange、Rahaf Aljundi、Marc Masana、SarahParisot、Xu Jia、Ales Leonardis、Greg Slabaugh和TinneTuytelaars。持续学习调查:在分类任务中挑战遗忘。IEEE Transactions on Pattern Analysis and MachineIntelligence,2021。8[9] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。在ICML,第1182-1191页,2018年。一二三五六八[10] NatDilokthanakul 、 PedroAMMediano 、 MartaGarnelo 、 Matthew CH Lee 、 Hugh Salimbeni 、 KaiArulkumaran和Murray Shanahan。使用高斯混合变分自编 码 器 的 深 度 无 监 督 聚 类 。 arXiv 预 印 本 arXiv :1611.02648,2016。3[11] 切尔西·芬恩和谢尔盖·莱文。规划机器人运动的深度视觉预见。在ICRA,第2786-2793页,2017年。1[12] Jean-YvesFra nceschi , EdouardDelasalles , Mickae?lChen,Sylvain Lamprier,and Patrick Gallinari.随机潜在残差视频预测。在ICML,第32338[13] Ian J Goodfellow , Mehdi Mirza , Da Xiao , AaronCourville,and Yoshua Bengio.基于梯度的神经网络中catastrophic 遗 忘 的 实 证 研 究 。 arXiv 预 印 本 arXiv :1312.6211,2013。1、8[14] ArthurGretton , Alex Smola , Jiayuan Huang , MarcelSchmit-tfull,KarstenBo r g wardt,andBernhardScho¨ l kopf. 通过核均值匹配的变异移位。机器学习中的数据集转移,3(4):5,2009。2[15] Vincent Le Guen和Nicolas Thome。将物理动态与未知因素分离,用于无监督视频预测。在CVPR中,第11474-11484页,2020年。一、五、六[16] 郭嘉贤,龚明明,刘同良,张昆,陶大成。LTF:一个标签转换框架用于校正标签移位。在ICML,第3843-3853页,2020年。2[17] D a vidHa和JürgenSchmidhube r. 反复出现的世界模式促进了政策的演变。NeurIPS,2018。1[18] 丹尼加·哈夫纳,蒂莫西·利利克拉普,吉米·巴,还有莫汉疯子诺鲁兹.控制梦:通过潜在想象学习行为.在ICLR,2020年。一、二、三[19] Danijar Hafner、Timothy Lillicrap、Ian Fischer、RubenVille- gas、David Ha、Honglak Lee和James Davidson。从像素中学习潜在的动态规划。在ICML,第2555-2565页,2019年。1[20] 许鹤和赫伯特·耶格。使用概念辅助反向传播克服灾难性干扰在ICLR,2018年。8[21] Arun Iyer,Saketha Nath,和Sunita Sarawagi.类比估计的最大平均差异:收敛界和核选择。在ICML,第5302[22] Zhuxi Jiang , Yin Zheng , Huachun Tan , BangshengTang,and Hanning Zhou.变分深度嵌入:一种无监督的生成式聚类方法。在IJCAI中,第1965- 1972页,2017年。3[23] 紫萱柯、刘冰、胡旭、雷舒。经典:方面情感分类任务的连续和对比学习参见EMNLP,第6871-6883页,2021年。8[24] James Kirkpatrick,Razvan Pascanu,Neil Rabinowitz,Joel Veness , Guillaume Desjardins , Andrei A Rusu ,Kieran Milan,John Quan,Tiago Ramalho,AgnieszkaGrabska- Barwinska,et al.克服神经网络中的灾难性遗忘Proceedings of the National Academy of Sciences,114(13):3521-3526,2017. 五六八[25] Alex X Lee 、 Richard Zhang 、 Frederik Ebert 、 PieterAbbeel、Chelsea Finn和Sergey Levine。随机对抗视频预测。arXiv预印本arXiv:1804.01523,2018。8[26] 李志忠和Derek Hoiem。学而
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功