分层的终身强化学习：解决低采样效率和可扩展性问题

55 浏览量更新于2024-01-16 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报HLifeRL：一个分层的终身强化学习框架范鼎，朱飞苏州大学计算机科学学院，江苏阿提奇莱因福奥文章历史记录：接收日期：2022年2022年4月10日修订2022年5月2日接受2022年5月10日网上发售关键词：终身学习分层技能发现可扩展库A B S T R A C T单任务环境下的深度强化学习研究取得了显著的成果。然而，它往往是灾难性的遗忘，令人望而却步的低采样效率和缺乏可扩展性的问题时，面对多任务环境。为了解决这些问题，提出了一种基于生命周期的智能学习框架（HLifeRL），以技能发现（本文将选项视为低级技能）和策略策略的方式进行的一系列任务HLifeRL可以自动提取任务相关的知识，而无需任何人为干预或先验知识。此外，借助可扩展的库和主策略，我们可以灵活地组合各种技能，以调用和返回的形式完成多个任务。实验结果表明，HLifeRL可以加快单任务训练的速度，并在终身环境中提供显著的稳定性和可扩展性©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍强化学习使智能体能够在有限反馈的情况下解决顺序决策问题近年来，随着深度学习的发展，深度强化学习在多个领域取得了许多杰出的成就，例如围棋游戏中的AlphaGo（Silver et al.， 2016年）、视频游戏领域的AlphaStar（Vinyals和Babuschkin，2019年）和生物学领域的AlphaFold（Jumper等人，2021年）。然而，典型的深度强化学习方法需要大量的经验来改进策略，这不可避免地导致低样本效率，因为大多数经验在改进后变得没有什么用处。此外，这些经验代表了极其昂贵的数据和时间，导致了巨大的资源浪费这种情况在多任务设置中甚至更糟。此外，在多任务设置下，强化学习方法也遭受灾难性遗忘问题（Hayes et al.，2020;陈*通讯作者。电子邮件地址：zhufei@suda.edu.cn（法国）Zhu）。q 本工作得到国家自然科学基金（ 61303108 ）、江苏省自然科学基金（ BK20211102）、江苏省高等学校重点学科建设项目资助。沙特国王大学负责同行审查andMurata，2020; Thorne and Vlachos，2020）由于神经网络的先天局限性，即智能体在旧任务的基础上学习新任务，这将导致它们在旧任务上的性能急剧下降。此外，目前大多数多任务学习方法只关注于学习固定数量的任务。普通方法的神经网络结构一旦确定，就很难改变，不能满足越来越多的任务的需要。人类在日常生活中总是会遇到各种各样的任务流，但我们天生就有能力从这些任务中学习和记忆一些特定或一般的技能（Parisi etal.，2019;Raghavan等人， 2020年）。当我们再次遇到类似的情况时，我们不必从头开始学习，而是直接重用或微调所学的技能来完成任务（Lu等人，2020;李例如， 2020年）。我们称这种在一系列任务中不断学习的能力为终身学习。与多任务学习不同，多任务学习试图学习单一策略来完成一组固定任务，而迁移学习则利用从先前任务中获得的信息来加速新任务的训练过程，终身学习还要求模型具有可扩展性以适应新任务。受人类行为的启发，为了使智能体能够像人类一样不断学习，这三个功能是必不可少的：技能抽取。我们在面对单个任务或一系列任务时需要学习通用的、可重用的技能，这就要求我们建立技能库来存储学习到的技能;https://doi.org/10.1016/j.jksuci.2022.05.0011319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com●F. Ding和F. 朱沙特国王大学学报4313PðÞð Þ技能复用。我们需要在面对相同或相似的任务时能够利用学到的技能，也就是说，除了重用这些技能之外，模型还应该能够将知识转移到相似的任务中;技能扩展。随着训练任务的不断增加，当技能库中的现有技能不足以解决新的任务时，就需要学习新的技能并将其添加到技能库中。针对上述问题，我们旨在设计一种可扩展的多任务学习模型，以满足任务数量不断增加的需求我们采用选项框架作为技能发现方法，通过预训练提取低级别技能（以选项作为技能），并建立一个可扩展的库，我们称之为选项库，存储提取的选项供将来重用。通过选项库初始化主策略，以调用并返回的方式选择选项。通过这个终身学习框架（HLifeRL），我们能够通过预训练自动从源环境中提取可重用的任务相关技能。借助这些包含任务相关知识的技能，在训练新任务时，重用从先前任务中提取的技能中的有用知识，不仅可以减少多任务学习中对样本的需求，提高样本效率，而且可以对抗灾难性遗忘问题。此外，可扩展性可以通过添加从其他任务中学到的新技能来满足。通过我们进行了实验分析，我们的方法对一组在相同的分布下。实验设计和分析的重点目标是以下四个方面：是否存在外部提取的选项，在没有任何经验的情况下，是否可以重用以提高样本效率并加速训练过程;作为信息的载体，选项的内部策略是否能够抵抗灾难性遗忘，即这种方法在面对多个任务时是否能够保持其稳定性;既然人类只有通过结合以前任务中学到的技能才能完成一个新的任务，那么我们的方法是否也能够具备这样的可转移性，即其他任务中提取的选项是否能够转移到新的任务中;当仅传递旧任务的选项不能满足新任务的需求时，需要对库进行扩展。我们需要比较每个任务在扩展前后的性能，以测试其可扩展性。我们工作的主要贡献可归纳如下：本文提出了一种分层终身强化学习框架HLifeRL，该框架可以与任何技能发现方法相结合来解决多任务学习问题;以选项框架为例，演示了如何自动提取技能，并对这些外部技能进行重用政策当的下游任务到达;我们研究了我们的方法的可重用性，稳定性，可移植性和可扩展性，与现有的HRL和多任务学习方法相比，取得了优异的成绩。本文其余部分的组织如下。在第二节中，我们将介绍本文所涉及的基本理论和其他人所做的相关工作。我们将在第3节中重点介绍我们的方法的实现细节，并在第4节中对实验结果进行详细分析。最后，我们将在第5节中总结我们的方法。2. 预赛2.1. 强化学习强化学习是机器学习的一个分支。与机器学习的经典监督学习和无监督学习问题一样，再学习的最大特点是从交互中学习（Mondal，2020）。在与环境的交互中，Agent根据获得的奖励或惩罚不断学习知识，以更好地适应环境。强化学习的范式与人类的知识学习过程非常相似。它被认为是实现通用人工智能的重要途径。我们可以模拟一加固学习问题与一个MDPS;A;r;p;p0;c模型（Sutton和Barto，1998; Lee和Sutton，2021年）。强化学习的目标是获得最大的累积奖励Gt <$ctttt 1。随着深度神经网络的兴起，强化学习凭借其强大的函数拟合能力和表征能力，在一定程度上解决了其本身的高维本质问题深度学习的学习特点最近，一些深度学习工作取得了惊人的成果（Öztürk，2020;Öztürk，2021 a; Öztürk，2021 b）。深度学习方法擅长感知和表达事物，RL方法擅长学习解决问题的策略。为了更好地发挥各自的优势，研究者将深度学习和强化学习相结合，产生了深度强化学习方法。2.2. 分层强化学习当面对复杂问题时，我们可以参考人类的一些做法：将任务分解为多个更小更简单的子任务，这也是分层强化学习的核心思想（Barto和Mahadevan，2003; Krishna等人，2018;Nachum等人，2018;Riemer等人， 2018年）。目前，分层强化学习有三种主流框架：基于分层局部策略的学习（HAM（Parr and Russell，1997））、基于子任务的学习（MAXQ（Dietterich，2000））和基于选项的学习（Option Framework（Sutton et al.，1999年））。他们通过抽象将复杂的问题分解为更简单的子问题（Kulkarni等人， 2016），并利用层次结构来降低状态空间或动作空间的复杂度。分层强化学习中最流行的方法是选项框架（Bagaria et al.，2020;Smith等人，2018;Machado等人， 2017; Vezhnevets等人， 2017;Zhang等人，2021年）。一个选项由起始集合IS，内部策略p：S×A组成！1/20;1]和终止函数b：S！1/20;1]。如果一个任务正在进行中，只有当当前状态为t2时，选项：才可用。一旦一个选项开始执行，它总是基于其内部策略p来选择操作连续地，直到满足bst。输出概率决定终止当前选项，然后代理可以开始选择下一个选项（Sutton等人，1999年）。Option-Critic（Bacon等人，2017）将Actor-Critic（Bhatnagar和Panigrahi，2006）架构应用到选项框架中，通过策略梯度解决连续任务（Grondman等人，2012;Silver等人， 2014年）。2.3. 多任务学习和终身学习对于机器学习和神经网络模型，我们经常面临一个很大的挑战，那就是灾难性遗忘（Hayes et al.，2020; Chen和Murata，2020; Thorne和Vlachos，2020）。当同时训练多个任务时，它们通常会干扰●●●●●●●●●F. Ding和F. 朱沙特国王大学学报43142½Þ0彼此，导致业绩突然下滑。许多研究者为克服灾难性索取做了大量的工作. 渐进式神经网络致力于改变神经网络的结构，以避免灾难性的遗忘（Liu et al.， 2018年）。与通过改变神经网络结构来对抗遗忘的渐进式神经网络不同，迁移学习侧重于将在特定领域或任务中学到的知识或模式迁移学习是以预训练模型为载体，向目标任务迁移的学习方法。预训练是CV和NLP领域中的一种实用方法（Ni等人，2021;Hendrycks等人，2019;Brown等人， 2020年），但它很少用于强化学习。在HDRLN（Tessler等人，2017）和SEIHAI（Mao等人，2021），他们将复杂的开放世界任务分解为四个简单的子任务，并利用先验人类知识为这四个任务设置特定的环境。但我们认为，手动分解的子任务过于僵化，使得仅凭技能完成任务HDRLN中显示的实验结果正如我们猜想的那样：在完成任务时，近80%的时间使用原始动作，但通过艰苦的预训练获得的技能的同时，由于缺乏条件来判断技能在执行时何时终止，他们设定每个技能只执行K步，这可能导致技能无法获得其最佳效果。总之，我们认为使用预先训练的技能和层次结构来解决复杂任务是可行的，但这种方法需要大量的人为干预和先验知识。知识，这是不可取的。3. 方法受上述方法和思想的启发，我们希望将预训练方法与选项框架相结合，通过层次结构建立如图1由于选项是从任务中提取的子策略，因此它们应该携带与任务相关的知识或信息。我们可以通过建立一个选项库来存储必要时调用这些选项。此外，如果来自多个不同任务的选项可以被提取、存储和重组，则能够利用一个策略来完成多个任务。为了建立选项库，我们首先将基于选项的算法应用于多个任务，自动提取出一些可用于解决这些任务的选项。在将这些选项添加到选项库中之后，我们仍然需要学习如何使用它们。借鉴层次结构的思想，设计了一个基于选项库的主策略。选项库是已经学习和存储的技能，主策略相当于负责利用这些技能的调度程序。此外，选项库必须是可扩展的，以面对不断到来的新任务。3.1. 提取选项一个MDP模型S;A;r;p;p0;c由状态空间S、动作空间A、报酬函数r：S×A、状态转移核p：S×S×A组成.1/20;1]，初始分布p0：S！½0;1]和贴现系数c0; 1. 为了解决如何提取和再利用的问题技能，我们需要设计一个分层模型：高层负责学习如何合理地重用已学习的技能，低层负责学习和提取任务相关的技能。因此，我们将MDP分为两个级别：高级别MDPMh和低级别MDPM1。高级MDPMh可以表示为：Mh<$Sh;Ah;rh;ph;ph;ch;Sh<$S×O;Ah<$O <$1Fig. 1. HLifeRL的架构，（1）图的上半部分显示了如何使用HRL方法从不同的任务中提取有用的选项;（2）图的下半部分显示了主策略如何从选项库中学习重用这些选项F. Ding和F. 朱沙特国王大学学报4315不2LLFgf gðÞ@h←不@h不LLLLLLLLi¼t不不Ri1ckmaxQStk;o-QSt;Ot不PphSh1 jSh;A h ph Ot;St1 jOt1;St;A h称为主政策。总体政策可以吸收外部tt t-tð2Þ选项到自己的选项库中，从而学习掌握如何<$bAh<$OtpSt1jSt;OtphShphO;SpSbð3Þ利用这些外部选择。此外，为了适应不断到来的任务，选项库的容量000000O/O0是无限的。我们只需要在新任务到达时将从新任务中提取的选项添加到选项库与rhSh;Ah rhOt-1;St;Ot rSt;Ot4由方程式（1），O是选项库;在等式（2）中，（2）中Ot是主策略在时间t选择的期权，（3）中b是执行期权O的终止概率.低级MDPMl可以表示为：MS;A;r;p;p0;c;SS×O;AA5存在与任务相关的选项，主策略拥有一种概括。因此，我们只需要训练几步就能适应新的任务。我们将期权库表示为X，外部期权OiX。现在我们把选项库X作为动作空间的的硕士政策我们样品轨迹s=S0;O0;R1;S1;O1;R2;. ;ST;O T;R T 1;R T¼特罗克里，是总通过执行内部政策的k个步骤获得的奖励，选择的选项。然后我们可以从Qω导出pω：pl SljS;ApSt1jSt;AtpOt1jSt1;Ot6塔贝克plSllS;Op SpS;O7Oi¼t00000000ð9ÞrlSl;Al rlSt;Ot;AtrSt;At8U型糖尿病;ST1型糖尿病1-b St1最大Q值最大Q值最大Q值最大由方程式（5），A是原始动作空间;在等式（5）中，（7），pS;Oisþotþ þ奥托索河00期权的内部策略ð10Þ和option-critic一样，我们也假设一个期权可以被接受，任何状态，这意味着一个选项由fpO;bOg：pO组成，在选项的intra-policy中，bO是决定O是否在某些状态终止的终止函数。当代理根据ph做出高层决策时，低层期权内策略是固定的，从而优化ph;bO。同样，当代理根据fpOg做出低级决策时;ph是固定的，则因此优化fplg。在交替更新ph之后，和pl，我们得到并保持最优选择，为将来使用的知识。算法1：提取选项要求：任务K1：初始化高级策略ph，N选项2：s =K.reset（）3：while True：do4：根据s和ph选择Ot算法2：学习主策略Require：从多个任务中提取外部选项Oi 1：初始化主策略pX，选项库X2：将所有预训练的Oi添加到选项库中3：如果是新任务，则：4：使用算法1从新任务中提取选项5：将新选项添加到选项库中6：其他7：while True do8：根据s和pX选择Ot9：根据内部策略pOt执行Ot 以及b0t10：得到s0和Rt11，将s;0t;s0;Rt11添加到缓冲器11中：用SMDP Q学习更新12：UOt;St1← 1-botSt1QSt1;Otbot5、虽然不是6：i = 0bot;#s：doo2X13：QSt;Ot←QSt;Ota½Rt1[cUOt;St1-QSt;O t]7：选择一个accordin gtoopot;hajs8：执行动作a并获得下一个状态s0，并从环境获得9：修复ph，更新pot10：h←hah@logpo;hajsQUs;o;a11：R←rciR12：ss013：i+=114：结束时15：i = 016：Rh←RctRh17：修复pot，更新ph18： #←#-a#@bo;hs0Q Us0;o-VXs0第19章：结束20：返回提取的选项Oi2N3.2. 学习主政策为了有效地利用选项库中的选项，我们设计了一种针对选项库的策略，14：结束时15：如果4. 实验和结果4.1. 环境设置终身学习一般是针对具有相同分布的任务，这就要求任务具有一定程度的相似性。因此，我们在 dm- 对照组中选择 walker 结构域（Tunyasuvunakool等人，2020年）作为评价环境，它有五项任务：跑、站、倒、蹲、走。图2（a）和（b）示出了跑步和站立的示例。由于这些任务是非偶发性的，这意味着它们没有终点，不能用成功率来衡量。因此，我们选择每1000步作为一集，并计算其累积奖励作为最终得分。在选项提取算法中，我们采用了PPO算法作为更新方法。实验中使用的参数示于上表1中。Xt1QSt;Otci-tF. Ding和F. 朱沙特国王大学学报4316图二、来自DM控制的运行和站立任务的示例（Tunyasuvunakool等人， 2020年）。表1实验中使用的参数参数值num_options4熵权0.01贝他权重0隐藏单位主策略256隐藏单位单一选项64折扣0.99ppo剪切比0.2批次大小64学习率0.00034.2. 实验比较法我们选择以下三种算法作为我们实验的比较AHP （ Augmented Hierarchical Policy ）： AHP （ Levy andShimkin，2011）是一种使用策略梯度方法的统一的选项间和选项内学习。MT-PPO（多任务PPO）：多任务PPO（Schulman等人，2017）是一种多任务RL方法，旨在学习PPO算法以最大化多个任务的平均折扣回报。该算法的平均性能超过训练任务进行评估。PPOC（PPO Option-Critic）：PPOC（Klissarov等人， 2017）是一种将Option-Critic框架与PPO算法结合起来进行任务学习的结构。CARE（基于情境注意的再现学习）：CARE（Sodhani等人，2021）是一种新的MTRL表示学习算法，它利用了可解释编码器的混合，这些编码器对每个状态空间的任务和对象特定信息进行编码。CMA-ES（协方差矩阵自适应进化策略）：CMA-ES（Salimans等人，2017）是一种无梯度随机优化算法，具有出色的并行可扩展性，不变性（在某些变换下）和充分的理论分析。它在中等规模的复杂优化问题中表现良好。值得一提的是，与神经网络方法相比，进化算法具有较低的时间复杂度。我们的方法的时间复杂度是图3.第三章。图中的每一行代表从后仰、下蹲、行走和站立中提取的四个选项，总共16个。颜色代表每个任务选项的利用率颜色越深，利用率越高●●●●●F. Ding和F. 朱沙特国王大学学报4317o（m*n），m是需要执行的步骤，n是总的训练时期，进化算法的时间复杂度为O（n<$3=2 <$）。4.3. 算法评估可重用性。在使用算法1从多个不同的任务中提取选项到选项库中之后，我们需要检查这些外部选项的主策略的可重用性。这是因为这些选项是由相应任务的高级策略训练的，而主策略对它们包含的信息一无所知。为此，我们选择任务，包括步行，蹲，后仰和站立的评价环境。通过分别对这四个任务进行预训练，并将每个任务的选项数量设置为4，我们总共得到16个与任务相关的选项。在将它们添加到选项库中之后，我们应用主策略分别训练这四个任务。为了检查主策略是否充分利用了相应任务提取的选项而不是误用，我们分别展示了每个选项的利用率。如图3所示的结果，主策略总是选择与任务最相关的选项来执行不同的任务。此外，图4中的结果表明，我们的方法比其他方法（如AHP，PPO，PPOC，CARE和CMA-ES）获得更多的回报，并且在相同的步骤下具有更快的收敛速度。因此，从源任务中提取的选项确实包含任务相关的信息，并且可以被重用以加快训练速度并提高算法的性能稳定性。抵抗灾难性遗忘的能力对于终身学习的多任务环境至关重要。学习多个任务后能否保持训练单个任务的性能因此，我们使用算法2设计了一个带有可扩展选项库的主策略，并希望同时在多个任务上进行训练以测试其稳定性。在训练了四个任务之后，我们分别评估每个任务，以测试多个任务对主策略的影响。根据表4中的数据可以发现，我们的方法在多任务环境下的性能仍然可以达到单任务环境的95%以上，说明通过选项组合的方式分解任务，只需要很少的选项就可以完成任务。随着任务数量的增加，对于主策略来说，只是增加了一组离散的高级动作，关于如何选择低级动作并不涉及主策略，因为具体的动作执行步骤已经保存在选项中因此，我们可以通过这种方式保持稳定，以对抗灾难性的遗忘。可转移性。在图4中，我们发现除了与任务相关的选项的高利用率之外，其他任务的一些选项也具有相对较高的利用率。此外，表4中的结果表明，在多任务环境中，通过我们的方法在步行任务中获得的奖励不低于单任务环境，这使我们怀疑主策略是否可以通过灵活组合从不同任务中获得的选项来解决新任务。换句话说，我们的方法是否可转移。因此，在不添加额外选项的情况下，我们只使用从后退、行走、站立和蹲下中提取的选项来训练跑步任务，以测试和验证我们的方法是否能够转移。学习曲线图。 5和图 6表明，主策略仅通过组合来自其他任务的选项就可以实现卓越的性能，即使与正在运行的任务相关的选项图四、分别训练HLifeRL、AHP、PPO、PPOC和CARE四个任务的学习曲线我们以每1000步为一集，并计算其平均奖励，总共训练了200万步为了使曲线更直观，我们在绘制时平均每20集取一次F. Ding和F. 朱沙特国王大学学报4318表2HLifeRL和其他比较方法在五种不同随机种子下的平均最终得分表3显示了他们所花费的总步骤和时间。HLifeRLAHPPPOPPOC护理CMA-ESdm-walker-backward590.06387.62496.31387.93513.79110.29dm-walker-squat803.41376.84572.34506.81786.54737.85dm-walker-walk451.83198.43313.25145.94164.34147.29DM-步行器-支架743.67190.36497.82213.63576.49322.32表3每种方法的总训练步骤和时间需要特别说明的是，由于CARE同时训练4个任务，共4 M步，因此取总时间的1/4作为每个任务的训练时长。HLifeRL（秒/步）AHPPPOPPOC护理CMA-ESdm-walker-backward5316/1,000,0001945/1,000,0001260/1,000,0002181/1,000,0008267.75/1,000,0001329/10,240,000dm-walker-squat5406/1,000,0001875/1,000,0001019/1,000,0002302/1,000,0008267.75/1,000,0001293/10,240,000dm-walker-walk5293/1,000,0002023/1,000,0001112/1,000,0002420/1,000,0008267.75/1,000,0001399/10,240,000DM-步行器-支架3987/1,000,0001925/1,000,0001052/1,000,0002233/1,000,0008267.75/1,000,0001288/10,240,000表4在评估过程中，我们将每1000步作为一个事件，总共评估了2000个事件。表中的数据是2000集的平均奖励。任务名称四项任务单任务dm-walker-backward590.06614.32dm-walker-squat803.41837.56dm-walker-walk451.83424.29DM-步行器-支架743.67781.77不包含在选项库中。这表明，选项作为一种从较低层次提取的知识，可以作为迁移学习的媒介。可扩展性。实现终身学习的另一个重要部分是可扩展性，因为在正常情况下，我们遇到的任务数量是不固定的。这意味着我们的选项库需要随着任务数量的增加而扩展。因此，为了验证选项库扩展后主策略是否保持稳定，我们在原有四个任务的基础上增加了运行任务。我们通过添加从正在运行的任务中提取的新选项来扩展我们的选项库，然后评估这五个任务以测试扩展的选项库是否具有对实验性能的影响。在添加新任务和扩展选项库后，主策略在各个任务下的性能没有受到明显影响，在5个任务环境下的性能仍能达到4个任务环境下的95%以上。图7和表5中的实验结果表明，我们的方法具有很大的扩展性，在面对日益增加的任务数量。4.4. 实验分析在提出我们的想法后，我们做了大量的实验来测试我们的方法的可行性首先，为了证明没有经验的外部主策略可以重用从其他策略与环境交互中提取的选项，我们从四个任务中提取了四个选项，共16个选项，并将它们添加到选项库中，然后用主策略分别训练每个任务。从图3和图4中可以发现，提取的选项可以被主策略重用，与其他方法相比，加快了训练速度，提高了训练效果。此外，从表2和表3可以看出，虽然我们的方法需要图五、正在运行的任务的训练曲线，蓝线表示HLifeRL只通过其他任务的选项进行训练，而不提取与正在运行的任务相关的选项见图6。从源任务中提取的选项转移到目标任务的利用率。比其他方法训练时间更长，可以达到更好的效果。由于外部选项在单任务环境中的可重用性已经得到验证，因此我们测试了F. Ding和F. 朱沙特国王大学学报4319见图7。添加新任务后平均奖励对比50万步。橙色线是只有四个任务时的性能，蓝色线是增加一个任务后的性能。表5在评估过程中，我们将每1000步作为一个事件，总共评估了2000个事件。表中的数据是2000集的平均奖励。任务名称5个任务4个任务dm-walker-backward480.32469.14dm-walker-squat923.65934.06dm-walker-walk427.77448.36DM-步行器-支架798.46820.94多任务环境中的主策略。表4中的结果表明，当同时学习四个任务时，主策略仍然可以保持其稳定性。在多任务环境的训练过程中，我们发现多任务设置下的表现超过了单任务设置，这让我们怀疑选择从其他任务中提取的选项是否会更好在某些情况下。因此，我们打算利用从四个源任务中提取的选项来转移到新添加的任务。结果如图5和图6所示。主策略只能通过四个源任务的选项来完成新的目标任务，证明这些选项确实可以被视为知识转移的媒介。最后，由于终身设置下的任务数量正在增加，虽然新的任务可以通过转移来完成，在某些情况下，有些任务可能与以前的任务不同，因此不适合转移。因此，可扩展性也是我们的方法所需要的。我们计划将同步训练任务的数量从4个增加到5个，因此选项库中的选项数量从16个增加到20个。如图7和表5所示，新添加的任务对实验结果的影响很小，这表明了我们方法的可扩展性5. 结论为了实现终身学习，本文将预训练模型的思想引入到深度强化学习中，在层次强化学习中部署了期权框架（或任何其他技能发现方法）作为预训练方法来从每个任务中提取任务相关知识，设计可扩展库来存储学习技能，然后初始化主策略，以调用并返回的形式从库中选择技能。实验结果表明，我们的方法优于其他方法在单任务训练，这表明，通过预训练得到的选项可以重用，在没有任何先验经验。我们还尝试在多任务环境下进行训练，发现训练前的任务相关技能不仅可以存储信息，而且可以显著缩小主策略的动作空间，从而提高样本效率和应对灾难性遗忘的能力。此外，我们还测试了我们的方法的可移植性和可扩展性。当遇到类似的任务时，可以重新组织从其他任务中获得的选项，以获得最优策略。当一个新的任务到来时，我们只需要提前提取选项并将其附加到库中，我们就可以通过很少的训练步骤掌握任务。在我们的框架中，智能体可以以无监督的方式从任务中自动提取基本技能，并在多任务环境中选择最佳技能在适当的时间执行。我们希望通过这种分层+预训练的方法尽可能地接近终身学习，使智能体能够像人类一样具有持续学习的能力。F. Ding和F. 朱沙特国王大学学报4320预训练模型被广泛应用于自然语言处理领域以提取一些底层知识，强化学习也被应用于自然语言处理任务。在未来，我们将弄清楚如何将分层强化学习中的潜在技能提取方法应用于NLP任务。此外，随着任务数量的增加，技能的数量也会不断增加。越来越多的技能意味着主策略的动作空间变得难以控制的巨大，增加了学习的难度。如何缓解这一问题，也是我们今后的工作方向之一。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用Bacon ，P. ， Harb ， J. ，普雷卡普，D. ， 2017. 选择批评架构，在：Singh ， S.P. ，Markovitch，S.（编），第三十一届AAAI人工智能会议论文集，2017年2月4日至9日，美国加利福尼亚州旧金山， AAAI 出版社。 pp. 1726-1734. 网址：http://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14858.Bagaria，A.，Konidaris，G.，2020年。使用深度技能链的选项发现，在：第八届国际学习表示会议，ICLR 2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日， OpenReview.net 。 URL ： https ： //openreview.net/forum ？id=B1gqipNYwH。Barto，A. G.，Mahadevan，S.，2003.分层强化学习的最新进展。离散事件动态系统13，41-77。Bhatnagar，S.，Panigrahi，J.R.，2006.层次马尔可夫决策过程的行动者-批评者算法。Automatica 42，637-644.布朗， T. ，曼恩湾，赖德， N. ，苏比亚， M. ，卡普兰， J.D. ，达里瓦尔， P. ，Neelakantan，A.，希亚姆，P.，萨斯特里，G.，阿斯克尔，A.，例如，2020.语言模型是很少机会的学习者。神经信息处理系统的进展 33，1877-1901。Chen，L.，中国地质大学，Murata，M.，2020年。增强网络模块化以减轻灾难性遗忘。应用网络科学5，1-24。Dietterich，T.G.，2000.分层强化学习与maxq值函数分解。J. Artif.内特尔Res. 13，227-303.格隆德曼岛布索纽湖洛佩斯， GAD ，巴布斯卡河 2012. A Survey of Actor-CriticReinforcement Learning：Standard and Natural Policy Gradients. IEEE Trans.Syst.ManCybern.PartC42，1291-1307.https://doi.org/10.1109/TSMCC.2012.2218595。Hayes，T.L.，Kafle，K.，Shrestha河，Acharya，M.，卡南角，澳-地2020年。提醒你的神经网络防止灾难性的遗忘，在：Vedaldi，A.，Bischof，H.，布罗克斯，T.，Frahm，J.（编辑），2020年欧洲计算机视觉会议，Springer。pp. 466-483. doi：10.1007/978-3-030-58598-3_28。Hendrycks，D.，李，K.，Mazeika，M.，2019.使用预训练可以提高模型的鲁棒性和不确定性，参见：Chaudhuri，K.，萨拉胡季诺夫河（编），第36届机器学习国际会议论文集，ICML2019，PMLR。pp.2712-2721.网址：http://proceedings.mlr.press/v97/hendrycks19a.html。Jumper，J.，埃文斯河，Pritzel等人，2021年使用Alphafold进行高精度蛋白质结构Nature 596，583Klissarov，M.，Bacon，P.，Harb，J.，普雷卡普，D.，2017.端到端的学习选项，用于连续操作任务。计算研究库 abs/1712.00004 。网址： http ：//arxiv.org/abs/1712.00004，arXiv：1712.00004。克里希纳，K.，Toshniwal，S.，Livescu，K.，2018年基于ctc的语音识别的分层多任务学习计算研究库abs/1807.06234。网址：http：//arxiv.org/abs/1807.06234，arXiv：1807.06234。Kulkarni，T. D.，纳拉西姆汉，K.，Saeedi，A.，Tenenbaum，J.，2016.分层深度强化学习：整合时间抽象和内在动机，在：神经信息处理系统的进展29：神经信息处理系统2016年年会，pp。3675-3683.网址：https://proceedings.neurips.cc/paper/2016/hash/f442d33fa06832082290ad8544a8da27-Abstract.html。Lee，J.Y.，Sutton，R.S.，2021年连续时空中强化学习问题的策略迭代-基本理论与方法。自动126，。https://doi.org/10.1016/j.automatica.2020.109421109421.Levy，K.Y.，Shimkin，N.，2011年。使用策略梯度方法进行统一的选项间和选项内学习pp. 153-164. doi：10.1007/978-3- 642-29946-9_17。Li，T.，Lambert，N.O.，卡兰德拉河，Meier，F.，Rai，A.，2020.使用分层强化学习学习可概括的运动技能，在：2020年IEEE机器人与自动化国际会议，ICRA 2020，IEEE。pp. 413-419. doi：10.1109/ICRA40945.2020.9196642。刘，C.，Zoph，B.，诺伊曼，M.，例如，2018年Progressive neural architecturesearch，in：Computer Vision-ECCV 2018pp. 十九比三十五doi：10.1007/978-3-030-01246-5_2。卢，K.，Grover，A.，Abbeel，P.，莫达奇岛，2020.具有技能空间规划的免重置终身学习。计算机研究库abs/2012.03548 。网址： https ： //arxiv.org/abs/2012.03548 ，arXiv：2012.03548.Machado，M.C.，Bellemare，M.G.，保龄球，MH，2017.强化期权发现的Laplacian 框架学习，第 34 届机器学习国际会议论文集， ICML 2017 ，PMLR。pp.2295-2304.网址：http://proceedings.mlr.press/v70/machado17a.html。毛，H.，Wang，C.，中国地质大学，Hao，X.，毛，Y.，吕，Y.，吴，C.，郝，J.，Li，D.，Tang，P.，2021. 清海：一个用于minerl竞赛的样本有效分层人工智能。分布式人工智能国际会议，Springer，38-51。Mo

下载后可阅读完整内容，剩余1页未读，立即下载