在PPO算法中的动作掩码优化策略

182 浏览量更新于2024-01-09 收藏 665KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com上在线获取ScienceDirectICTExpress 6（2020）200www.elsevier.com/locate/icte在邻近策略优化（PPO）算法中实现动作掩码作者：刘建宏，陈维凯，陈兴臣.你...国立台北科技大学计算机科学与信息工程系，台北，台湾接收日期：2020年2月19日;接收日期：2020年4月16日;接受日期：2020年5月15日2020年5月20日网上发售摘要最近策略优化（PPO）算法是一种很有前途的强化学习算法。在本文中，我们提出在PPO算法中添加一个动作掩码。掩码指示动作对于每个状态是有效还是无效。仿真结果表明，与原算法相比，该算法在训练步数适中的情况下获得了更高的收益。因此，我们认为，如果适用，结合这种掩模是有用和有价值的c2020年韩国通信与信息科学研究所（KICS）。出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：PPO;无效动作;强化学习1. 介绍机器学习领域最近受到了很多关注。一类机器学习算法监督学习，广泛用于分类和回归问题。第二类是无监督学习，用于聚类和降维。然而，当目标是训练代理执行特定任务（如玩视频游戏）时，应用程序既不是分类问题，也不是聚类问题，监督或无监督学习方法都不适用。在这种类型的应用中，可以采用强化学习（RL）算法[1]。在RL算法中，智能体可以根据环境提供的奖励来学习如何很好地执行特定任务。最近，许多RL算法采用神经网络作为构建模块，以进一步扩展其功能到基于视频的问题，例如玩视频游戏，其水平可与人类专家相媲美[2]。RL算法通常结合优化策略来找到（次）最优解。根据最优性的标准，有几种类型的RL算法可用。一种是基于值的算法，它依赖于∗ 通讯作者。电子邮件地址：kenneth@nssh.onmicrosoft.com（C.-Y. Tang），cliu@csie.ntut.edu.tw（C.-H. Liu），wkc@csie.ntut.edu.tw（W.-K.Chen），you@csie.ntut.edu.tw（S.D.你）。同行评审由韩国通信和信息科学研究所（KICS）负责https://doi.org/10.1016/j.icte.2020.05.003使用值函数来估计训练期间动作的返回。这一类的一个著名算法是用于玩视频游戏的深度Q学习（DQN）算法[2]。尽管DQN算法取得了成功，但它另一种广泛使用的强化学习算法称为基于策略的算法.这种类型的算法试图直接学习最优策略，并且策略提供每个动作的概率。为了学习策略，代理在一系列状态中采取行动，并为每个行动获得奖励。动作、状态和奖励的集合形成了一个轨迹。通过轨迹，可以训练特工。原有的基于策略的算法存在训练效率低的问题。具体来说，收集的轨迹仅用于训练智能体一次。为了提高训练效率，人们提出了许多算法. 其中之一是最近策略优化（PPO）算法[3]。由于其优越的性能，PPO算法的变体被OpenAI选为默认RL算法[4]。当将RL算法应用于现实世界的问题时，有时并不是所有可能的动作在特定状态下都是有效的（或允许的）。无效的动作可能是无用的动作或禁止的动作。让我们以蛇的视频游戏[5]（也见第3节）为例。蛇不能转身如果它已经向东移动了。在这个特殊的州，“东进”行动2405-9595/2020韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。=≤≤不不的t不不C.- Y. 唐角，澳-地H. 刘伟K. Chen等人 /ICT Express 6（2020）200-203201另一个例子是自动股票交易，交易代理人不允许购买超过可用现金可以购买的股票（禁止）[6]。因此，有时候从候选操作中识别和排除无效操作是有用的（甚至是必要的）。Zahavy等人[7]在DQN中纳入了无效操作。他们报告说，在训练中速度大大提高。Gao [6]将DQN中的有效行动概念用于股票交易游戏，以避免结算违约。Wu等人[8]使用可训练的动作掩码来提高基于模型的RL的样本效率至于PPO算法，据作者所边缘，没有现有的文献研究的性能除了在互联网论坛上的一些讨论之外，还排除了无效的行动。作为我们的作者之一，C-Y Tang是讨论这个问题的早期参与者，我们希望向公众分享我们的方法和实验结果。我们的方法包括一个动作掩码，表明在每个状态下的有效/无效的行动，和一个程序，重新规范化的有效行动的概率。结果表明，在PPO算法中从动作列表中删除无效动作确实可以减少训练时间（或增加相同数量的训练epoch的返回），类似于[7]中的报告。本文的组织结构如下。第二节是PPO算法的描述和建议的修改，排除无效的行动。第3节描述了实验和结果。第四部分是结论。2. 带动作掩码的2.1. 原始PPO算法图1给出了PPO算法[3]的简化版本。最初，代理随机确定概率图1.一、P P O 算法的简化版本。其中γ是在实验中设置为0.9的折扣因子。如果我们进一步定义δt=（rt+γ v（st+1）−v（st）），（3）然后通过添加平滑因子λ（在实验中设置为0.95），Gt可以表示为Gt=δt+γ λδt+1+（γ λ）2δt+2+ · ·· +（γ λ）Nδt+N（4）在实际实现中，代理网络和优势网络共享相同的神经网络，除了输出层。每一步的回报可以计算为Rt=Gt+v（st）（5）一旦我们有了优势函数G，我们就可以执行梯度搜索来调整网络参数θ。搜索是最大化以下目标函数J（θ）=J1（θ）+J2（θ）+J3（θ）（6）第一项的核心是以下代理函数每一个行动。在实现方面，代理可以是p（θ）=yat（st）（七）神经网络当与环境相互作用时，智能体可以收集轨迹是的（st）T=（s， a， y′（s）， r）：1≤t≤M（1）其中yat（st）是状态st相对于在训练过程中从代理网络测试动作。注意其中st是状态（来自环境）或输入到智能体，at是采取的行动，y′at（st）是采取行动at的概率，1at K在K个行动中，rt是采取行动at后收到的奖励。为了简化讨论，我们假设一个轨迹恰好包含一个事件，以便可以计算每个状态下的返回Rt（也参见等式2）。（5））。在典型情况下，代理从产生ya′t（st）的装置。实际动作at是根据ya′t（st）随机选择的。例如，如果y3′（st）0的情况。9，这意味着行动3有90%的机会被选中。一旦获得轨迹T，我们需要计算优势函数G。假设我们有另一个输出为v（st）的神经网络来估计状态值函数Vπ（st），这是从状态st到事件结束的期望回报，具有策略π。然后，我们可以计算N步优势为：Gt=rt+γrt+1+γ2rt+2···+γNrt+N−v（st）（2）=·∑y′at（st）存储在轨迹T中，并被视为常数当计算梯度时。等式（7）我们有J1（θ）=min（pt（θ） Gt，clip（pt（θ）， 1−k，1+k）Gt）（8）其中clip（）是一个裁剪函数，而x2是它的参数。我们用100美元。2在实验中第二个术语是优势评估网络。该项计算为：J2（θ）= −C1（v（st）−Rt）2（9）第三项是熵项，用于鼓励智能体探索。该项计算如下J3（θ）= −C2yk（st）log（yk（st））.（十）K请注意，这里描述的算法使用随机梯度下降来简化解释。它可以很容易地修改以执行小批量梯度下降。==≤≤k−×=-=-××3×4202C.- Y. 唐角，澳-地H. 刘伟K. Chen等人/ICT Express 6（2020）2002.2. 添加动作遮罩典型的RL模型包含一个与环境交互的代理。为了排除无效的动作，我们使用动作掩码，它指示每个动作在每个状态下是有效还是无效。要使用动作掩码方法，必须修改代理和环境块。环境需要提供掩码来指示哪些操作是无效的，然后代理会忽略这些操作。为了结合这种变化，图1中的PPO算法需要进行以下修改。在轨迹T.在随机下降过程中，同样只使用有效的动作来计算方程。（六）、由于该算法忽略了无效动作，有效动作的概率需要重新归一化。在我们的实现中，代理网络的输出层使用softmax激活函数。因此，通过仅为有效动作计算softmax输出来执行重新归一化过程。例如，假设代理有四个动作，即，K4，动作1和2对于状态st无效.设softmax函数之前的值为pk。然后，有效动作yk的概率计算为：yexp（pk），3k4.（11）exp（p）+exp（p）图二、视频游戏蛇的截图。符号和““分别表示蛇的果实、蛇壁、蛇头和蛇身。图三. 实验一的模拟结果。纵轴是每集结束时收到的奖励，横轴是步层有四个节点，分别对应东、西、南、北四个动作。除了输出层中使用softmax的节点外，所有其他节点都使用ReLU函数。训练后，情节结束时的奖励，在我们的实现中，我们设置p1代理中的p2用于反向传播的程序，以正确地更新网络参数θ。此外，我们还设置了y1y20，以保证这些动作永远不会被选择。3. 实验和结果为了检查所提出的方法的性能，我们基于OpenAI稳定基线[10]实现了该方法，并进行了所有必要的代码修改。我们的代码可以在[11]中找到。我们进行了两个实验来评估删除无效操作的性能[12]。第一个实验是一个缩小版的经典蛇视频游戏。我们的实现的屏幕截图如图2所示。在游戏中，蛇可以转向东、西、南或北。如果蛇吃了一个，得分增加一个水果（食物）实验中使用了两种版本的RL算法。一个使用原始的PPO算法，而另一个使用所提出的算法。在最初的版本中，如果蛇头撞到自己的身体或墙壁，情节就结束了，并给予1的奖励。否则，情节在1,000步后停止。在建议的版本中，导致撞到自己身体或墙壁的动作被设置为无效动作。但是，如果根本没有有效的操作，则所有无效的操作都被视为有效。在这个实验中，智能体是一个四层全连接的神经网络的它被称为稳定基线中的MlpPolicy模型。由于屏幕由10个字符组成，因此输入层具有100个节点。它后面是两个隐藏层，每层有64个节点。输出版本从TensorBoard获得，如图3所示。可以清楚地看到，在所提出的算法中的代理比它的对手表现得更好，特别是当训练步骤的数量达到2M步骤。由于建议版本中的蛇然而，这个实验表明，在某些情况下，限制有效操作的选择确实很有用。由于第一个实验似乎太简单，我们提出的方法，然后进行第二个实验。该实验是“迷宫中的小鼠”的简化版本在这个实验中，如果老鼠吃了一个水果，奖励是2。如果它吃了毒药，奖励是-1，情节结束。如果鼠标到达出口，奖励为1，情节也结束。在原始版本中，任何导致撞墙的动作都被忽略（没有惩罚），并且在所提出的算法中是无效的动作。同样，最大数量也就是1,000步这个实验中的智能体是一个卷积神经网络加上LSTM（长短期记忆）。已知作为稳定基线中的CnnLstmPolicy模型。将大小为20 20的映射直接发送到第一卷积层。这一层有32个大小为4 4的内核，步长为2。第二卷积层也有32个大小为4 × 4的内核，但步长为1。接下来是一个flatten层，然后是一个256个节点的LSTM层最后，输出层也有四个节点，分别对应于上、下、左、右的移动。在比较中再次使用了两个版本的算法。对于情节结尾奖励的实验结果是··C.- Y. 唐角，澳-地H. 刘伟K. Chen等人 /ICT Express 6（2020）200-203203行动清单仿真结果表明，当训练步数较小时，或者等价地，对于相同的收益水平，较短的训练时间，获得的回报要高得多。因此，在适用时删除无效操作是值得的。CRediT作者贡献声明Cheng-Yen Tang：方法论，资源，软件。刘建宏：概念化，方法论，调查，写作-评论编辑。陈维凯：概念化、方法论、调查、写作-评论编辑。辛彻恩湾你：概念化，方法-见图4。一个屏幕截图的视频游戏鼠标在一个迷宫。字符的含义是“X”为墙，“M”为老鼠，“F”为食物，“P”为毒药， E图五. 实验二的模拟结果。纵轴是每集结束时的奖励，横轴是步数示于图五、同样，当训练步数小于600 k步时，该算法具有更高的收益。还观察到，两个代理人都有低回报的山谷。在PPO算法中看到这样的谷并不罕见。这可能是由于替代函数和方程中的原始函数（七）、为了了解所提出的方法的计算节省，我们还测量了两个实验所需的执行时间。实验结果表明，该方法的扩展时间与步长成线性关系.在第一个实验中，对于10 M步骤，训练时间为4.8 h（原始）vs 5.6 h（拟定），在第二个实验中，对于2.5 M步骤，训练时间为6.5 h vs 6.8 h。因此，执行时间的额外成本分别为16.7%和4.6%。从图3和5，我们知道训练步骤的节省远大于16.7%和4.6%，因此所提出的方法确实可以减少训练时间。当然，对于具有许多无效动作的其他应用程序，训练时间的实际节省可能不同，并且必须通过实验确定。4. 结论本文提出了一种修改的PPO算法，通过增加一个动作掩码，以排除无效的行动，从研究，调查，写作-原始草案，项目管理，资金获取。竞合利益作者声明，他们没有已知的可能影响本文所报告工作确认这项工作得到了台湾科技部（MOST）通过赠款MOST108-2221-E-027-089的部分支持。引用[1] R.萨顿，A.G. Barto，Reinforcement Learning：An Introduction，Seconded.，麻省理工学院出版社，马萨诸塞州剑桥，2018年。[2] V. Mnih等人，Human level control through deepreinforcementlearning，Nature 518（2015）529-533.[3] J. Schulman等人，Proximal policy optimization algorithms，2017，arXiv preprint arXiv：1707. 06347.[4] OpenAI Ltd.，Gym toolkit software [Online]，Available：https：//gym. 我爱你。com/.[5] ttps：//en. 我的天啊。org/wiki/Snake_（video_game_genre）。[6] X. Gao，时间序列的深度强化学习：玩理想化的交易游戏，2018，arXiv：1803。03916.[7] T. Zahavy等人，学习什么不学习：行动消除与深度强化学习，高级神经信息处理。系统（2018）3562-3573。[8] Y.-- C. Wu等人，TAM：使用可训练动作掩码提高对话系统强化学习中的样本效率，第33届会议。神经信息处理系统，2019年，pp。1-8号。[9] https：//github. com/hill-a/stable-baselines/pull/453.[10] https：//github. com/hill-a/stable-baselines.[11] 修改后的代码可在https：//github获得。com/NTUT-SELab/stable-baselines/tree/ActionMask.[12] 源代码可以在 https ： //github 上找到。 com/NTUT-SELab/ConsoleGame-ActionMask. 你好。

下载后可阅读完整内容，剩余1页未读，立即下载