深度强化学习的稳定性：监督预训练方法

27 浏览量更新于2023-12-09 收藏 725KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectICTExpress 9（2023）51www.elsevier.com/locate/icte有监督的预训练提高深度强化学习的稳定性Sooyoung Jang，Hyung-Il Kim电子和电信研究所（ETRI），韩国大田接收日期：2021年8月31日;接收日期：2021年11月16日;接受日期：2021年12月27日2022年1月3日上线摘要随着深度学习的最新进展，深度强化学习（DRL）技术得到了积极的研究。因此，研究人员正在不断提高性能并扩展应用。然而，最近的文献报道，DRL对各种设计选择敏感，例如，神经网络初始化因此，这使得DRL难以获得稳定的性能，这降低了再现性。因此，我们提出了一种用于策略和价值网络的监督预训练方法，以提高稳定性。我们预先训练策略网络以最大化初始熵，并预先训练价值网络以使分布偏向于一个具体的值。实验是在动作空间离散、初始熵难以控制的任务上进行的。通过通过实验验证了该方法在稳定性和性能方面的有效性© 2021作者（S）。出版社：Elsevier B.V.代表韩国通信和信息科学研究所这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：深度强化学习;预训练;监督学习;最大熵;稳定性1. 介绍深度强化学习（Deep Reinforcement Learning，DRL）是一种基于深度神经网络的序列决策优化技术。由于深度学习的进步，它已被积极研究[1-在代表性的DRL算法中，邻近策略优化（PPO）[6]算法被提出用于低得多的计算复杂度，同时保持信任域策略优化（TRPO）[2]的稳定性和可靠性。简而言之，PPO [6]建议削减概率比以抑制破坏性的策略更新。异步优势在[8]中，软行动者-批评者（SAC）被提出用于最大化期望报酬和熵。作者在[8]中声称，SAC通过将非策略更新与稳定的*通讯作者。电子邮件地址：sy. etri.re.kr（S.Jang），hikim@etri.re.kr（H.-I. Kim）。同行审议由韩国通信研究所负责教育与信息科学（KICS）。https://doi.org/10.1016/j.icte.2021.12.015随机行动者-批评者公式尽管DRL最近取得了进展，但DRL算法的性能仍然对设计选择敏感，例如，正则化、状态表示、超参数和网络初始化。换句话说，DRL算法的性能相应地变化，需要大量的试验和错误来获得良好的性能。有几项研究调查了设计选择的影响，并为在DRL框架中实现高性能提供指导或提出解决方案[13在连续控制任务中对正则化技术进行了全面的研究[13]。他们发现策略网络上的规则化技术通常可以带来相当大的改进，并有助于DRL的推广。在[15]中，作者实验性地研究了设计选择，并通过指出DRL算法对问题公式化敏感，提出了一种搜索算法来找到最佳观察空间。此外，作者在[16]中讨论了几种设计选择（例如，状态表示，初始状态分布），以研究DRL环境中设计选择的影响。此外，在[17]中，解决了PPO算法中标准设计选择最近，在连续控制任务下进行了一项大规模实验研究，调查了50多种设计选择，以了解其对DRL性能的影响[18]。作者在[18]中提供了政策初始化的见解2405-9595/© 2021作者。由Elsevier B.V.代表韩国通信和信息科学研究所出版。这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。S. 张和H.-I. 金ICT Express 9（2023）5152−[]L=k··≥−+π （a）|个）Kθ+=L显著影响性能，并且动作分布以零为中心，假设动作空间位于在[1，1]中实现了较高的训练性能。在文献[19]中，给出了在DRL框架中具有离散动作空间的任务下熵的重要性。他们表明，高学习失败率归因于初始熵分布偏向于低值，这阻碍了最初的探索。此外，他们提出了熵感知模型初始化，这降低了学习失败率，以及训练性能和吞吐量的额外好处。[20]通过最大熵初始化来实现有效的任务自适应。它提出了一种输出层的权重初始化方案，该方案在不同的任务中替换预训练模型的输出层，以防止被替换的输出层处的反向传播误差对预训练参数的污染。总之，最近的工作实验表明，DRL框架的性能敏感地取决于几个设计选择。此外，一些研究进行了调查，以了解设计选择对特定类型任务的影响，并根据调查提出了策略，2.1. 最近策略优化策略梯度方法使用行动者-批评者框架来联合优化策略和值函数。其中，PPO [6]算法是迄今为止成功且被广泛采用的策略梯度方法之一[11，21为了稳定优化过程，PPO算法通过裁剪或Kullback-Leibler（KL）发散来惩罚破坏性的策略更新。通过以下优化更新策略πθ的参数θθk1arg maxE[ （ s ，a ， θk ， θ ） ] ，（ 1）θs， a<$πθk其中s，a和π θk 是国家、行动和政策，第k次更新。根据[6]，引入了两个客观选择，即，截断代理目标（LC）和自适应KL惩罚系数（LK），它们由下式定义：C（s，a，θ，θ）minπθ（a|s）A πθk（s，a），g（n，Aπθk（s，a）），π θk（a|个）（二）增强性能、稳定性和吞吐量。L（s，a，θk，θ）=πθ（a|个）Aπθk （s， a）−βKL[π，π]，⑶对于策略网络和价值网络，基于上述观察，神经网络的初始状态显著影响DRL的性能。我们的目标是通过监督学习对神经网络进行预训练，从而以较小的开销提高稳定性和性能。我们的目标任务与离散的行动空间，这是难以控制的初始熵。然而，连续动作空间的初始熵可以很容易地通过调整标准差来控制首先，我们通过在目标任务上使用策略网络进行部署来收集数据进行监督预训练。然后，我们使用数据作为输入并使用具有最大熵的概率分布作为地面实况（GT）来预训练策略网络，以最大化初始熵以进行有效的探索。此外，我们使用数据作为输入和特定值来预训练价值网络，例如，0.0，作为GT，将分布偏置到该值。通过实验验证，该方法有效地最大化了初始熵，并使初始值的分布有偏，从而提高了稳定性和性能。此外，所提出的预训练仅需要不到10 s。在第2节中，我们首先简要讨论PPO [6]，这是我们用于训练代理的基线算法，然后我们详细介绍了所提出的监督预训练方法。在第3节中，我们展示了实验结果。最后，我们在第4节中总结了本文。2. 用于深度强化学习的监督预训练在本节中，我们简要回顾了本文中采用的PPO算法[6]作为基线DRL算法。然后，详细描述了所提出的监督预训练方法。其中g表示返回（1 <$）A πθk的限幅函数（s，a）如果A πθk（s，a）0，否则，（1Aπθk（s， a）.而且，Aπθk是优势函数，KL [，]测量KL发散。根据所设计的目标，作者在[6]中表明PPO算法具有稳定性和可靠性，且实现简单。然而，如前所述，包括PPO的DRL算法对初始设置敏感，这加剧了稳定性，尽管它们是有效的。在本文中，我们认为PPO作为提高日间行车灯稳定性的基线，因为它的高性能和广泛采用，但不限于此。2.2. 有监督预训练算法为了获得可靠的性能，即，改进DRL代理的稳定性，我们提出了一种有监督的预训练方法，用于DRL中的策略和价值网络。主要内容如下：对于以θ为参数的策略网络，我们使用监督信号对网络进行预训练，以最大化初始熵，从而进行有效的探索和训练。由φ参数化的价值网络被预先训练以使价值网络的分布集中在特定值周围，以提高稳定性和性能，这是受[18]的启发。首先，我们分别使用初始参数θ0和φ0初始化策略π和价值V网络，使用Glorot uniform [25]或orthogonal [26]等内核初始化器。接下来，我们在任务E中使用初始策略πθ0执行铺开T个时间步，并收集状态S。我们可以很容易地将这个状态收集过程扩展到多个工作者。最后，使用S，我们用不同的··本文提出了一种有监督的预训练方法θkθkS. 张和H.-I. 金ICT Express 9（2023）5153=D∑=M−−0−00⎣0∗监控信号，这将在下面描述。基于在具有更新的参数的预先训练的策略和值网络上，DRL代理开始使用诸如PPO的DRL算法来学习策略网络的监督预训练策略网络输出d维动作概率，a=[a，a，. . .，a] n∈Rd，对于每个状态，其中d是作用算法1：DRL的监督预训练输入：初始化的策略网络（πθ0）和价值网络（Vφ0），任务（E），参与者数量（M），地平线（T），时期数量（N），目标值（γ），学习率（α）输出：预训练的策略网络（πθ0）和值1 2d净功（Vφ0）代理的空间大小。根据动作概率对智能体在状态s应该采取的动作进行采样。我们通过监督对策略网络进行预训练，以便从初始策略，πθ0，使用S最大化。这里，可以经由以下约束优化来获得使熵最大化的监督的GT⎡∑⎤∑一#数据收集对于j=1， 2，···，M，对于E中的T，使用πθ0展开;存储状态，s;端将策略网络的GT设置为等式中的GT。（5）将价值网络的GT设为γ;θ1<$θ0，φ1<$φ0;最大值为1，拉吉 ajlogaj，s.t.a j= 1。（四）拉吉#在GT对于n=1， 2，···，N，最优动作概率是满足Eq.（4）已知是一个均匀分布，由动作空间的大小缩放，D：在等式中计算损失Lθ（6）;在等式中计算损失Lφ（7）;（更新θ）：θn+1<$θn−α<$θLθ;（更新φ）：φn+1<$φn−α<$φLφ;a_i= 1 [1，1，. . . ，1] n∈ Rd.（五）0 0端θ0<$θN，φ0<$φN;然后，我们对策略网络的监督预训练是0 0基于以下目标函数使用S从运行初始策略π θ0中收集对于T时间步长。1（π|S|s∈S（s）、（a）、（6）演员使用雷[28]。网络架构设置为与[6]相同。我们考虑了OpenAI Gym中提供的Atari游戏中的四个具有离散动作空间的其中M表示计算以下之间的损失的函数：GTa和来自πθ0的作用分布，例如，交叉熵（CE）、KL散度（KL）、均方误差（MSE）.策略网络的监督预训练通过均衡动作概率有效地鼓励探索，从而获得高稳定性和性能。结果见第3节。价值网络的监督预训练价值网络为每个状态输出一个一维值，是状态的估计值。它可以是正的，也可以是负的，这取决于国家。我们预先训练价值网络，状态的初始值分布在由目标值定义的特定值，γ∈R。对于监督，我们最小化值（Vφ0（s））和目标值（γ）之间的MSE，其定义为：L=1∑（V（s）−γ）2。（七）φ做实验基于[29]中建议的任务分类，我们从简单探索中选择了两个任务（Pong和Breakout），从奖励稀疏的困难探索中选择了两个任务（PrivateEye和Gravitar）。请注意，Pong、Breakout、PrivateEye和Gravitar的动作空间大小（d）分别为4、6、18和18。在我们的实验中，我们将监督预训练的时间步长T，epoch数N和学习率α我们选择CE作为策略，MSE作为值，作为预训练网络的损失函数。并且，目标值γ，在方程中引入（7）设为0.0。建议方法的效果图。 1显示了性能比较结果。在传统的PPO和A2C实现中，网络是用内核初始化器（如[25]）初始化的，其结果用“Default”表示。“Proposed” denotesthe results for the有监督的预训练。具体而言，|S|φ0s∈ Sposed（policy）策略网络和价值网络，仅策略网络和价值网络价值网络预训练稳定了学习并提高了性能，如随后的第3节所示。上述过程被概括为算法1中的伪代码。3. 实验为了评估所提出的方法，我们采用了RLlib [27]中提供的PPO和A2C实现以及用于利用多个网络，分别。实线和彩色区域是30个实验的平均奖励和标准差，每个实验都使用不同的随机种子进行初始化和训练。所提出的算法显著提高了性能：对于PPO，Pong，Breakout ， PrivateEye 和 Gravitar 的性能从 10.16 提高到17.89，从131.65提高到277.65，215.60至50.95，以及614.62到742.38;对于A2 C，Breakout的性能从253.70提高到316.72。另外我们θLθ0S. 张和H.-I. 金ICT Express 9（2023）5154MFig. 1. 建议方法（用“建议”表示）和基线DRL算法（用红线“默认”表示）的结果。针对“建议”的三种不同设置的结果：（1）预训练策略和价值网络两者（“建议（两者）"，蓝色），（2）仅预训练策略网络（“建议（策略）"，绿色），（3）仅预训练价值网络（“建议（价值）"，黄色）。(For对该图中颜色的参考的解释图例，请读者参阅本文的网络版观察到所提出的方法显著地改善了标准偏差和学习失败方面表1监督预训练算法的时间开销分析学习失败减少，在 PPO 中（ Pong ）从 22 减少到 1 ，（Breakout）从15减少到0。如上所述，这些学习失败降低了平均回报和标准差。学习失败的原因之一是动作概率的熵偏向低值[19]，这会阻止对智能体的探索，特别是在早期训练阶段。为了解决这个问题，该算法使用在目标任务中通过铺开收集的经验来预训练网络以最大化熵并集中值分布。通过该方法，我们可以鼓励智能体的探索，这防止了智能体被困在一个地方，并有助于获得各种经验。通过这一点，该算法减少了学习失败，稳定的训练，提高性能。此外，为了评估预训练对每个策略和价值网络的影响，我们进行了只对每个网络进行预训练的实验。我们可以注意到，同时对策略和价值网络进行预训练，在性能和稳定性方面会产生最佳结果。大部分改进来自于对政策网络的预先培训。然而，与图中的“默认”结果相比，预先训练价值网络提高了稳定性和性能。1.一、表1列出了拟议的预处理的时间开销沿着时间步长和训练时期的训练算法。考虑到总训练时间，Pong的3000次迭代为6659 s，Breakout、PrivateEye和Gravitar的10,000次迭代为17,072 s，时间开销是微不足道的。方程中损失函数的选择（6）损失函数可以通过选择.在本实验中，我们选择了三个最广泛使用的度量（CE、KL和MSE）进行比较。图图2显示了根据监督预训练的时期的结果。我们可以时间为每个图二. 建议的监督预训练的学习曲线具有不同的损失函数：CE，KL和MSE。“Max Entropy” represents the maximum achievable entropy观察到CE的熵在两个时期内收敛，这显示了三者中最好的结果注意到注意，标准偏差（即，（图1中的彩色区域）时间步长，T2048409661448192在所有实验中均显著降低：（Pong）从17.89至7.67，（突破）从119.07至61.86，（私人眼）从数据收集时间（秒）24.4226.3127.9830.19403.92至10.39，（Gravitar）PPO从96.25至82.99，13.714.615.766.66（突破）从80.97到57.85在A2C。而且20.881.682.493.32训练时期（秒）60.851.642.473.2670.841.692.463.2380.871.642.463.2790.851.682.463.22100.851.682.413.2330.861.672.463.2740.851.652.473.2650.871.662.433.25S. 张和H.-I. 金ICT Express 9（2023）5155图三. 两种情况下的初始熵和值的分布：（1）随机初始化的网络（最大可实现熵值计算为 1.792 （ Pong ）、 1.386（Breakout）和2.890（PrivateEye和Gravitar），其由任务的动作空间大小确定通过所提出的方法的分布变化我们检查了有监督预训练和无监督预训练的熵和值的分布。结果如图所示。3 .第三章。如果没有所提出的方法，初始熵的分布偏向于一个低值，接近零，这在- hibits代理的探索。初始值的分布以两位数单位广泛分布。另一方面，所提出的方法使初始熵分布到最大值附近，并且该值窄分布到γ，设置为0.0如实验设置中所述。该值可以是正的或负的，这取决于该状态的预期奖励。因此，通过所提出的方法将初始值分布偏置到近零，而不是广泛分布，有助于提高稳定性和性能。4. 结论在DRL框架下，针对具有离散动作空间的任务，提出了一种有监督的策略网络和价值网络预训练方法，以兼顾稳定性和性能。监督预训练的数据是通过对目标任务执行T个时间步的初始策略来收集的。然后，分别对策略和价值网络进行预训练，以最大化熵以进行有效探索，并将分布偏向特定值以保持稳定。该方法具有较好的稳定性和性能，并且时间开销小，易于实现，可与任何DRL算法一起使用。CRediT作者贡献声明张秀英：概念化，方法论，软件，验证，形式分析，调查，资源，数据管理，写作Hyung-Il Kim：概念化，形式分析，资源，数据管理，写作竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢这项工作得到了韩国电子和电信研究所（ETRI）和韩国信息通信技术规划评估研究所（IITP）的部分支持，韩国政府（MSIT）资助了这项工作（21 ZR 1100，A Studyof Hyper- Connected Thinking Internet Technology byautonomous connecting ， controlling and evolving ways ，No.2020 -0- 0004，Development of Previsional Intelligencebased on Long-term Visual Memory Network）。引用[1] 放大图片作者：David Silver，Andrei A.放大图片创作者：John W.放大图片创作者： John W. Fidjeland ， Georg Ostrovski ， StigPetersen，Charles Beattie，Amir Sadik，Ioannis Antonoglou，HelenKing ， Dharshan Kumaran ， Daan Wierstra ， Shane Legg ， DemisHassabis，Human-level controlthroughdeep reinforcement learning，Nature 518（2015）529-533.[2] John Schulman，Sergey Levine，Pieter Abbeel，Michael Jordan，Philipp Moritz，Trust region policy optimization，in：InternationalConference on Machine Learning（ICML），2015，pp.1889-1897年。[3] Timothy P Lillicrap，Jonathan J Hunt，Alexander Pritzel，NicolasHeess，Tom Erez ，Yuval Tassa，David Silver，Daan Wierstra，Continuouscontrolwithdeepreinforcementlearning ， in ：International Conference on Learning Representations （ ICLR ），2016.[4] Matteo Hessel，Joseph Modayil，Hado van Hasselt，Tom Schaul，Georg Ostrovski ， Will Dabney ， Dan Horgan ， Bilal Piot ，MohammadAzar ， DavidSilver ， Rainbow ： Combiningimprovements in deep reinforcement learning，in：AAAI Conferenceon Artificial Intelligence（AAAI），2018. 3215-3222。[5] Scott Fujimoto ， Herke van Hoof ， David Meger ， Addressingfunction-tion approximation error in actor-critic methods ， in ：International Conference on Machine Learning （ ICML ），2018 ，pp.1587-1596年。[6] John Schulman，Filip Wolski，Prafulla Dhariwal，Alec Radford，Oleg Klimov，Proximal policy optimization algorithms，2017，arXivpreprint arXiv：1707. 06347.[7] Volodymyr Mnih，Adrià Puigdomènech Badia，Mehdi Mirza，AlexGraves，Timothy P. Lillicrap，Tim Harley ，David Silver，KorayKavukcuoglu ， Asynchronousmethodsfordeepreinforcementlearning ， in ： International Conference on Machine Learning（ICML），2016，pp. 1928-1937.[8] Tuomas Haarnoja，Aurick Zhou，Pieter Abbeel ，Sergey Levine，Soft actor-critic ： Off-policy maximum entropy deep reinforcementlearning with a stochastic actor ， in ： International Conference onMachine Learning（ICML），2018，pp. 1861-1870年。S. 张和H.-I. 金ICT Express 9（2023）5156[9] Deirdre Quillen ，Eric Jang ， Ofir Nachum ， Chelsea Finn ，JulianIbarz，Sergey Levine，基于视觉的机器人抓取的深度强化学习：对非策略方法的模拟比较评估，在：IEEE机器人与自动化国际会议（ICRA），2018年，pp. 6284-6291。[10] Hoang Thi Huong Giang，Pham Duy Thanh，Insoo Koo，Deep Q-认知无线电网络中太阳能用户的基于学习的资源分配，ICT Express 7（1）（2021）49-59。[11] 张航，李家豪，李斌，陆艳，多流联合比特率分配的深度强化学习方法，IEEE Trans. 电路系统视频技术31（6）（2021）2415[12] Won Joon Yun，Soyi Jung，Joongheon Kim，Jae-Hyun Kim，分布式深度强化学习用于无人机出租车应用中的自主空中飞行移动性，ICT Express 7（1）（2021）1-4。[13] Zhuang Liu ， Xuanlin Li ， Bingyi Kang ， Trevor Darrell ，Regularizationmatters in policy optimization - an empirical study oncontinuouscontrol ， in ： International Conference onLearningRepresentations（ICLR），2021。[14] Peter Henderson，Riashat Islam，Philip Bachman，Joelle Pineau，DoinaPrecup ， David Meger ， Deep reinforcement learning thatmatters，在：AAAI人工智能会议（AAAI），2018年，pp. 3207 -3214[15] Joanne Taery Kim ， Sehoon Ha ， Observation space matters ：Benchmark and optimization algorithm ， 2020 ， arXiv preprintarXiv：2011。00756.[16] Daniele Reda，Tianxin Tao，Jumel van de Panne，学习笔记：了解环境设计如何影响深度强化学习，在：运动，交互和游戏（2020年），pp。1比10[17] 许清云，许清10897.[18] Marcin Andrychowicz ， Anton Raichuk ， Piotr Stanczyk ， ManuOrsini ， Sertan Girgin ， Raphaël Marinier ， Léonard Hussenot ，Matthieu Geist，Olivier Pietquin，Marcin Michalski，et al.，什么是政策上的深度行动者-批评者方法？一项大规模的研究，在：国际会议上学习代表（ICLR），2021年。[19] Sooyoung Jang，Hyung-Il Kim，Entropy-aware model initializationfor effective exploration in deep reinforcement learning，2021，arXivpreprintarXiv：2108. 10533.[20] Farshid Varno，Behrouz Haji Soleimani，Marzie Saghayi，Lisa DiJorio，Stan Matwin，通过最大熵初始化进行有效的神经任务适应，2019，arXiv预印本arXiv：1905。10698.[21] 作者：刘建宏，陈维凯，陈兴臣. You，Implementing action mask inproximate policy optimization （ PPO ） algorithm ， ICT Express 6（3）（2020）200-203.[22] Valerie Chen ， Abhinav Gupta ， Kenneth Marino ， Ask yourhumans ： Using human instructions to improve generalization inreinforcement learning，2021年国际学习表示会议（ICLR）。[23] Christopher Berner ， Greg Brockman ， Brooke Chan ， VickiCheung ， PrzemysbiawDeBubiak ， ChristyDennison ， Da vidFarhi ，QuirinFischer， Shariq Hashme ，Chris Hesse ，et al. ， Dota 2 withlarge scale deep reinforcement learning ， 2019 ， arXiv preprintarXiv：1912. 06680.[24] Erik Wijmans，Abhishek Kadian，Ari Morcos，Stefan Lee，IrfanEssa，Devi Parikh，Manolis Savva，Dhruv Batra，DD-PPO：从25亿帧中学习近乎完美的PointGoal导航器，在：国际学习表示会议（ICLR），2020年。[25] Xavier Glorot，Yoonne Bengio，理解训练深度前馈神经网络的难度，在：人工智能和统计国际会议（AISTATS），2010年，第10页。第249-256页。[26] 作者：James L. McClelland，Surya Ganguli，深度线性神经网络中学习的非线性动力学的精确解决方案，国际学习表示会议（ICLR），2014年。[27] Eric Liang，Richard Liaw，Robert Nishihara，Philipp Moritz，RoyFox ， Ken Goldberg ， Joseph Gonzalez ， Michael Jordan ， IonStoica，RLlib：Abstractions for distributed reinforcement learning，in ： International Conference on Machine Learning （ ICML ），2018，pp.3053-3062[28] Philipp Moritz ， Robert Nishihara ， Stephanie Wang ， AlexeyTumanov ， Richard Liaw ， Eric Liang ， Melih Elibol ， ZonghengYang ， William Paul ， Michael I. Jordan ， Ion Stoica ， Ray ： ADistributed Framework for Emerging AI Applications，in：USENIXSymposiumonOperatingSystemsDesignandImplementation（OSDI），2018，pp.561-577[29] 马克 ·G Bellemare ， Sriram Srinivasan ， Georg Ostrovski ， TomSchaul ， David Saxton ， Remi Munos ， Unifying count-basedexploration and intrinsic motivation，第30届神经信息处理系统会议（NeurIPS），2016年。

下载后可阅读完整内容，剩余1页未读，立即下载