增强型深度确定策略梯度算法：提升收敛速度与稳定性

120 浏览量更新于2024-08-29 1 收藏 1.07MB PDF 举报

"本文介绍了一种增强型深度确定策略梯度（E-DDPG）算法，旨在解决深度确定策略梯度（DDPG）算法在强化学习中收敛速度较慢的问题。E-DDPG通过创建多样性和高误差两个样本池，优化样本选择，提升算法收敛性能和样本利用率。同时，文章还引入自模拟度量方法来评估样本间的相似性，并建立了值函数与样本相似性的理论关联。实验证明，在Pendulum和MountainCar等经典问题上，E-DDPG表现出更好的收敛稳定性和更快的收敛速度。关键词包括深度强化学习、样本排序、自模拟度量和时间差分误差。" 深度强化学习是一种结合了深度学习和强化学习的技术，允许智能体在复杂的环境中通过试错学习最优策略。在深度确定策略梯度（DDPG）算法中，智能体利用深度神经网络来估计动作值函数，从而决定最优行动。然而，DDPG算法存在收敛速度慢的问题，这限制了其在实际应用中的效率。 E-DDPG算法为解决这一问题，引入了新的策略。首先，它创建了两个新的样本池：多样性样本池和高误差样本池。多样性样本池包含不同状态的样本，以增加策略探索的多样性；高误差样本池则存储那些预测误差较大的样本，以优先处理错误信息。在训练过程中，E-DDPG根据预设比例从这两个池中选择样本，这样既考虑了样本的多样性，又强调了重要样本的价值，提高了算法的收敛速度和效率。此外，E-DDPG采用了自模拟度量方法，这是一种评估样本间相似性的技术。通过这种方法，算法可以识别出与当前状态相似的历史状态，从而更好地理解值函数的变化趋势。理论分析证明了这种方法的合理性，并建立了值函数与样本相似性之间的数学联系，使得智能体能够更有效地学习和适应环境。实验部分，E-DDPG算法在Pendulum和MountainCar这两个经典控制问题上进行了测试，结果表明E-DDPG相比于传统的DDPG算法，不仅在收敛稳定性上有显著提升，而且收敛速度更快。这证明了E-DDPG算法的有效性和实用性，特别是在需要快速学习和适应环境的强化学习任务中。 E-DDPG算法通过创新的样本管理策略和自模拟度量技术，改进了深度强化学习的收敛性能，为未来深度强化学习领域的研究和应用提供了有价值的参考。

2018 年 11 月 Journal on Communications November 2018

2018238-1

第 39 卷第 11 期通信学报 Vol.39

No.11

增强型深度确定策略梯度算法

陈建平

1,2,3,4

，何超

1,2,3

，刘全

，吴宏杰

1,2,3,4

，胡伏原

1,2,3,4

，傅启明

1,2,3,4

（1. 苏州科技大学电子与信息工程学院，江苏苏州 215009；2. 苏州科技大学江苏省建筑智慧节能重点实验室，江苏苏州 215009；

3. 苏州科技大学苏州市移动网络技术与应用重点实验室，江苏苏州 215009；

4. 苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室，江苏苏州 215009；5. 苏州大学计算机科学与技术学院，江苏苏州 215006）

摘要：针对深度确定策略梯度算法收敛速率较慢的问题，提出了一种增强型深度确定策略梯度（E-DDPG）算

法。该算法在深度确定策略梯度算法的基础上，重新构建两个新的样本池——多样性样本池和高误差样本池。在

算法执行过程中，训练样本分别从多样性样本池和高误差样本池按比例选取，以兼顾样本多样性以及样本价值信

息，提高样本的利用效率和算法的收敛性能。此外，进一步从理论上证明了利用自模拟度量方法对样本进行相似

性度量的合理性，建立值函数与样本相似性之间的关系。将 E-DDPG 算法以及 DDPG 算法用于经典的 Pendulum

问题和 MountainCar 问题，实验结果表明，E-DDPG 具有更好的收敛稳定性，同时具有更快的收敛速率。

关键词：深度强化学习；样本排序；自模拟度量；时间差分误差

中图分类号：TP391

文献标识码：A

doi: 10.11959/j.issn.1000−436x.2018238

Enhanced deep deterministic policy gradient algorithm

CHEN Jianping

1,2,3,4

, HE Chao

1,2,3

, LIU Quan

, WU Hongjie

1,2,3,4

, HU Fuyuan

1,2,3,4

, FU Qiming

1,2,3,4

1. Institute of Electronics and Information Engineering, Suzhou University of Science and Technology, Suzhou 215009, China

2. Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency, Suzhou University of Science and Technology, Suzhou 215009, China

3. Suzhou Key Laboratory of Mobile Networking and Applied Technologies, Suzhou University of Science and Technology, Suzhou 215009, China

4. Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou,

Suzhou University of Science and Technology, Suzhou 215009, China

5. School of Computer Science and Technology, Soochow University, Suzhou 215006, China

Abstract: With the problem of slow convergence for deep deterministic policy gradient algorithm, an enhanced deep de-

terministic policy gradient algorithm was proposed. Based on the deep deterministic policy gradient algorithm, two sam-

ple pools were constructed, and the time difference error was introduced. The priority samples were added when the ex-

perience was played back. When the samples were trained, the samples were selected from two sample pools respectively.

At the same time, the bisimulation metric was introduced to ensure the diversity of the selected samples and improve the

convergence rate of the algorithm. The E-DDPG algorithm was used to pendulum problem. The experimental results

show that the E-DDPG algorithm can effectively improve the convergence performance of the continuous action space

problems and have better stability.

Key words: deep reinforcement learning, sample ranking, bisimulation metric, temporal difference error

收稿日期：2018−03−22；修回日期：2018−08−01

通信作者：傅启明，fqm_1@126.com

基金项目：国家自然科学基金资助项目（No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055,

o.61672371, No.61602334, No.61502323）；江苏省自然科学基金资助项目（No.BK20140283）；江苏省重点研发计划基金资

助项目（No.BE2017663）；江苏省高校自然科学研究基金资助项目（No.13KJB520020）；苏州市应用基础研究计划工业部分

基金资助项目（No.SYG201422）

Foundation Items: The National Natural Science Foundation of China (No.61502329, No.61772357, No.61750110519,

o.61772355, No.61702055, No.61672371, No.61602334, No.61502323), The Natural Science Foundation of Jiangsu Province

(No.BK20140283), The Key Research and Development Program of Jiangsu Province (No.BE2017663), High School Natural Foun-

dation of Jiangsu Province (No.13KJB520020), Suzhou Industrial Application of Basic Research Program Part (No.SYG201422)

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38667835

粉丝: 6
资源: 937

增强型深度确定策略梯度算法：提升收敛速度与稳定性

深度学习优化算法与实践指南

分布式深度学习中的Stochastic Gradient Push算法

深度学习优化算法探索：样本少、局部最优与特征选择

深度确定性策略梯度法的多车植绒控制

基于Matlab实现的深度学习算法

基于梯度强化学习算法（Matlab代码实现）

深度学习中的优化策略：随机梯度下降与正则化技术

【深度探索优化算法】：损失函数与梯度下降的黄金搭配

【MATLAB图像分析深度解读】：算法背后的秘密

从理论到应用：深度学习反向传播算法的演变史

最新资源