最小二乘行动者-评论家法：连续动作空间强化学习新解

91 浏览量更新于2024-08-28 收藏 2.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

计算机研究与发展２０１４，５１（３）

数，并将ＴＤ误差引入到求解最优策略参数的目标

函数中，在行动者部分利用所构造的目标函数求解

最优策略参数，提高策略参数估计的精确性．利用最

小二乘方法求解参数可以有效消除初始值对最终收

敛结果的影响，提高样本数据的利用率，同时避免梯

度算法中调整学习参数的问题．最后，将本文提出的

算法用于解决具有连续动作空间的小车平衡杆问题

和ｍｏｕｎｔａｉｎ

ｃａｒ问题，并与Ｃａｃｌａ和ｅＮＡＣ（叩ｉｓｏｄｉｃ

ｎａｔｕｒａｌ

ａｃｔｏｒ—ｃｒｉｔｉｃ）…朝这２种解决连续动作空间

的经典算法进行比较和分析．实验结果表明，本文的

算法能有效地解决连续动作空间问题，具有较优的

执行性能．

１

基础理论

１．１

Ｍａｒｋｏｖ决策过程

Ｍａｒｋｏｖ决策过程（Ｍａｒｋｏｖ

ｄｅｃｉｓｉｏｎ

ｐｒｏｃｅｓｓ，

ＭＤＰ）常被用来对强化学习问题进行建模¨ｊ．通常

一个ＭＤＰ可以用一个五元组表示，Ｍ一（Ｘ，Ｕ，厂，

ｐ，ｙ），其中，Ｘ是状态空间，Ｕ是动作空间，厂是状态

转移函数，厂：Ｘ×Ｕ×Ｘ一［ｏ，１］，即／’（Ｔ，“，Ｔ

７）表示

在状态ｚ∈Ｘ下采用动作“∈Ｕ转移到后续状态

ｚ

７∈Ｘ的概率；』Ｄ是奖赏函数，１０：Ｘ×Ｕ—ｉ，即』０（Ｔ，

“）表示在状态ｚ下采用动作“所获得的立即奖赏，

而通常为了简化，用“表示在任意时刻是当前状态

动作对的立即奖赏值，即“一｜０（ｚ。，“。）；ｙ∈（ｏ，１）是

折扣因子．

强化学习算法可以用于求解一个不会随着时间

的变化而改变的策略，即稳定策略，并可以利用该策

略进行决策．在强化学习中，策略矗可以表示为＾：

Ｘ×Ｕ一［ｏ，１］．＾（ｚ，“）是指在状态ｚ下采取动作“

的概率．如果策略＾是一个确定性策略，则在任意状

态ｚ下，根据策略＾只能获得一个确定的动作，而

不是动作选择的概率，由此，确定的稳定策略可以表

示为：＾：Ｘ—Ｕ，因此，在状态Ｔ下采取的动作可以

表示为：“一＾（ｚ）．在后续文中如果没有特别说明，

策略＾都是指确定性策略．

为了评估用于某个ＭＤＰ的策略＾的优劣，通

常利用值函数进行评估，具体可以分为状态值函数

Ｖ“和动作值函数Ｑ６，其中Ｖ‘（ｚ）是在当前状态Ｔ

下根据策略＾所能获得的累计期望奖赏，Ｑ，７（ｚ，“）

是在当前状态动作对（ｚ，“）下根据策略＾所能获得

的累计期望奖赏．Ｖ６（ｚ）和ｄ２（工，“）都可以认为是

对应的一组Ｂｅｌｌｍａｎ公式的不动点解，可以表示为

驴（ｚ）一∑＾（ｚ，“）ｌ

ｌＤ（工，“）＋

“∈Ｕ

Ｌ－

），∑厂（ｚｍｚ

７）驴（ｚ圳，

（１）

ｒ’∈Ｘ

—

Ｑ＾（工，“）一ｌＤ（ｚ，“）＋），∑厂（ｚ，“，ｚ７）

Ｊ’∈Ｘ

ｙ矗（ｚ７，“７）甜（ｚ

７，“７）．

（２）

篇７

强化学习的最终目的是能够求得一个最优策略

＾’，对应的值函数Ｖ’（ｚ）和Ｑ＋（ｚ，“）可以描述为

Ｖ＋（ｚ）一Ｈ曼簪｛』Ｄ（ｚ，扰）＋ｙ∑／（ｚ，蹦，ｚ７）ｙ’（ｚ７）），

“ｔ“

Ｔ’∈Ｘ

（３）

Ｑ＋（ｚ，“）一１０（ｚ，“）＋ｙ∑，（ｚ，“，ｚ

７）

Ｊ’∈Ｘ

｛ｍａｘＱ＋（ｚ

７，“７）｝，

（４）

“４∈Ｕ

式（３）和式（４）也被称作是最优Ｂｅｌｌｍａｎ公式．

以下给出有界ＭＤＰ的定义．在本文所讨论的

ＭＤＰ都是有界的．

定义１．有界ＭＤＰ．假设Ｘ和Ｕ都是一个有限

集合；奖赏值函数｜０有界，即对于任意（ｚ，“）∈Ｘ×

Ｕ，Ｒ…≤ｐ（ｚ，“）≤Ｒ…，其中Ｒ…和Ｒ。。。是常数；设

口一１／（１一ｙ），其中ｙ∈（ｏ，１）为折扣因子，则在任意

策略＾下，对于Ｖｚ∈Ｘ及Ｖ（Ｔ，“）∈ｘ×Ｕ，都有

雕…≤Ｖ６（ｚ）≤胆。。。和艘。。。≤甜（ｚ，“）≤胆。。。

成立．

１．２行动者一评论家算法

与基于值函数的强化学习方法不同，行动者一评

论家算法具有２个独立的结构，一个用于存储并更

新值函数，另一个用于存储所更新的策略．Ａｇｅｎｔ不

再根据值函数选择动作，而根据策略选择动作，策略

部分称为行动者（ａｃｔｏｒ）；Ａｇｅｎｔ执行某动作后，更新

值函数，利用值函数评价动作的好坏并调整策略，值

函数部分称为评论家（ｃｒｉｔｉｃ）［１］．行动者一评论家算法

的结构示意图如图１所示：

Ｆｉｇ．

１

Ａｎ

ｉｌｌｕｓｔｒａｔｉｏｎ

ｄｉａｇｒａｍ

ｆｏｒ

ｆｒａｍｅｗｏｒｋ

ｏｆ

ａｃｔｏｒ—

ｃｒｉｔｉｃ

ａｌｇｏｒｉｔｈｍ．

图１

行动者一评论家算法结构示意图

万方数据

剩余11页未读，继续阅读

weixin_38749268

粉丝: 5
资源: 943

最小二乘行动者-评论家法：连续动作空间强化学习新解

论文研究-连续空间的递归最小二乘行动者—评论家算法.pdf

最小二乘策略迭代算法

连续动作空间的强化学习

演员评论家 强化学习

adp和actor critic

针对智能机器人或更一般的智能体在与环境交互的过程中获得最优动作决策 和最优行动策略的一种机器学习方法。

强化学习的基本原理和模型

基于模型的优化和无优化DRL怎么一起使用

分别解释下强化学习中的Continuous control algorithms和Discrete control algorithms

各种深度学习的强化学习算法对比

深度强化学习有哪些方法

无模型的DRL算法：使用量化方法将连续的决策离散化为二进制决策是什么意思

解释软件建模术语行动者

各种深度学习的强化学习算法各自的特点和应用场景是什么

强化学习多智能体路径规划

深度强化学习的损失函数

iso31010《风险管理-风险评价方法》

qlearning算法可以用来解决三维空间问题吗

ddpg matlab 避障

基于深度确定性策略梯度的能量管理策略

最新资源

演员评论家强化学习

针对智能机器人或更一般的智能体在与环境交互的过程中获得最优动作决策和最优行动策略的一种机器学习方法。