最小二乘行动者-评论家方法解决连续动作空间问题

105 浏览量更新于2024-08-26 收藏 512KB PDF 举报

"本文介绍了一种名为最小二乘行动者-评论家(Least Square Actor-Critic, LSAC)的方法，该方法应用于解决强化学习中的连续动作空间问题。传统的强化学习算法常常通过离散化处理来解决连续动作空间，但在缺乏先验信息的情况下，这种方法可能效果不佳或完全失效。LSAC算法采用函数逼近器来近似表示值函数和策略，并利用最小二乘法在线动态地求解这些参数。这种算法被应用到小车平衡杆问题和mountain car问题上，并与CALC（连续行动者-评论家学习自动机）和eNAC（episodic Natural Actor-Critic）算法进行了对比，显示出在解决连续动作空间问题上的有效性和优越性能。" 本文详细探讨了强化学习领域的一个关键挑战，即如何处理具有连续动作空间的问题。传统的强化学习算法，如Q-learning和SARSA，通常需要将连续的动作空间离散化，以便于计算和优化策略。然而，离散化过程可能会导致信息损失，尤其是在没有合适先验信息的情况下，算法效率和准确性都会受到影响。最小二乘行动者-评论家（LSAC）算法提供了一种新的解决方案。它不依赖于动作空间的离散化，而是采用函数逼近器，如神经网络，来近似表示策略函数（演员）和价值函数（评论家）。通过最小二乘法，算法能够在线地更新这两个函数的参数，使得策略参数的调整基于价值函数的反馈。这种设计使得LSAC能够在不断学习过程中优化策略，无需预先知道动作空间的具体结构。在实际应用中，LSAC被应用于两个经典的强化学习问题：小车平衡杆问题和mountain car问题。这两个问题都涉及到控制一个物理系统，使其在连续的动作空间中达到目标状态。实验结果证明，LSAC能够有效地找到解决问题的策略，其性能优于CALC和eNAC算法。这表明LSAC算法在处理连续动作空间的强化学习任务时，具有较好的泛化能力和适应性。 LSAC算法为解决连续动作空间的强化学习问题提供了一个有前途的方法，它通过函数逼近和在线学习避免了离散化的需要，从而提高了算法在复杂环境中的表现。这一工作对于强化学习领域的理论研究和实际应用都有着重要的意义，为未来解决更多复杂的控制问题提供了新的思路。

计算机研究与发展２０１４，５１（３）

数，并将ＴＤ误差引入到求解最优策略参数的目标

函数中，在行动者部分利用所构造的目标函数求解

最优策略参数，提高策略参数估计的精确性．利用最

小二乘方法求解参数可以有效消除初始值对最终收

敛结果的影响，提高样本数据的利用率，同时避免梯

度算法中调整学习参数的问题．最后，将本文提出的

算法用于解决具有连续动作空间的小车平衡杆问题

和ｍｏｕｎｔａｉｎ

ｃａｒ问题，并与Ｃａｃｌａ和ｅＮＡＣ（叩ｉｓｏｄｉｃ

ｎａｔｕｒａｌ

ａｃｔｏｒ—ｃｒｉｔｉｃ）…朝这２种解决连续动作空间

的经典算法进行比较和分析．实验结果表明，本文的

算法能有效地解决连续动作空间问题，具有较优的

执行性能．

１

基础理论

１．１

Ｍａｒｋｏｖ决策过程

Ｍａｒｋｏｖ决策过程（Ｍａｒｋｏｖ

ｄｅｃｉｓｉｏｎ

ｐｒｏｃｅｓｓ，

ＭＤＰ）常被用来对强化学习问题进行建模¨ｊ．通常

一个ＭＤＰ可以用一个五元组表示，Ｍ一（Ｘ，Ｕ，厂，

ｐ，ｙ），其中，Ｘ是状态空间，Ｕ是动作空间，厂是状态

转移函数，厂：Ｘ×Ｕ×Ｘ一［ｏ，１］，即／’（Ｔ，“，Ｔ

７）表示

在状态ｚ∈Ｘ下采用动作“∈Ｕ转移到后续状态

ｚ

７∈Ｘ的概率；』Ｄ是奖赏函数，１０：Ｘ×Ｕ—ｉ，即』０（Ｔ，

“）表示在状态ｚ下采用动作“所获得的立即奖赏，

而通常为了简化，用“表示在任意时刻是当前状态

动作对的立即奖赏值，即“一｜０（ｚ。，“。）；ｙ∈（ｏ，１）是

折扣因子．

强化学习算法可以用于求解一个不会随着时间

的变化而改变的策略，即稳定策略，并可以利用该策

略进行决策．在强化学习中，策略矗可以表示为＾：

Ｘ×Ｕ一［ｏ，１］．＾（ｚ，“）是指在状态ｚ下采取动作“

的概率．如果策略＾是一个确定性策略，则在任意状

态ｚ下，根据策略＾只能获得一个确定的动作，而

不是动作选择的概率，由此，确定的稳定策略可以表

示为：＾：Ｘ—Ｕ，因此，在状态Ｔ下采取的动作可以

表示为：“一＾（ｚ）．在后续文中如果没有特别说明，

策略＾都是指确定性策略．

为了评估用于某个ＭＤＰ的策略＾的优劣，通

常利用值函数进行评估，具体可以分为状态值函数

Ｖ“和动作值函数Ｑ６，其中Ｖ‘（ｚ）是在当前状态Ｔ

下根据策略＾所能获得的累计期望奖赏，Ｑ，７（ｚ，“）

是在当前状态动作对（ｚ，“）下根据策略＾所能获得

的累计期望奖赏．Ｖ６（ｚ）和ｄ２（工，“）都可以认为是

对应的一组Ｂｅｌｌｍａｎ公式的不动点解，可以表示为

驴（ｚ）一∑＾（ｚ，“）ｌ

ｌＤ（工，“）＋

“∈Ｕ

Ｌ－

），∑厂（ｚｍｚ

７）驴（ｚ圳，

（１）

ｒ’∈Ｘ

—

Ｑ＾（工，“）一ｌＤ（ｚ，“）＋），∑厂（ｚ，“，ｚ７）

Ｊ’∈Ｘ

ｙ矗（ｚ７，“７）甜（ｚ

７，“７）．

（２）

篇７

强化学习的最终目的是能够求得一个最优策略

＾’，对应的值函数Ｖ’（ｚ）和Ｑ＋（ｚ，“）可以描述为

Ｖ＋（ｚ）一Ｈ曼簪｛』Ｄ（ｚ，扰）＋ｙ∑／（ｚ，蹦，ｚ７）ｙ’（ｚ７）），

“ｔ“

Ｔ’∈Ｘ

（３）

Ｑ＋（ｚ，“）一１０（ｚ，“）＋ｙ∑，（ｚ，“，ｚ

７）

Ｊ’∈Ｘ

｛ｍａｘＱ＋（ｚ

７，“７）｝，

（４）

“４∈Ｕ

式（３）和式（４）也被称作是最优Ｂｅｌｌｍａｎ公式．

以下给出有界ＭＤＰ的定义．在本文所讨论的

ＭＤＰ都是有界的．

定义１．有界ＭＤＰ．假设Ｘ和Ｕ都是一个有限

集合；奖赏值函数｜０有界，即对于任意（ｚ，“）∈Ｘ×

Ｕ，Ｒ…≤ｐ（ｚ，“）≤Ｒ…，其中Ｒ…和Ｒ。。。是常数；设

口一１／（１一ｙ），其中ｙ∈（ｏ，１）为折扣因子，则在任意

策略＾下，对于Ｖｚ∈Ｘ及Ｖ（Ｔ，“）∈ｘ×Ｕ，都有

雕…≤Ｖ６（ｚ）≤胆。。。和艘。。。≤甜（ｚ，“）≤胆。。。

成立．

１．２行动者一评论家算法

与基于值函数的强化学习方法不同，行动者一评

论家算法具有２个独立的结构，一个用于存储并更

新值函数，另一个用于存储所更新的策略．Ａｇｅｎｔ不

再根据值函数选择动作，而根据策略选择动作，策略

部分称为行动者（ａｃｔｏｒ）；Ａｇｅｎｔ执行某动作后，更新

值函数，利用值函数评价动作的好坏并调整策略，值

函数部分称为评论家（ｃｒｉｔｉｃ）［１］．行动者一评论家算法

的结构示意图如图１所示：

Ｆｉｇ．

１

Ａｎ

ｉｌｌｕｓｔｒａｔｉｏｎ

ｄｉａｇｒａｍ

ｆｏｒ

ｆｒａｍｅｗｏｒｋ

ｏｆ

ａｃｔｏｒ—

ｃｒｉｔｉｃ

ａｌｇｏｒｉｔｈｍ．

图１

行动者一评论家算法结构示意图

万方数据

剩余11页未读，继续阅读

皮卡丘穿皮裤

粉丝: 187
资源: 955

最小二乘行动者-评论家方法解决连续动作空间问题

论文研究-连续空间的递归最小二乘行动者—评论家算法.pdf

最小二乘策略迭代算法

连续动作空间的强化学习

演员评论家 强化学习

adp和actor critic

针对智能机器人或更一般的智能体在与环境交互的过程中获得最优动作决策 和最优行动策略的一种机器学习方法。

强化学习的基本原理和模型

基于模型的优化和无优化DRL怎么一起使用

分别解释下强化学习中的Continuous control algorithms和Discrete control algorithms

各种深度学习的强化学习算法对比

最新资源

演员评论家强化学习

针对智能机器人或更一般的智能体在与环境交互的过程中获得最优动作决策和最优行动策略的一种机器学习方法。