优化的拓扑序列值迭代算法提升强化学习效率

53 浏览量更新于2024-08-31 收藏 1.95MB PDF 举报

本文主要探讨了一种名为"VI-TS"（Value Iteration based on Topological Sequence）的优化算法，该算法针对强化学习中的值迭代过程进行改进。值迭代是一种常用的动态规划方法，在解决马尔可夫决策过程（Markov Decision Process, MDP）问题时，通过迭代地估计状态值函数来寻找最优策略。传统的方法在处理大规模状态空间时可能会遇到收敛速度慢、精度低的问题，特别是当状态空间快速增大时，算法的性能可能会显著下降。 VI-TS算法的核心思想是利用状态间的迁移关联信息，首先将任务模型表示为有向图，然后通过分析将其分解为一系列规模较小的强连通分量。强连通分量保证了状态之间的可达性和互访性，这使得算法能更有效地处理这些局部结构。接下来，算法根据拓扑序（Topological Order）对这些强连通分量进行有序的更新，避免了不必要的备份过程。拓扑序是一种排列，使得每个节点都只依赖于在其前面的节点，这样可以按照一定的逻辑顺序逐个处理，减少重复计算，从而提高算法的效率。在经典的规划问题如 Mountain Car（山地车）和迷宫实验中，VI-TS算法展现出显著的优势。它不仅收敛速度更快，找到的策略也更为精确，而且对于状态空间的扩展具有很好的鲁棒性，即使在状态数量急剧增加的情况下，也能保持较好的性能。这在实际应用中，比如在复杂的机器人路径规划、游戏AI或者网络路由优化等场景中，能够极大地提升算法的实用性。总结来说，VI-TS算法是一种创新的价值迭代方法，它通过结构化分解和拓扑序的利用，有效解决了大规模MDP问题中的计算复杂性和收敛效率问题，为强化学习中的求解提供了新的可能。这是一项重要的理论贡献，也为实际问题的解决提供了强大的工具。

2014 年 8 月 Journal on Communications August 2014

第 35 卷第 8 期

通信学报

Vol.35

No.8

基于拓扑序列更新的值迭代算法

黄蔚

，刘全

1,2

，孙洪坤

，傅启明

，周小科

(1. 苏州大学计算机科学与技术学院，江苏苏州 215006；2. 吉林大学符号计算与知识工程教育部重点实验室，吉林长春 130012)

摘要：提出一种基于拓扑序列更新的值迭代算法，利用状态之间的迁移关联信息，将任务模型的有向图分解为

一系列规模较小的强连通分量，并依据拓扑序列对强连通分量进行更新。在经典规划问题 Mountain Car 和迷宫实

验中的结果表明，算法的收敛速度更快，精度更高，且对状态空间的增长有较强的顽健性。

关键词：强化学习；值迭代；拓扑序列；VI-TS

中图分类号：TP181 文献标识码：A 文章编号：1000-436X(2014)08-0056-07

Optimized algorithm for value iteration

based on topological sequence backups

HUANG Wei

, LIU Quan

1, 2

, SUN Hong-kun

, FU Qi-ming

, ZHOU Xiao-ke

(1. School of Computer Science and Technology, Soochow University, Suzhou 215006, China;

2. Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, Changchun 130012, China)

Abstract: In order to improve the convergence performance, an optimized value iteration based on topological sequence

backups, VI-TS, is proposed. The key idea of VI-TS is to circumvent the problem of unnecessary backups by dividing an

MDP into strongly-connected components and solving these components in topological sequences after detecting the

structure of MDP. The experiment results show that VI-TS has a better convergence performance and robustness for state

space growth when applied to classical planning experiment scenarios.

Key words: reinforcement learning; value iteration; topological sequence; VI-TS

1 引言

强化学习(RL, reinforcement learning)是机器学

习的一个重要分支，它以在线学习为主要特征，通

过 agent 与环境交互，用值函数来评价某个策略下每

个状态或动作的好坏，最终确定到达目标的最优策

略

[1,2]

。强化学习的数学理论基础建立在马尔可夫决

策过程(MDP, Markov decision process)之上，所有决

策都依赖其前面的决策及结果。有穷 MDP 在强化学

习中具有非常重要的意义，它占到整个强化学习任

务的

90%以上

[3]

。对于状态和动作空间连续的 MDP，

通常都可以量化为有穷 MDP 来近似求解。

动态规划方法是求解模型己知的有穷 MDP 问

题的最有效手段之一，其核心思想是用值函数来组

织和构建策略搜索，按照“评估值函数→改进策略”

交替进行的思想，逐步逼近最优策略。策略迭代和

值迭代算法

[4]

是动态规划的 2 种重要方法，它们之

间的主要区别是策略迭代在评估值函数的过程中

需要精确计算出值函数后才改进策略，而值迭代算

法并未等到值函数收敛就己经改进策略，也就是

收稿日期：2013-05-18；修回日期：2013-07-20

基金项目：国家自然科学基金资助项目(61070223, 61103045, 61272005, 61170020)；江苏省自然科学基金资助项目(BK2012616)

；

江苏省高校自然科学研究基金资助项目(09KJA520002, 09KJB520012)；

吉林大学符号计算与知识工程教育部重点实验室基金

资助项目(93K172012K04)

Foundation Items: The National Natural Science Foundation of China(61070223, 61103045, 61272005, 61170020); The

Natural

Science Foundation of Jiangsu Province (BK2012616); High School Natural Foundation of Jiangsu Province

(09KJA520002,

09KJB520012); Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin Unive

sity(93K172012K04)

doi:10.3969/j.issn.1000-436x.2014.08.008

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38660327

粉丝: 8
资源: 952

优化的拓扑序列值迭代算法提升强化学习效率

基于元胞自动机的拓扑排序算法（pdf）

3DMMA拓扑优化程序.zip

基于拓扑保存和3D非接触式测量的3D细化算法

基于遗传算法的抗攻击网络拓扑结构优化.zip

基于OC算法的连续体动力学机构拓扑优化设计代码.rar_OC算法_动力优化_动力学_动力学优化_机构动力学

拓扑优化算法及其实现PPT学习教案.pptx

一个迭代序列的不动点问题变分不等式问题及平衡问题 (2010年)

BSP中基于边缘聚类的大图划分和迭代处理

基于中间状态值的多智能体系统安全一致性控制

PMA序列优化方法在RBTO拓扑优化中的应用

最新资源