第 29 卷 第 3 期
Vol. 29 No. 3
控 制 与 决 策
Control and Decision
2014 年 3 月
Mar. 2014
基于拉普拉斯特征映射的启发式 Q 学习
文章编号: 1001-0920 (2014) 03-0425-06 DOI: 10.13195/j.kzyjc.2012.1669
朱美强, 李 明, 程玉虎, 张 倩, 王雪松
(中国矿业大学 信息与电气工程学院,江苏 徐州 221116)
摘 要: 在基于目标的强化学习任务中, 欧氏距离常作为启发式函数用于策略选择, 其用于状态空间在欧氏空间内
不连续的任务效果不理想. 针对此问题, 引入流形学习中计算复杂度较低的拉普拉斯特征映射法, 提出一种基于谱图
理论的启发式策略选择方法. 所提出的方法适用于状态空间在某个内在维数易于估计的流形上连续, 且相邻状态间
的连接关系为无向图的任务. 格子世界的仿真结果验证了所提出方法的有效性.
关键词: 强化学习;启发式策略选择;Q 学习;拉普拉斯特征映射
中图分类号: TP181 文献标志码: A
Heuristically accelerated Q-learning algorithm based on Laplacian
Eigenmap
ZHU Mei-qiang, LI Ming, CHENG Yu-hu, ZHANG Qian, WANG Xue-song
(School of Information and Electrical Engineering,China University of Mining and Technology,Xuzhou 221116,
China.Correspondent:ZHU Mei-qiang,E-mail:tianlianglu@163.com)
Abstract: As a heuristic function, the Euclidean distance is usually used to select online action in reinforcement learning
based on goal position. It is not applied to these tasks whose state spaces are not continuous in Euclidean space. For
the problem, the Laplacian Eigenmap whose computational complexity is lower in manifold learning is introduced, then a
method of heuristic policy selection based on the spectral graph theory is proposed. The proposed method is suitable for these
tasks not only whose state spaces are continuous in some manifold that has a good estimation of intrinsic dimension, but also
whose connection relation is expressed by an undirected graph. The simulation results of grid world show the effectiveness
of the proposed method.
Key words: reinforcement learning;heuristic policy selection;Q-learning;Laplacian Eigenmap
0 引引引 言言言
强化学习 (RL) 能在无环境模型和教师样本的情
况下, 通过与环境交互进行自主学习, 已广泛应用于
调度优化、自适应控制和机器人自主导航等领域
[1-5]
.
RL 的主要缺点是学习效率较低, 原因在于其核心的
试错改进机制和回报延迟的特点决定了智能体仅能
依据学习中获取的稀疏回报来改进策略, 而忽略了大
量有用的信息和知识. 从 20 世纪 90 年代起, 研究者开
始抛弃智能体“一无所知”的假设, 通过发现和利用
问题的领域知识提高 RL 的效率
[1-2,4]
.
RL 的算法较多, 主要包括 Q 学习、SARSA 学习
和 R 学习等, 其中 Q 学习应用最为广泛. 作为一种模
型无关的在线时间差分 (TD) 学习方法, Q 学习的策略
选择方法直接影响算法的效率 (即探索和利用难题).
常用的策略 选择方 法有 Boltzmann 分布 、𝜀-greedy、
贝叶斯方法和启发式策略选择 (也称 Action Biasing
或 Control Sharing) 等
[1-4]
. 这些方法中, Boltzmann 分
布和 𝜀-greedy 并未有效利用经验知识; 贝叶斯方法虽
然理论坚实, 但存在采样和计算复杂、先验概率不易
确定、未有效使用过程知识等缺点; 启发式策略选择
更为灵活, 直接使用相关领域知识指导智能体的动作
选择, 先验和过程知识都可以使用
[6-8]
. 文献 [8] 在小
车爬山和倒立摆任务中对比研究了多类启发式强化
学习方法, 结果表明启发式策略选择具有稳定的学习
收稿日期: 2012-11-06;修回日期: 2013-04-18.
基金项目: 国 家 自 然 科 学 基 金 项 目(61072094, 61273143); 教 育 部 高 等 学 校 博 士 学 科 点 专 项 科 研 基 金 项 目
(20110095110011, 20110095110016);中央高校基本科研业务费专项资金项目(2013XK09);江苏省自然
科学基金项目(BK20130207);江苏省博士后基金项目(1301029C).
作者简介: 朱美强(1979−), 男, 讲师, 博士, 从事机器学习、智能控制的研究;李明(1962−), 男, 教授, 博士, 从事机器学
习、机器人与智能控制等研究.