拉普拉斯特征映射在启发式Q学习中的应用

113 浏览量更新于2024-08-29 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"本文提出了一种基于拉普拉斯特征映射的启发式Q学习方法，旨在解决在状态空间不连续的强化学习任务中，欧氏距离作为启发式函数效率低下的问题。通过引入流形学习中的拉普拉斯特征映射，该方法适用于内在维数可估计且状态空间在连续流形上的任务，特别是相邻状态间存在无向图连接的情况。通过格子世界的仿真，验证了新方法的有效性。" 在强化学习中，智能体通过与环境的交互来学习最优策略，以最大化长期奖励。传统的Q学习是一种经典的离线或在线学习算法，它利用Q值表来估算每个状态下执行每个动作的未来奖励期望。然而，在基于目标的强化学习任务中，通常采用欧氏距离作为启发式函数来指导策略选择，这种方法在状态空间不连续的环境中表现不佳。拉普拉斯特征映射是流形学习中的一种技术，它能够揭示数据集内在的低维结构。在这种情况下，作者将拉普拉斯特征映射应用到状态空间，以更好地捕捉状态之间的局部和全局关系。通过这种方法，他们可以创建一个更适应于状态空间拓扑结构的启发式函数，这尤其适合于状态空间在某个流形上连续，且状态间连接构成无向图的任务。该方法的创新之处在于将谱图理论与强化学习相结合。谱图理论关注图的频谱性质，即图的拉普拉斯矩阵的特征值和特征向量，这些特征可以反映图的结构信息。在Q学习框架下，拉普拉斯特征映射能够帮助智能体更准确地估计状态之间的相似性，从而改进策略选择。在格子世界的仿真实验中，这种方法展示了优于仅使用欧氏距离的性能，证明了拉普拉斯特征映射作为启发式函数的有效性。这种结合流形学习的启发式Q学习方法有望在各种复杂环境中提高强化学习的效率和效果，特别是在状态空间不规则或非欧几里得的情况下。这篇研究论文提供了一个新颖的视角，将流形学习工具应用于强化学习，为解决状态空间连续性问题提供了一个有力的解决方案。这种结合不仅丰富了强化学习的理论基础，也为实际问题的求解提供了新的思路。

资源详情

资源推荐

第 29 卷第 3 期

Vol. 29 No. 3

控制与决策

Control and Decision

2014 年 3 月

Mar. 2014

基于拉普拉斯特征映射的启发式 Q 学习

文章编号: 1001-0920 (2014) 03-0425-06 DOI: 10.13195/j.kzyjc.2012.1669

朱美强, 李明, 程玉虎, 张倩, 王雪松

(中国矿业大学信息与电气工程学院，江苏徐州 221116)

摘要: 在基于目标的强化学习任务中, 欧氏距离常作为启发式函数用于策略选择, 其用于状态空间在欧氏空间内

不连续的任务效果不理想. 针对此问题, 引入流形学习中计算复杂度较低的拉普拉斯特征映射法, 提出一种基于谱图

理论的启发式策略选择方法. 所提出的方法适用于状态空间在某个内在维数易于估计的流形上连续, 且相邻状态间

的连接关系为无向图的任务. 格子世界的仿真结果验证了所提出方法的有效性.

关键词: 强化学习；启发式策略选择；Q 学习；拉普拉斯特征映射

中图分类号: TP181 文献标志码: A

Heuristically accelerated Q-learning algorithm based on Laplacian

Eigenmap

ZHU Mei-qiang, LI Ming, CHENG Yu-hu, ZHANG Qian, WANG Xue-song

(School of Information and Electrical Engineering，China University of Mining and Technology，Xuzhou 221116,

China．Correspondent：ZHU Mei-qiang，E-mail：tianlianglu@163.com)

Abstract: As a heuristic function, the Euclidean distance is usually used to select online action in reinforcement learning

based on goal position. It is not applied to these tasks whose state spaces are not continuous in Euclidean space. For

the problem, the Laplacian Eigenmap whose computational complexity is lower in manifold learning is introduced, then a

method of heuristic policy selection based on the spectral graph theory is proposed. The proposed method is suitable for these

tasks not only whose state spaces are continuous in some manifold that has a good estimation of intrinsic dimension, but also

whose connection relation is expressed by an undirected graph. The simulation results of grid world show the effectiveness

of the proposed method.

Key words: reinforcement learning；heuristic policy selection；Q-learning；Laplacian Eigenmap

0 引引引言言言

强化学习 (RL) 能在无环境模型和教师样本的情

况下, 通过与环境交互进行自主学习, 已广泛应用于

调度优化、自适应控制和机器人自主导航等领域

[1-5]

RL 的主要缺点是学习效率较低, 原因在于其核心的

试错改进机制和回报延迟的特点决定了智能体仅能

依据学习中获取的稀疏回报来改进策略, 而忽略了大

量有用的信息和知识. 从 20 世纪 90 年代起, 研究者开

始抛弃智能体“一无所知”的假设, 通过发现和利用

问题的领域知识提高 RL 的效率

[1-2,4]

RL 的算法较多, 主要包括 Q 学习、SARSA 学习

和 R 学习等, 其中 Q 学习应用最为广泛. 作为一种模

型无关的在线时间差分 (TD) 学习方法, Q 学习的策略

选择方法直接影响算法的效率 (即探索和利用难题).

常用的策略选择方法有 Boltzmann 分布、𝜀-greedy、

贝叶斯方法和启发式策略选择 (也称 Action Biasing

或 Control Sharing) 等

[1-4]

. 这些方法中, Boltzmann 分

布和 𝜀-greedy 并未有效利用经验知识; 贝叶斯方法虽

然理论坚实, 但存在采样和计算复杂、先验概率不易

确定、未有效使用过程知识等缺点; 启发式策略选择

更为灵活, 直接使用相关领域知识指导智能体的动作

选择, 先验和过程知识都可以使用

[6-8]

. 文献 [8] 在小

车爬山和倒立摆任务中对比研究了多类启发式强化

学习方法, 结果表明启发式策略选择具有稳定的学习

收稿日期: 2012-11-06；修回日期: 2013-04-18.

基金项目: 国家自然科学基金项目(61072094, 61273143)；教育部高等学校博士学科点专项科研基金项目

(20110095110011, 20110095110016)；中央高校基本科研业务费专项资金项目(2013XK09)；江苏省自然

科学基金项目(BK20130207)；江苏省博士后基金项目(1301029C).

作者简介: 朱美强(1979−), 男, 讲师, 博士, 从事机器学习、智能控制的研究；李明(1962−), 男, 教授, 博士, 从事机器学

习、机器人与智能控制等研究.

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38658471

粉丝: 4
资源: 944

拉普拉斯特征映射在启发式Q学习中的应用

基于监督拉普拉斯特征映射算法的人脸识别.pdf

可以介绍下拉普拉斯特征映射吗

刚才提到的等距映射和拉普拉斯特征映射又分别是什么呢

拉普拉斯特征映射和并行稀疏滤波

拉普拉斯特征映射代码

拉普拉斯特征映射 matlab代码

python拉普拉斯算子

拉普拉斯映射与PCA区别

基于拉普拉斯金字塔算法的图像增强

基于拉普拉斯金字塔和区域能量的图像融合（python）

为什么对拉普拉斯矩阵进行特征分解，可以将数据对象映射到低维空间

能给我一段基于拉普拉斯金字塔的图像融合matlab代码吗

用c++和OpenCV库实现基于拉普拉斯的边缘信息改进全局阈值处理的算法

harary图的拉普拉斯矩阵特征值

给我一段基于拉普拉斯金字塔进行可见光与红外的灰度图像融合的matlab代码

拉普拉斯分数度量特征重要性优势

matlab求解拉普拉斯矩阵及其特征值

基于matlab的拉普拉斯图像增强算法与设计

使用拉普拉斯噪声扰动身份特征

Java语言编程基础及Web开发入门教程：Java 是一种广泛使用的面向对象编程语言，以其平台无关性和安全性著称 Java 不仅

最新资源