基于状态聚类的高效非参数强化学习算法提升控制效果

18 浏览量更新于2024-08-29 收藏 682KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要探讨了一种创新的强化学习算法——基于状态聚类的非参数化近似广义策略迭代增强学习算法（NPAGPI-SC）。针对传统近似策略迭代算法存在的问题，如计算复杂度高和需要手动构建基函数，NPAGPI-SC旨在提高效率并增强学习的自动化程度。首先，算法的核心思想是采用二级随机采样过程来收集训练数据，这有助于减少样本搜索空间，降低计算负担。通过这种方式，算法能够更有效地探索环境，获取更有代表性的状态信息。其次，NPAGPI-SC引入了trial-and-error过程，这是一种试错的学习方式，用于计算逼近器的初始参数。这种方法结合了经验驱动的策略，使得算法可以从实际操作中学习，而不是依赖于预设的模型。在学习过程中，算法利用delta规则和最近邻思想进行动态调整，这使得逼近器能够随着环境的变化和经验的积累而自我优化。delta规则是一种常用的在线学习算法，通过调整权重来适应新的输入，而最近邻思想则有助于处理非线性和非光滑问题，增强逼近器的灵活性。决策策略上，NPAGPI-SC采取了贪心策略，即在每个时间步选择当前看起来最优的动作，虽然这不是全局最优，但在局部环境下能快速响应并作出反应。这种策略设计使得算法在实时性上有较好的表现。最后，为了验证NPAGPI-SC的有效性和鲁棒性，作者进行了针对一级倒立摆平衡控制的仿真实验。结果显示，新算法在保持高效计算的同时，能够在各种复杂环境中稳定地学习和控制，展现出良好的性能和适应性。 NPAGPI-SC算法通过结合状态聚类、非参数化、自适应学习策略以及有效的数据采集和决策策略，成功地解决了传统强化学习算法中的痛点，为解决实际问题提供了高效且灵活的学习框架。这项工作对于推动强化学习在实际应用中的发展具有重要意义。

资源详情

资源推荐

第 32卷第 12期控制与决策 Vol.32 No.12

2017年 12月 Control and Decision Dec. 2017

文章编号: 1001-0920(2017)12-2153-09 DOI: 10.13195/j.kzyjc.2016.1148

基于状态聚类的非参数化近似广义策略迭代增强学习算法

季挺, 张华

†

(南昌大学江西省机器人与焊接自动化重点实验室，南昌 330031)

摘要: 为解决当前近似策略迭代增强学习算法普遍存在计算量大、基函数不能完全自动构建的问题, 提出一种

基于状态聚类的非参数化近似广义策略迭代增强学习算法 (NPAGPI-SC). 该算法利用二级随机采样过程采集样

本, 利用 trial-and-error 过程和以样本完全覆盖为目标的估计方法计算逼近器初始参数, 利用 delta 规则和最近邻思

想在学习过程中自适应地调整逼近器, 利用贪心策略选择应执行的动作. 一级倒立摆平衡控制的仿真实验结果验

证了所提出算法的有效性和鲁棒性.

关键词: 增强学习；策略迭代；非参数化；状态聚类

中图分类号: TP181 文献标志码: A

Nonparametric approximation generalized policy iteration reinforcement

learning algorithm based on states clustering

JI Ting, ZHANG Hua

†

(Key Lab of Robot & Welding Automation of Jiangxi Province，Nanchang University，Nanchang 330031，China)

Abstract: A nonparametric approximation generalized policy iteration reinforcement learning algorithm based on states

clustering(NPAGPI-SC) is proposed to solve the problems such as large calculating quantity and building basis function

incompletely automated for the current approximation policy iteration reinforcement learning algorithm. In this algorithm,

two stage random sampling process is used to collect samples, the trial-and-error process and the estimation algorithm

for covering samples completely are utilized to compute approximator’s initial parameters, the delta rule and nearest

neighbor method are exploited to adjust the approximator automatically in the learning process, and the greedy strategy

is adopted to select an action. The results of simulation on the balancing control of a single inverted pendulum show the

eﬀectiveness and robustness of the proposed algorithm.

Keywords: reinforcement learning；policy iteration；nonparametric；states clustering

0 󰓦 󲿑

经典增强学习算法使用表格存储和计算 Q 值

(或 V 值), 仅适于解决小规模、离散状态和动作空间

中的问题, 实际系统通常工作在大规模、连续状态

和动作空间中,若依然采取表格算法则会导致“维数

灾”问题. 近似策略迭代算法是解决“维数灾”问题

的主要方法之一,典型的近似策略迭代增强学习算法

LSPI

[1]

为离线算法, 不仅计算量大, 而且值函数逼近

器 (包括基函数和参数) 依赖先验知识或通过反复试

凑确定, 不具备自动构建的能力. online LSPI

[2]

解决

了LSPI 算法的在线计算问题, BLSPI

[3]

在online LSPI

算法的基础上进一步提高了样本的利用率, 并在一定

程度上降低了近似策略迭代算法的计算量, 但这两

种算法依然需要手工构建基函数. 基于核的近似策

略迭代增强学习算法

[4-7]

能够在相当程度上解决逼

近器的自动构建问题,但依然需要手动选择基函数宽

度、稀疏度阈值等参数.

鉴于此,本文提出一种基于状态聚类的非参数化

近似广义策略迭代增强学习算法 (NPAGPI-SC). 该算

法能够综合利用离线和在线样本, 不仅计算量较小,

而且只需预先指定增强学习的允许误差率, 便能够

在与环境的交互过程中自主构建和调整逼近器的基

函数和参数. 将 NPAGPI-SC 应用于一级倒立摆平衡

控制问题, 仿真实验结果验证了所提出算法的有效

性和鲁棒性, 且相较于 LSPI、 online LSPI、 BLSPI、

KLSPI

[5-6]

等算法, NPAGPI-SC 具有收敛速度更快的

收稿日期: 2016-09-09；修回日期: 2016-12-13.

基金项目: 国家 863 计划项目 (SS2013AA041003).

作者简介: 季挺 (1982−), 男, 博士, 从事智能机器人、智能控制的研究；张华 (1964−), 男, 教授, 博士生导师, 从事智

能机器人技术、光纤传感、智能金属结构等研究.

†

通讯作者. E-mail: zhanghua@163.com

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38592405

粉丝: 6
资源: 869

基于状态聚类的高效非参数强化学习算法提升控制效果

"合并过滤器代表性聚类算法的近似重复检测

"基于谱聚类的联合学习和深度Q强化学习的混合模型研究

基于并行聚类算法的KTXMLC对极端多标签分类性能的改进

GASP：广义加权图聚类及实例分割

基于方差正则岭回归的基于谱聚类的子空间聚类方法的效果分析

kmeans聚类算法参数确定

层次聚类算法的数据集划分策略有哪些

基于改进聚类算法的遗传算法初始化方法

基于颜色聚类的分割及改进的fmm算法

kmeans聚类算法参数

K均值聚类算法、迭代自组织算法、DBSCAN算法

基于kmeans聚类算法课设

基于Kmeans聚类算法的图像分割 做一个三分钟的PPT 简单介绍kmeans算法和图像分割

广义神经网络聚类算法

ros基于欧式聚类算法处理点云数据

基于knn的聚类算法优缺点

改进的谱聚类算法有哪些

基于密度的聚类所有算法

详细说明基于聚类的算法

最新资源

基于Kmeans聚类算法的图像分割做一个三分钟的PPT 简单介绍kmeans算法和图像分割