第 32卷 第 12期 控 制 与 决 策 Vol.32 No.12
2017年 12月 Control and Decision Dec. 2017
文章编号: 1001-0920(2017)12-2153-09 DOI: 10.13195/j.kzyjc.2016.1148
基于状态聚类的非参数化近似广义策略迭代增强学习算法
季 挺, 张 华
†
(南昌大学 江西省机器人与焊接自动化重点实验室,南昌 330031)
摘 要: 为解决当前近似策略迭代增强学习算法普遍存在计算量大、基函数不能完全自动构建的问题, 提出一种
基于状态聚类的非参数化近似广义策略迭代增强学习算法 (NPAGPI-SC). 该算法利用二级随机采样过程采集样
本, 利用 trial-and-error 过程和以样本完全覆盖为目标的估计方法计算逼近器初始参数, 利用 delta 规则和最近邻思
想在学习过程中自适应地调整逼近器, 利用贪心策略选择应执行的动作. 一级倒立摆平衡控制的仿真实验结果验
证了所提出算法的有效性和鲁棒性.
关键词: 增强学习;策略迭代;非参数化;状态聚类
中图分类号: TP181 文献标志码: A
Nonparametric approximation generalized policy iteration reinforcement
learning algorithm based on states clustering
JI Ting, ZHANG Hua
†
(Key Lab of Robot & Welding Automation of Jiangxi Province,Nanchang University,Nanchang 330031,China)
Abstract: A nonparametric approximation generalized policy iteration reinforcement learning algorithm based on states
clustering(NPAGPI-SC) is proposed to solve the problems such as large calculating quantity and building basis function
incompletely automated for the current approximation policy iteration reinforcement learning algorithm. In this algorithm,
two stage random sampling process is used to collect samples, the trial-and-error process and the estimation algorithm
for covering samples completely are utilized to compute approximator’s initial parameters, the delta rule and nearest
neighbor method are exploited to adjust the approximator automatically in the learning process, and the greedy strategy
is adopted to select an action. The results of simulation on the balancing control of a single inverted pendulum show the
effectiveness and robustness of the proposed algorithm.
Keywords: reinforcement learning;policy iteration;nonparametric;states clustering
0
经典增强学习算法使用表格存储和计算 Q 值
(或 V 值), 仅适于解决小规模、离散状态和动作空间
中的问题, 实际系统通常工作在大规模、 连续状态
和动作空间中,若依然采取表格算法则会导致“维数
灾”问题. 近似策略迭代算法是解决“维数灾”问题
的主要方法之一,典型的近似策略迭代增强学习算法
LSPI
[1]
为离线算法, 不仅计算量大, 而且值函数逼近
器 (包括基函数和参数) 依赖先验知识或通过反复试
凑确定, 不具备自动构建的能力. online LSPI
[2]
解决
了LSPI 算法的在线计算问题, BLSPI
[3]
在online LSPI
算法的基础上进一步提高了样本的利用率, 并在一定
程度上降低了近似策略迭代算法的计算量, 但这两
种算法依然需要手工构建基函数. 基于核的近似策
略迭代增强学习算法
[4-7]
能够在相当程度上解决逼
近器的自动构建问题,但依然需要手动选择基函数宽
度、稀疏度阈值等参数.
鉴于此,本文提出一种基于状态聚类的非参数化
近似广义策略迭代增强学习算法 (NPAGPI-SC). 该算
法能够综合利用离线和在线样本, 不仅计算量较小,
而且只需预先指定增强学习的允许误差率, 便能够
在与环境的交互过程中自主构建和调整逼近器的基
函数和参数. 将 NPAGPI-SC 应用于一级倒立摆平衡
控制问题, 仿真实验结果验证了所提出算法的有效
性和鲁棒性, 且相较于 LSPI、 online LSPI、 BLSPI、
KLSPI
[5-6]
等算法, NPAGPI-SC 具有收敛速度更快的
收稿日期: 2016-09-09;修回日期: 2016-12-13.
基金项目: 国家 863 计划项目 (SS2013AA041003).
作者简介: 季挺 (1982−), 男, 博士, 从事智能机器人、智能控制的研究;张华 (1964−), 男, 教授, 博士生导师, 从事智
能机器人技术、光纤传感、智能金属结构等研究.
†
通讯作者. E-mail: zhanghua@163.com