第 30 卷 第 9 期
Vol. 30 No. 9
控 制 与 决 策
Control and Decision
2015 年 9 月
Sep. 2015
基于策略迭代的连续时间系统的随机线性二次最优控制
文章编号: 1001-0920 (2015) 09-1674-05 DOI: 10.13195/j.kzyjc.2014.0856
王 涛
1,2
, 张化光
1
(1. 东北大学 信息科学与工程学院,沈阳 110004;2. 沈阳师范大学 计算机与数学基础教学部,沈阳 110034)
摘 要: 针对模型参数部分未知的随机线性连续时间系统, 通过策略迭代算法求解无限时间随机线性二次 (LQ) 最优
控制问题. 求解随机 LQ 最优控制问题等价于求随机代数 Riccati 方程 (SARE) 的解. 首先利用伊藤公式将随机微分方
程转化为确定性方程, 通过策略迭代算法给出 SARE 的解序列; 然后证明 SARE 的解序列收敛到 SARE 的解, 而且在
迭代过程中系统是均方可镇定的; 最后通过仿真例子表明策略迭代算法的可行性.
关键词: 随机代数 Riccati 方程;随机微分方程;策略迭代;最优控制
中图分类号: TP273+.1 文献标志码: A
Stochastic linear quadratic optimal control for continuous-time systems
based on policy iteration
WANG Tao
1,2
, ZHANG Hua-guang
1
(1. College of Information Science and Engineering,Northeastern University,Shenyang 110004,China;2. Department
of Computer and Mathematics Teaching,Shenyang Normal University,Shenyang 110034,China.Correspondent:
WANG Tao,E-mail:wtnuhai@163.com)
Abstract: The stochastic linear quadratic(LQ) optimal control problem is solved for stochastic linear continuous-time
systems with the partly unknown parameter by using the policy iteration approach. The feasibility of the stochastic LQ
optimal control problem is equivalent to the solvability of the stochastic algebra Riccati equation(SARE). Firstly, the
stochastic differential equation is converted into the deterministic equation by using It
ˆ
o formula, and the solution sequence of
SARE is obtained by using the policy iteration approach. Then, convergence analysis is presented to prove that the solution
sequence of SARE reaches the solution of SARE, and the proof of mean square stability of the systems in the process of
iteration is also given. Finally, a simulation example is given to illustrate the feasibility of the policy iteration approach.
Keywords: stochastic algebra Riccati equation;stochastic differential equation;policy iteration;optimal control
0 引引引 言言言
确定性系统的线性二次 (LQ) 最优控制问题由
Kalman
[1]
首次 提出, 随后得 到了 迅速 发展
[2-4]
. 文 献
[5] 采用策略迭代算法估计模型参数部分未知的连续
时间系统的最优控制; 文献 [6] 针对模型参数完全未
知的连续时间系统, 通过在线策略迭代算法求得无限
时间 LQ 最优控制; 文献 [7] 通过一个新型的递归神经
网络辨识器和单网络求解模型参数完全未知的非线
性连续时间系统的近似最优控制.
随机 LQ 最优控制问题由 Wonham
[8]
开创. 文献
[9] 给出了一般化 Riccati方程 (GRE), 同时证明了有限
时间随机 LQ 最优控制问题的可解性等价于 GRE 的
可解性. 文献 [10] 通过迭代算法求解有限时间随机
LQ 最优控制问题, 并给出了最优控制可解性的充分
条件. 文献 [11] 采用迭代算法研究了连续型随机系统
的变结构控制律. 文献 [12] 讨论了无限时间随机 LQ
最优控制, 给出了随机代数 Riccati 方程 (SARE), 通过
线性矩阵不等式求解 SARE. 文献 [13] 利用拉格朗日
乘子定理给出了带有约束条件的有限时间随机 LQ 最
优控制存在的充要条件. 文献 [14] 通过克罗内克代数
和 𝐻- 表示技术讨论了非线性时滞随机系统的稳定
性.
本文通过策略迭代算法求解模型参数部分未知
的随机 LQ 最优控制问题. 在迭代过程中构造 SARE
收稿日期: 2014-05-30 ;修回日期: 2014-12-17.
基金项目: 国 家 自 然 科 学 基 金 项 目(61034005); 国 家 863 计 划 项 目(2012AA040104); 辽 宁 省 自 然 科 学 基 金 项 目
(201202201).
作者简介: 王涛(1979−), 男, 讲师, 博士生, 从事近似动态规划最优控制、神经网络控制的研究;张化光(1959−), 男, 教
授, 博士生导师, 从事智能自适应控制、非线性递归神经网络的稳定性分析等研究.