策略迭代解决随机线性连续时间系统最优控制

21 浏览量更新于2024-08-29 2 收藏 180KB PDF 举报

"基于策略迭代的连续时间系统的随机线性二次最优控制" 本文主要探讨的是如何在模型参数部分未知的情况下，解决随机线性连续时间系统的无限时间随机线性二次（LQ）最优控制问题。该问题的求解涉及到随机代数Riccati方程（SARE）的解。在控制理论中，最优控制问题旨在找到一个控制策略，使得系统性能指标（如能量消耗或轨迹跟踪误差）最小化。首先，文章提到了伊藤公式，这是一个在随机微分方程（SDEs）处理中的关键工具。伊藤公式可以将随机微分方程转化为确定性的形式，这使得我们能够在不确定环境中对系统进行建模和分析。在本文中，利用伊藤公式，作者将随机线性连续时间系统转化为一个可以通过策略迭代算法处理的形式。策略迭代算法是一种动态规划方法，用于寻找最优控制策略。在每一步迭代中，算法会更新控制策略，并计算新的系统性能。在这个过程中，作者给出了SARE的解序列，这是通过不断调整策略并计算新的系统性能来实现的。策略迭代的关键在于，它并不需要事先知道整个系统的完整信息，而只需要部分参数即可逐步逼近最优解。接下来，文章证明了这个解序列是收敛的，即随着迭代次数的增加，解序列会逐渐接近SARE的真正解。此外，还证明了在迭代过程中，系统是均方可镇定的，这意味着系统的行为在统计意义上是稳定的，不会出现发散或不可预测的波动。最后，通过一个仿真例子，作者展示了策略迭代算法的实际应用和有效性。这一仿真不仅验证了算法的正确性，也突出了其在实际问题中的可行性和实用性。这篇论文提供了一种处理模型参数部分未知的随机线性连续时间系统的最优控制问题的方法，强调了策略迭代算法在解决此类问题中的优势，并通过实例证明了这种方法的可行性和稳定性。对于理解和应用随机系统的最优控制策略，这篇文章提供了有价值的理论框架和技术手段。

第 30 卷第 9 期

Vol. 30 No. 9

控制与决策

Control and Decision

2015 年 9 月

Sep. 2015

基于策略迭代的连续时间系统的随机线性二次最优控制

文章编号: 1001-0920 (2015) 09-1674-05 DOI: 10.13195/j.kzyjc.2014.0856

王涛

1,2

, 张化光

(1. 东北大学信息科学与工程学院，沈阳 110004；2. 沈阳师范大学计算机与数学基础教学部，沈阳 110034)

摘要: 针对模型参数部分未知的随机线性连续时间系统, 通过策略迭代算法求解无限时间随机线性二次 (LQ) 最优

控制问题. 求解随机 LQ 最优控制问题等价于求随机代数 Riccati 方程 (SARE) 的解. 首先利用伊藤公式将随机微分方

程转化为确定性方程, 通过策略迭代算法给出 SARE 的解序列; 然后证明 SARE 的解序列收敛到 SARE 的解, 而且在

迭代过程中系统是均方可镇定的; 最后通过仿真例子表明策略迭代算法的可行性.

关键词: 随机代数 Riccati 方程；随机微分方程；策略迭代；最优控制

中图分类号: TP273+.1 文献标志码: A

Stochastic linear quadratic optimal control for continuous-time systems

based on policy iteration

WANG Tao

1,2

, ZHANG Hua-guang

(1. College of Information Science and Engineering，Northeastern University，Shenyang 110004，China；2. Department

of Computer and Mathematics Teaching，Shenyang Normal University，Shenyang 110034，China．Correspondent:

WANG Tao，E-mail：wtnuhai@163.com)

Abstract: The stochastic linear quadratic(LQ) optimal control problem is solved for stochastic linear continuous-time

systems with the partly unknown parameter by using the policy iteration approach. The feasibility of the stochastic LQ

optimal control problem is equivalent to the solvability of the stochastic algebra Riccati equation(SARE). Firstly, the

stochastic differential equation is converted into the deterministic equation by using It

o formula, and the solution sequence of

SARE is obtained by using the policy iteration approach. Then, convergence analysis is presented to prove that the solution

sequence of SARE reaches the solution of SARE, and the proof of mean square stability of the systems in the process of

iteration is also given. Finally, a simulation example is given to illustrate the feasibility of the policy iteration approach.

Keywords: stochastic algebra Riccati equation；stochastic differential equation；policy iteration；optimal control

0 引引引言言言

确定性系统的线性二次 (LQ) 最优控制问题由

Kalman

[1]

首次提出, 随后得到了迅速发展

[2-4]

. 文献

[5] 采用策略迭代算法估计模型参数部分未知的连续

时间系统的最优控制; 文献 [6] 针对模型参数完全未

知的连续时间系统, 通过在线策略迭代算法求得无限

时间 LQ 最优控制; 文献 [7] 通过一个新型的递归神经

网络辨识器和单网络求解模型参数完全未知的非线

性连续时间系统的近似最优控制.

随机 LQ 最优控制问题由 Wonham

[8]

开创. 文献

[9] 给出了一般化 Riccati方程 (GRE), 同时证明了有限

时间随机 LQ 最优控制问题的可解性等价于 GRE 的

可解性. 文献 [10] 通过迭代算法求解有限时间随机

LQ 最优控制问题, 并给出了最优控制可解性的充分

条件. 文献 [11] 采用迭代算法研究了连续型随机系统

的变结构控制律. 文献 [12] 讨论了无限时间随机 LQ

最优控制, 给出了随机代数 Riccati 方程 (SARE), 通过

线性矩阵不等式求解 SARE. 文献 [13] 利用拉格朗日

乘子定理给出了带有约束条件的有限时间随机 LQ 最

优控制存在的充要条件. 文献 [14] 通过克罗内克代数

和 𝐻- 表示技术讨论了非线性时滞随机系统的稳定

性.

本文通过策略迭代算法求解模型参数部分未知

的随机 LQ 最优控制问题. 在迭代过程中构造 SARE

收稿日期: 2014-05-30 ；修回日期: 2014-12-17.

基金项目: 国家自然科学基金项目(61034005)；国家 863 计划项目(2012AA040104)；辽宁省自然科学基金项目

(201202201).

作者简介: 王涛(1979−), 男, 讲师, 博士生, 从事近似动态规划最优控制、神经网络控制的研究；张化光(1959−), 男, 教

授, 博士生导师, 从事智能自适应控制、非线性递归神经网络的稳定性分析等研究.

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38682254

粉丝: 7

策略迭代解决随机线性连续时间系统最优控制

策略迭代解决随机连续时间系统LQ最优控制

离散二次线性系统最优控制的遗传算法实现

iLQG/DDP算法在matlab中实现最优控制问题的解决方案

基于策略迭代的连续时间系统的随机线性二次最优控制_王涛.pdf

随机滤波与最优估计作业

最优控制大作业（强化学习）

动态规划与最优控制第三版

【最优控制策略】：Nise书中的最优控制，理论与实践无缝对接

【智能控制系统的最优控制】：寻找最优解的策略和方法

【系统辨识技术】：最优控制中的方法与应用全面解析

最新资源