启发式动态规划在非线性离散时滞系统最优控制中的应用

需积分: 5 24 浏览量更新于2024-08-11 收藏 262KB PDF 举报

"带饱和执行器的非线性离散时滞系统的最优控制 (2014年)" 这篇2014年的学术论文专注于探讨带有饱和执行器的非线性离散时间系统的最优控制策略，这类系统在实际工程应用中常见，如航空、自动化和机器人等领域。饱和执行器是指其输出在特定范围内受限的控制器，这可能导致系统性能下降或不稳定。作者通过启发式动态规划（Heuristic Dynamic Programming, HDP）算法来解决无限时间最优控制问题，这是动态规划的一个变体，适用于处理复杂的实时控制问题。在论文中，作者首先介绍了如何利用HDP算法迭代生成值函数序列和对应的控制序列。值函数是评估系统状态在某个时间点未来预期成本的函数，而控制序列则指在不同时间点应施加的最优控制输入。他们证明了这些序列会收敛到最优值函数和最优控制策略，这是保证控制效果的关键。为实现HDP算法，论文引入了三种神经网络：模型网络、评判网络和控制作用网络。模型网络用于近似系统的动态行为，评判网络负责近似值函数，而控制作用网络则用于估计最优控制输入。这种神经网络的使用是基于它们强大的非线性建模能力和学习能力，能够适应复杂系统的行为。在数值模拟部分，作者提供了一个具体的仿真例子来验证所提出方法的有效性。通过这个例子，他们展示了在带有饱和执行器的非线性离滞时间系统中，采用HDP算法和神经网络相结合的方法可以成功地找到接近最优的控制策略，从而证明了这种方法的可行性。关键词涉及到近似动态规划、启发式动态规划、值函数、神经网络和最优控制，这些都是控制理论和人工智能领域的核心概念。近似动态规划允许在计算复杂度较高的情况下寻找近似最优解，而启发式动态规划则是一种更为灵活的近似方法。值函数在优化问题中扮演重要角色，它刻画了系统的长期性能。神经网络作为强大的工具，被广泛应用于模型学习和控制策略的生成。这篇论文的贡献在于提供了一种处理有约束控制问题的新方法，对于理论研究和实际应用都有一定的指导意义，特别是在需要考虑执行器限制的控制系统设计中。同时，它也展现了神经网络在解决复杂优化问题中的潜力，为未来的研究提供了新的思路。

收稿日期   

基金项目 国家自然科学基金资助项目  国家基础研究计划项目ＣＢ  辽宁省自然科学基金资

助项目 

作者简介 王涛  男辽宁丹东人东北大学博士研究生沈阳师范大学讲师

第 卷第 期

  年  月

东北大学学报  自然科学版 

ＪｏｕｒｎａｌｏｆＮｏｒｔｈｅａｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙＮａｔｕｒａｌＳｃｉｅｎｃｅ

ＶｏｌＮｏ

Ａｐｒ   



ｄｏｉ  ｊｉｓｓｎ 

带饱和执行器的非线性离散时滞系统的最优控制

王涛 罗艳红

 东北大学信息科学与工程学院 辽宁沈阳

摘要 主要针对带有饱和执行器的时滞非线性离散时间系统更加一般的形式通过启发式动态规划

ＨＤＰ算法求解无限时间最优控制策略问题并在值函数中引入折扣因子首先通过迭代ＨＤＰ算法给出值

函数序列和相应的控制序列并给出了收敛性证明即值函数序列收敛到值函数的最优值以及控制序列收敛

到最优控制其次为了实现ＨＤＰ算法引入  个神经网络模型网络评判网络控制作用网络模型网络用来

近似系统模型评判网络用来近似值函数控制作用网络用来近似控制最后通过一个仿真例子说明上述方法

的可行性

关键词 近似动态规划启发式动态规划值函数神经网络最优控制

中图分类号 ＴＰ 文献标志码 Ａ文章编号    

ＯｐｔｉｍａｌＣｏｎｔｒｏｌｆｏｒＮｏｎｌｉｎｅａｒＤｉｓｃｒｅｔｅＴｉｍｅＴｉｍｅＤｅｌａｙＳｙｓｔｅｍｓ

ｗｉｔｈＳａｔｕｒａｔｉｎｇＡｃｔｕａｔｏｒｓ

ＷＡＮＧＴａｏ ＬＵＯＹａｎｈｏｎｇ

ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ ＮｏｒｔｈｅａｓｔｅｒｎＵｎｉｖｅｒｓｉｔｙ Ｓｈｅｎｙａｎｇ  ＣｈｉｎａＣｏｒｒｅｓｐｏｎｄｉｎｇ

ａｕｔｈｏｒ ＷＡＮＧＴａｏ Ｅｍａｉｌ ｗｔｎｕｈａｉｃｏｍ

Ａｂｓｔｒａｃｔ Ｆｏｒｔｈｅｍｏｒｅｇｅｎｅｒａｌｆｏｒｍｏｆｎｏｎｌｉｎｅａｒｄｉｓｃｒｅｔｅｔｉｍｅｔｉｍｅｄｅｌａｙｓｓｙｓｔｅｍｓｗｉｔｈ

ｓａｔｕｒａｔｉｎｇａｃｔｕａｔｏｒｓ ａｎｉｎｆｉｎｉｔｅｔｉｍｅｏｐｔｉｍａｌｃｏｎｔｒｏｌｓｃｈｅｍｅｗａｓｄｅｖｅｌｏｐｅｄｂｙｈｅｕｒｉｓｔｉｃｄｙｎａｍｉｃ

ｐｒｏｇｒａｍｍｉｎｇ ＨＤＰ ａｌｇｏｒｉｔｈｍＩｎｔｈｅｐｒｏｐｏｓｅｄｓｃｈｅｍｅ ｔｈｅｄｉｓｃｏｕｎｔｆａｃｔｏｒｗａｓａｄｄｅｄｉｎｔｈｅ

ｖａｌｕｅｆｕｎｃｔｉｏｎＦｉｒｓｔｌｙ ｖａｌｕｅｆｕｎｃｔｉｏｎｓｅｒｉｅｓａｎｄｃｏｎｔｒｏｌｓｅｒｉｅｓｗｅｒｅｇｉｖｅｎｔｈｒｏｕｇｈｉｔｅｒａｔｉｖｅＨＤＰ

ａｌｇｏｒｉｔｈｍ ａｎｄｔｈｅｃｏｎｖｅｒｇｅｎｃｅａｎａｌｙｓｉｓｗａｓｐｒｅｓｅｎｔｅｄｔｏｐｒｏｖｅｔｈａｔｖａｌｕｅｆｕｎｃｔｉｏｎｓｅｒｉｅｓａｎｄ

ｃｏｎｔｒｏｌｓｅｒｉｅｓｒｅａｃｈｔｈｅｏｐｔｉｍａｌｖａｌｕｅｓｉｍｕｌｔａｎｅｏｕｓｌｙＳｅｃｏｎｄｌｙ ｔｈｒｅｅｎｅｕｒａｌｎｅｔｗｏｒｋｓ  ＮＮ

ｗｈｉｃｈａｒｅｍｏｄｅｌＮＮ ｃｒｉｔｉｃＮＮ ａｃｔｉｏｎＮＮｗｅｒｅｉｎｔｒｏｄｕｃｅｄｔｏｃａｒｒｙｏｕｔｔｈｅＨＤＰａｌｇｏｒｉｔｈｍ

ＭｏｄｅｌＮＮｗａｓｕｓｅｄｔｏａｐｐｒｏｘｉｍａｔｅｓｙｓｔｅｍｍｏｄｅｌ ｃｒｉｔｉｃＮＮｔｏａｐｐｒｏｘｉｍａｔｅｖａｌｕｅｆｕｎｃｔｉｏｎ

ａｃｔｉｏｎＮＮｔｏａｐｐｒｏｘｉｍａｔｅｃｏｎｔｒｏｌｐｏｌｉｃｙＬａｓｔｌｙ ｔｈｅｖａｌｉｄｉｔｙｏｆＨＤＰａｌｇｏｒｉｔｈｍｗａｓｉｌｌｕｓｔｒａｔｅｄｂｙ

ｏｎｅｓｉｍｕｌａｔｉｏｎｅｘａｍｐｌｅ

Ｋｅｙｗｏｒｄｓ ａｐｐｒｏｘｉｍａｔｅｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ ｈｅｕｒｉｓｔｉｃｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ ｖａｌｕｅ

ｆｕｎｃｔｉｏｎ ｎｅｕｒａｌｎｅｔｗｏｒｋｓ ｏｐｔｉｍａｌｃｏｎｔｒｏｌ

非线性系统的最优控制问题一直是控制领域

的研究热点如果系统是线性的且值函数关于状

态和控制是二次型的那么最优控制是状态的线

性反馈控制增益矩阵就可以通过求解Ｒｉｃｃａｔｉ方

程得到如果系统是非线性的或性能指标关于状

态和控制是非二次型的那么最优控制需要求解

Ｈａｍｉｌｔｏｎ Ｊａｃｏｂｉ Ｂｅｌｌｍａｎ ＨＪＢ 方程

 

但是

ＨＪＢ方程固有的非线性特性往往很难得到其解

析解为了获得ＨＪＢ方程的近似解近似动态规

划ＡＤＰ方法得到了广泛的关注

Ｍｕｒｒａｙ



采用ＡＤＰ算法给出未知的非线性

连续时间系统的最优值函数Ｔａｍｉｍｉ



利用ＡＤＰ

算法给出非线性离散时间系统的ＨＪＢ方程的解

即最优值函数并给出了收敛性的证明Ｗｅｒｂｏｓ



将ＡＤＰ方法分为启发式动态规划 ＨＤＰ二次

启发式动态规划ＤＨＰ执行依赖启发式动态规

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38673921

粉丝: 8
资源: 969

启发式动态规划在非线性离散时滞系统最优控制中的应用

不确定时滞系统的鲁棒控制[定义].pdf

执行器饱和的离散时间奇异时滞系统的指数估计和镇定

通过防饱和设计，使执行器饱和的基于网络的时滞系统稳定

一类不确定系统的重复学习控制方法.docx

脉冲控制扩展定理及应用.docx

不确定α安全等级的NNCS网络通信与鲁棒容错控制的协同设计

二维切换时滞系统状态反馈H∞控制：考虑执行器饱和

精细金属掩模板(FMM)行业研究报告 显示技术核心部件FMM材料产业分析与市场应用

【创新未发表】斑马算法ZOA-Kmean-Transformer-LSTM负荷预测Matlab源码 9515期.zip

j link 修复问题套件

最新资源

精细金属掩模板(FMM)行业研究报告显示技术核心部件FMM材料产业分析与市场应用