强化Q学习算法:未知离散线性系统的H∞跟踪控制

需积分: 49 6 下载量 43 浏览量 更新于2024-08-13 3 收藏 1.3MB PDF 举报
"该文章探讨了一种针对未知离散时间线性系统的在线强化Q学习算法,用于设计H∞跟踪控制器。通过构建包含原始系统和命令生成器的扩展系统,引入折现性能函数,建立折现博弈代数Riccati方程(GARE),并分析了解的稳定条件。同时提出了状态数据驱动和输出数据驱动的Q学习算法,即使在系统动力学未知的情况下,也能学习到H∞跟踪控制问题的解决方案。文章强调,输出数据驱动方法在无法完全测量系统状态的实际应用中更为适用。并通过单相电压源UPS逆变器的案例验证了算法的有效性。" 在本文中,作者关注的是如何为未知离散线性系统设计H∞跟踪控制器,这是一种确保系统在受到干扰时仍能保持性能指标的控制策略。他们采用了一种在线强化学习的方法,即Q学习,这是一种无模型的学习机制,允许系统在不知道其动态模型的情况下自我学习和优化控制策略。 首先,文章构建了一个扩增系统,包括原始系统和一个命令生成器,这有助于处理跟踪控制问题。接着,通过引入折现性能函数,定义了一个折现博弈代数Riccati方程(GARE)。GARE是控制理论中的一个重要工具,用于求解最优控制问题,特别是涉及稳定性分析的问题。作者提出了GARE的解的存在条件,并确定了一个折现因子的下限,以确保H∞跟踪控制解的稳定性。 然后,他们导出了Q函数的Bellman方程,这是强化学习中的核心方程,用于描述状态价值函数的迭代更新。基于这个方程,作者开发了一种强化Q学习算法,使得系统能够学习到最优的控制策略。特别地,他们提供了两种学习算法:状态数据驱动和输出数据驱动。状态数据驱动算法依赖于系统的完整状态信息,而输出数据驱动算法则仅需系统的输出信息,后者在实际应用中更具优势,因为有时我们无法获取系统的全部状态信息。 为了保证Q学习算法的收敛性,文章指出在满足持久激励(PE)条件的探测噪声下,Q学习不会导致Q函数Bellman方程解的偏差,从而确保它将收敛到名义折扣GARE的解。此外,输出数据驱动方法的优越性在于其对系统状态测量的不完全性具有更强的适应性。 最后,通过一个单相电压源UPS逆变器的实例,作者验证了所提出的强化Q学习算法在解决H∞跟踪控制问题上的有效性。这一实证研究进一步证实了这些算法在实际系统中的潜力和实用性。 这篇文章提供了一种创新的、基于强化Q学习的H∞跟踪控制方法,适用于未知离散线性系统,尤其在无法完全获取系统状态信息的情况下,这种方法显示出了强大的适应性和有效性。