非负折扣半马尔可夫决策过程的首达目标模型优化

0 下载量 104 浏览量 更新于2024-07-16 收藏 353KB PDF 举报
本文《带非负折扣费用的半马尔可夫决策过程中的首达目标模型》由黄永辉和郭先平撰写,发表在中山大学数学与计算机科学学院。研究焦点集中在一种特殊的半马尔可夫决策过程(Semi-Markov Decision Process, SMDP),其中涉及的是有限状态集合且成本带有非负的折扣因子。作者探讨的核心问题是优化问题,即期望的折现成本,这个成本是在首次到达预设目标集的时间段内累积的。 文章首先定义了一个基于给定的半马尔可夫决策核和策略的决策过程。在这个框架下,作者引入了折现期望值函数,它是衡量决策策略优劣的关键指标。他们证明了价值函数满足最优性方程,即在一定的条件下,存在一个最优(或ε-最优)的 stationary policy(静止策略),即长期来看,无论初始状态如何,该策略都能提供最低的成本。 通过采用最小非负解方法,作者证明了最优策略的存在性和一些特性,这有助于理解这些策略如何在不同状态下做出最经济有效的决策。此外,文中还开发了一种数值迭代算法,用于计算价值函数和最优策略,并通过实例展示了算法的实用性。 本文的一大贡献在于,它扩展了经典的首达目标模型,不仅适用于离散时间马尔可夫决策过程,也适用于连续时间的情况。这种扩展使得理论更加全面,能够处理更广泛的现实世界问题,如在网络路由、库存管理等应用中,考虑到时间的连续性和成本的非线性折现因素。 《带非负折扣费用的半马尔可夫决策过程中的首达目标模型》这篇论文深入探讨了半马尔可夫决策过程中的优化决策问题,为理解和解决实际问题提供了理论基础,同时为未来的相关研究提供了新的视角和方法论支持。