强n折扣与有限水平最优策略:连续时间马尔可夫决策过程

0 下载量 185 浏览量 更新于2024-07-15 收藏 246KB PDF 举报
"该文研究了在波兰空间中连续时间马尔可夫决策过程(Continuous-time Markov Decision Processes, CTMDPs)的强n(n = -1, 0)折扣和有限水平准则的最优性问题。CTMDP是决策理论中的一个重要模型,它涉及到随机过程与决策策略的结合,用于描述在不确定环境中进行动态决策的问题。文章允许CTMDP的转移率不受限制,并且奖励率可以无上限或下限。通过温和的假设,作者建立了两个等价关系,分别对应于标准期望平均奖励与强-1折扣最优,以及偏倚与强0折扣最优之间的关系。此外,作者还通过规范三元组的特性证明了有限水平控制问题中存在最优策略。" 连续时间马尔可夫决策过程是一种随机控制理论的模型,它扩展了离散时间马尔可夫链的概念,考虑了时间连续的环境。在这个过程中,状态随时间连续变化,而决策者可以在每个时间点选择一个动作,这些动作会影响系统状态的转移并产生奖励。在CTMDP中,目标通常是找到一个策略,以最大化某个性能度量。 本文关注的是两种特殊的优化准则:强n折扣准则(strong n-discount optimality)。当n = -1时,称为强-1折扣最优,它考虑了未来的无限期决策对当前价值的影响,但会给予无限期的未来一个负权重,使得近期的决策比远期的决策更重要。而n = 0时,强0折扣最优则关注无限期的平均奖励。这两种情况下的最优策略有助于在不确定性环境下平衡即时和长期利益。 在波兰空间中定义CTMDP引入了一些数学上的严谨性,因为波兰空间是一类完备的度量空间,它包括了许多常见的函数空间和拓扑空间。这样的设置使得可以处理更广泛的连续状态空间。 作者提出的两个等价关系揭示了不同优化准则间的内在联系。这表明,在特定条件下,寻求期望平均奖励最大化的策略与寻找强-1折扣最优策略是等价的,同样,寻找偏倚最优的策略也与强0折扣最优策略等价。这种等价性有助于简化问题的求解,因为它提供了在不同框架下寻找最优策略的途径。 此外,对于有限水平控制问题,作者通过构建一个规范三元组的有趣特性,证明了存在一个最优策略。这表明,在给定的时间窗口内,存在一个策略可以最大化累积奖励,这对于实际应用中的有限时间规划问题特别重要。 关键词:CTMDP、期望平均奖励、有限水平最优、波兰空间、强n折扣最优 总结来说,这篇论文深入探讨了连续时间马尔可夫决策过程在不同优化准则下的最优策略,为理解和解决这类动态决策问题提供了新的理论工具和方法。