一阶信念点的FO-POMDP值迭代算法：结构化求解策略

需积分: 0 25 浏览量更新于2024-09-05 收藏 557KB PDF 举报

本文主要研究了一阶部分可观测马尔可夫决策过程（First-Order Partially Observable Markov Decision Processes, FO-POMDP）的近似求解方法。论文关注的核心是解决POMDP中的维度灾难问题，即当系统状态不可完全观察时，信念状态的维度随状态数量呈指数增长，导致计算复杂度急剧上升，难以有效处理大规模问题。首先，作者引入了一阶信念（First-Order Belief）和一阶信念粒度（First-Order Belief Granularity）的概念，这两个概念是理解POMDP问题的关键。一阶信念表示对当前状态的不确定性估计，而一阶信念粒度则是将这个不确定性简化为易于处理的粒度级别。这有助于在保持问题本质的同时降低复杂性。接下来，作者提出了基于流关键度的粒度归结方法，这一方法旨在统一不同的信念粒度，通过识别系统中的关键动态元素，将复杂的状态空间结构化，从而实现规模上的抽象。流关键度是一种度量策略对系统未来发展影响的重要指标，它有助于确定在决策过程中哪些信息是最关键的。进一步，论文提出了一种新的求解方法——FO-PBVI（First-Order Partial Belief Value Iteration），它是基于价值迭代算法的扩展，将标准的POMDP值迭代提升到了抽象层面。FO-PBVI通过在低维度的一阶信念空间中进行计算，避免了传统方法在高维信念空间中的困境，有效地降低了计算复杂性。为了验证FO-PBVI的有效性，作者在Tiger和Tag两个经典的POMDP实验场景中进行了测试。实验结果显示，FO-PBVI方法能够很好地适应问题规模的变化，即使面对较大的规划问题也能得到相对准确的近似解。这表明，通过利用系统的结构特性，结合一阶信念和粒度化方法，可以在实际应用中解决大规模的POMDP问题，提升求解效率。这篇论文对一阶POMDP的价值迭代算法进行了深入研究，通过引入一阶信念粒度和流关键度的概念，以及提出FO-PBVI方法，为大规模POMDP问题的求解提供了一种有效的途径。这种方法不仅理论上优化了计算复杂度，而且在实际问题中展现出了良好的性能，具有重要的理论和实际意义。

2012，48（15）

1 引言

部分可观测马尔可夫决策过程（Partially-Observ-

able Markov Decision Processes，POMDP）适合用来

描述在状态非完全可观察的情况下，与环境交互，并

进行序列决策的问题。POMDP 建模了观察的不确

定性，引入了信念状态，具有广泛的应用，例如机械

维修、结构检查等工业领域，机器人控制、机器视觉

等科学领域，网络故障发现和修理等商业领域，武器

分配、目标辨识等军事领域，教育、医疗诊断等社会

领域

[1]

。但同时 POMDP 信念状态的维度等于所有可

能状态的数量，信念状态成为 N 维超平面，造成维度

灾难；由于信念状态本质上是基于贝叶斯公式对历

史的总结，造成历史灾难。使得在信念状态空间上

的 POMDP 求解成为 PSPACE 问题，即使是近似求解

方法也很难对大规模 POMDP问题进行快速求解。

但幸运的是，现实中许多随机系统都具有显著

的结构特征，在抽象表达层次，充分利用这些结构特

征将会是解决大规模 POMDP 规划问题的有效途

径。利用合理的结构在抽象层次进行逻辑和代数演

算，能够精确地、优美地表达大型 POMDP 模型。利

用抽象的概括能力和逻辑演算的表达能力，把“指数

级”规模的状态空间缩减到“多项式”规模的抽象空

间或其他更小的实际状态空间。这种方式也符合人

类思维特征，人们总是喜欢首先在大的原则上探讨

基于一阶信念点的一阶 POMDP 值迭代算法研究

陈丽娜，黄宏斌，邓苏

CHEN Lina, HUANG Hongbin, DENG Su

国防科技大学信息系统工程重点实验室，长沙 410073

Key Lab of Information System Engineering, National University of Defense Technology, Changsha 410073, China

CHEN Lina, HUAN G Hongbin, DENG Su. Researc h on first-order belief point-based value iteratio n for

FO-POMDP. Computer Engineering and Applications, 2012, 48（15）：7-11.

Abstract：The approximate algorithm of FO-POMDP is an important problem. This paper studies the approximate al-

gorithm of FO-POMDP. The concepts of the first-order belief state, the granularity of belief state, and the degree of flu-

ent are proposed. The method of granularity resolution is presented which can convert the granularity of belief states.

The distance of different first-order belief states is also presented. The PBVI is extended to the logic level, and it is

FO-PBVI. Experiments on FO-PBVI show that, FO-PBVI is efficient in solving the problems whose scale is large.

Key words：First Ord er-Partially-Observable Markov Decisi on Pro cesses（FO-POMDP）; First Order（FO）-beli ef

state; granularity resolution; value iteration

摘要：主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关

键度的概念；提出了基于流关键度的粒度归结方法，统一一阶信念粒度；提出了一阶信念粒度距离度量方法，

提出 FO-PBVI 方法，将 PBVI 提升到抽象层面。通过 Tiger 和 Tag 实验对方法进行了验证分析，通过实验可见

FO-PBVI 方法能够很好地适应问题规模的变化，能够求解较大规模的规划问题。

关键词：一阶部分可观测马尔可夫决策过程（POMDP）；一阶信念状态；粒度归结；值迭代

文章编号：1002-8331（2012）15-0007-05 文献标识码：A 中图分类号：TP391

基金项目：国家自然科学基金（No.71071160）。

作者简介：陈丽娜（1983—），女，博士生，主要研究方向为 FO-POMDP、POMDP；黄宏斌（1975—），男，博士，副教授，主要研究方向

为信息管理、人工智能；邓苏（1963—），男，教授，博导，主要研究方向为智能决策支持技术、人工智能。

E-mail：taxue_xunmeng@163.com

收稿日期：2011-11-03 修回日期：2011-12-30 CNKI 出版日期：2012-02-20

DOI：10.3778/j.issn.1002-8331.2012.15.002 http://www.cnki.net/kcms/detail/11.2127.TP.20120220.1114.023.html

Computer Engineering and Applications 计算机工程与应用

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38743481

粉丝: 696
资源: 4万+

一阶信念点的FO-POMDP值迭代算法：结构化求解策略

基于循环卷积神经网络的POMDP值迭代算法.pdf

论文研究-认知无线电网络中的非合作频谱分配算法研究 .pdf

论文研究-认知用户基于频谱特征的动态频谱接入算法.pdf

POMDP的值迭代算法

基于POMDP的多机器人路径规划技术

基于POMDP的多机器人环境感知应用

pomdp 路径规划代码资料

MDP和POMDP关系

development of multi-agent reinforcement learning

reinforcement learning sutton .pdf

最新资源