马尔科夫决策过程详解：构成、稳态与无限步数MDP策略

需积分: 0 81 浏览量更新于2024-08-05 收藏 680KB PDF 举报

本篇文档是关于智能系统设计与应用的课后练习参考答案，主要涉及马尔科夫决策过程（Markov Decision Process, MDP）的相关概念和问题解答。马尔科夫假设的核心在于状态转移只依赖当前状态和上一步的行动，而不考虑过去的历史。一个完整的MDP包含四个基本元素： 1. 状态集合S：代表所有可能的状态，如文中提到的"high"、"low"等，对于吸尘机器人来说可能代表清扫或待机状态。 2. 行动集合A：表示在每个状态下可以选择的动作，如吸尘机器人的问题中，可能是"search"（搜索）、"wait"（等待）和"recharge"（充电）。 3. 转移函数T(s′|s,a)：描述了在执行某个动作a后，从状态s转移到下一个状态s'的概率分布。 4. 奖励函数R(s,a)：给出了在执行某个动作a时，在当前状态s获得的即时回报。稳态MDP 是指转移函数和奖励函数不随时间变化的MDP，它可以通过决策网络表示，如图1所示，其中每个节点代表一个状态，边上的箭头和权重表示了状态转移的概率和奖励。问题2探讨的是无限步数MDP中的策略选择，根据折扣因子γ的不同，确定性策略πleft和πright的优劣。当γ=0时，没有未来奖励的影响，所以总是选择左行动为最优；当γ=0.5时，两个策略都同样好；而当γ=0.9时，右行动由于其长远考虑的特性变得更优。问题3涉及计算吸尘机器人的最优状态值函数，即贝尔曼最优方程。对于high和low两种状态，分别求解最优状态值，这涉及到动态规划的过程，通过迭代更新状态值，直到达到最优解。贝尔曼方程给出了状态价值函数的递归定义，涉及了概率转移和奖励的加权平均。本文档提供了对马尔科夫决策过程基础理论和具体应用实例的深入解析，对于理解和设计依赖状态转移和决策策略的智能系统具有重要的参考价值。

刘旭辉智能系统设计与应用 Homework 4-6 Problem 3 (continued)

数的Bellman最优方程.

Solution

两个状态的Bellman最优值函数可分别表示为:

∗

(h) = max



p(h|h, s) [r(h, s, h) + γv

∗

(h)] + p(1|h, s) [r(h, s, 1) + γv

∗

(1)]

p(h|h, w ) [r(h, w, h) + γv

∗

(h)] + p(1|h, w ) [r(h, w , 1) + γv

∗

(1)]



= max



α [r

+ γv

∗

(h)] + (1 − α) [r

+ γv

∗

(1)]

1 [r

+ γv

∗

(h)] + 0 [r

+ γv

∗

(1)]

= max



+ γ [αv

∗

(h) + (1 − α)v

∗

(1)]

+ γv

∗

(h)



∗

(l) = max







βr

− 3(1 − β) + γ [(1 − β)v

∗

(h) + βv

∗

(1)]

+ γv

∗

(l)

γv

∗

(h)







Bellman最优方程由具体的r

, r

, α, β, γ的值确定.

Problem 4

考虑图3(a)中的3×3世界，每个格子中的数值表示的是R(s)，即状态s的立即奖赏，右上角含有+10的

格子是终止状态(进入终止状态得到+10的奖赏后，采取任意行动都会导致情节结束). 转移模型如

图3(b)所示, 它表示的含义是，以0.8的概率向选择的方向移动，各以0.1的概率向与它垂直的两个方向

移动. 假设Agent的可选行动为上(U), 下(D), 左(L), 右(R),使用折扣因子为0.99的折扣奖赏定义效用(即

回报). 对于下面的每种情况,计算最优策略.

图 3: 3x3网格世界及其转移模型

1. r = 100

2. r = −3

3. r = 0

4. r = 3

Solution

u/l l .

u l d

u l l

r = 100时的最优策略

r r .

r r u

r = −3时的最优策略

r r .

u u u

r = 0时的最优策略

u/l l .

u l d

u l l

r = 3时的最优策略

剩余12页未读，继续阅读

行走的瓶子Yolo

粉丝: 36
资源: 342

马尔科夫决策过程详解：构成、稳态与无限步数MDP策略

2概率论与数理统计(茆诗松)第二版课后第二章习题参考答案1

计算机网络教程（第5版）课后习题参考答案

概率论与数理统计（茆诗松）第二版课后习题参考答案

linux课后习题答案教材课后习题参考答案.doc

第五章java课后习题参考答案

《现代控制理论》第三版课后习题参考答案

测试技术部分课后习题参考答案.doc

计导 课后习题参考答案(第4章.pdf

5概率论与数理统计(茆诗松)第二版课后第五章习题参考答案1

组合数学第四版--卢开澄课后习题参考答案

最新资源

计导课后习题参考答案(第4章.pdf