【基础】马尔可夫决策过程(MDP)的基本原理
发布时间: 2024-06-27 00:03:31 阅读量: 113 订阅数: 126
![【基础】马尔可夫决策过程(MDP)的基本原理](https://img-blog.csdnimg.cn/20210113220132350.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0dhbWVyX2d5dA==,size_16,color_FFFFFF,t_70)
# 2.1 马尔可夫链回顾
马尔可夫链是一种随机过程,其下一时刻的状态仅依赖于当前时刻的状态,与之前的所有状态无关。数学上,马尔可夫链可以用一个状态转移矩阵来表示,该矩阵中的每个元素表示从一个状态转移到另一个状态的概率。
马尔可夫链的性质:
- **无记忆性:**下一时刻的状态仅取决于当前时刻的状态,与之前的所有状态无关。
- **齐次性:**状态转移概率在时间上是不变的。
- **马尔可夫性质:**系统的演化过程只取决于当前状态,与过去状态无关。
# 2. MDP的理论基础
### 2.1 马尔可夫链回顾
马尔可夫链是一种随机过程,其中系统的当前状态仅取决于其前一个状态,而与之前的任何状态无关。它可以用一个状态空间 S 和一个转移概率矩阵 P 来描述,其中 P[s, s'] 表示从状态 s 转移到状态 s' 的概率。
### 2.2 MDP的数学模型
MDP 是马尔可夫链的扩展,它增加了动作和奖励的概念。一个 MDP 由以下元素组成:
- **状态空间 S**:系统可能处于的所有可能状态的集合。
- **动作空间 A(s)**:在每个状态 s 下可用的动作集合。
- **状态转移概率 P(s, a, s')**:在执行动作 a 后从状态 s 转移到状态 s' 的概率。
- **奖励函数 R(s, a, s')**:在执行动作 a 后从状态 s 转移到状态 s' 获得的奖励。
### 2.2.1 状态、动作和奖励
**状态**表示系统在特定时刻的情况。例如,在机器人导航问题中,状态可以是机器人的位置和方向。
**动作**是系统可以执行以改变其状态的操作。例如,在机器人导航问题中,动作可以是向左、向右、向上或向下移动。
**奖励**是系统执行特定动作后获得的数值反馈。奖励可以是正数(表示奖励)或负数(表示惩罚)。例如,在机器人导航问题中,奖励可以是到达目标位置或撞墙的惩罚。
### 2.2.2 状态转移概率和奖励函数
**状态转移概率**表示在执行特定动作后从当前状态转移到另一个状态的可能性。它通常表示为条件概率 P(s' | s, a)。
**奖励函数**表示在执行特定动作后获得的奖励。它通常表示为 R(s, a, s')。奖励函数可以是确定性的(即,它始终返回相同的值)或随机的(即,它返回的值会根
0
0