强化学习入门：马尔科夫决策过程与值迭代

需积分: 0 153 浏览量更新于2024-08-05 收藏 900KB PDF 举报

增强学习是一种人工智能领域的决策过程，主要应用于需要智能体通过与环境交互来学习如何做出最优决策的问题，例如机器人控制、游戏策略制定等。在这个框架中，学习的核心是通过奖励函数（\( R \)）评估每个行动的效果，根据累积的回报来指导决策。马尔科夫决策过程（MDP，Markov Decision Processes）是强化学习的基础模型，它由五个关键元素构成： 1. **状态集 \( S \)**：代表所有可能的状态，比如自动直升机的位置或象棋棋盘的状态。每个状态是决策的基础，学习算法需要理解当前所处状态以确定下一步行动。 2. **动作集 \( A \)**：定义可供智能体选择的行为，例如直升机的飞行方向或棋盘上的落子操作。 3. **状态转移概率 \( P_{sa} \)**：给出了从一个状态 \( s \) 执行动作 \( a \) 后到达其他状态的概率分布。这是MDP中的动态部分，描述了系统如何随时间演变。 4. **阻尼系数 \( \gamma \)**：也称作折扣因子，通常取值范围在\( 0 \)到\( 1 \)之间，它衡量了未来回报的相对重要性。如果 \( \gamma \) 接近\( 1 \)，则智能体倾向于追求长远的高回报；若接近\( 0 \)，则更关注即时的奖励。 5. **回报函数 \( R(s,a) \)**：定义了智能体在状态 \( s \) 执行动作 \( a \) 后立即获得的奖励值。这是一个关键的反馈机制，指导学习过程。在MDP中，强化学习算法的目标通常是找到一个策略（\( \pi \)），即在任何状态下选择动作的规则，以最大化长期累积的奖励。常见的方法包括值迭代和策略迭代： - **值迭代**：通过计算每个状态的价值函数（state value function），表示从该状态出发按照最优策略所能期望获得的总回报，从而更新策略。 - **策略迭代**：同时更新策略和价值函数，交替进行策略优化和策略评估，直到两者收敛到最优解。参数估计是强化学习中的一个重要环节，通过观察智能体与环境交互的历史数据，估计状态转移概率和回报函数的参数，以便调整学习策略。在实际应用中，强化学习经常需要结合统计学习和机器学习技术来处理复杂环境中的不确定性。增强学习已经在多个领域取得显著成果，例如自动驾驶、游戏AI、网络路由优化等，它通过持续试错和学习，逐渐改进决策策略，展现出强大的适应性和学习能力。随着计算能力和算法的不断进步，强化学习在未来将继续推动各行业的智能化进程。

增强学习（Reinforcement Learning and Control）

JerryLead

csxulijie@gmail.com

在之前的讨论中，我们总是给定一个样本 x，然后给或者不给 label y。之后对样本进行

拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题，很难有这么规则

的样本。比如，四足机器人的控制问题，刚开始都不知道应该让其动那条腿，在移动过程中，

也不知道怎么让机器人自动找到合适的前进方向。

另外如要设计一个下象棋的 AI，每走一步实际上也是一个决策过程，虽然对于简单的

棋有 A*的启发式方法，但在局势复杂时，仍然要让机器向后面多考虑几步后才能决定走哪

一步比较好，因此需要更好的决策方法。

对于这种控制决策问题，有这么一种解决思路。我们设计一个回报函数（reward function），

如果 learning agent（如上面的四足机器人、象棋 AI 程序）在决定一步后，获得了较好的结

果，那么我们给 agent 一些回报（比如回报函数结果为正），得到较差的结果，那么回报函

数为负。比如，四足机器人，如果他向前走了一步（接近目标），那么回报函数为正，后退

为负。如果我们能够对每一步进行评价，得到相应的回报函数，那么就好办了，我们只需要

找到一条回报值最大的路径（每步的回报之和最大），就认为是最佳的路径。

增强学习在很多领域已经获得成功应用，比如自动直升机，机器人控制，手机网络路由，

市场决策，工业控制，高效网页索引等。

接下来，先介绍一下马尔科夫决策过程（MDP，Markov decision processes）。

1. 马尔科夫决策过程

一个马尔科夫决策过程由一个五元组构成󰇛

󰇝





󰇞

󰇜

 S 表示状态集（states）。（比如，在自动直升机系统中，直升机当前位置坐标组成状态

集）

 A 表示一组动作（actions）。（比如，使用控制杆操纵的直升机飞行方向，让其向前，向

后等）

 



是状态转移概率。S 中的一个状态到另一个状态的转变，需要 A 来参与。



表示的

是在当前  状态下，经过  作用后，会转移到的其他状态的概率分布情况（当前

状态执行 a 后可能跳转到很多状态）。

   󰇟󰇜是阻尼系数（discount factor）

     ，R 是回报函数（reward function），回报函数经常写作 S 的函数（只与 S

有关），这样的话，R 重新写作  。

MDP 的动态过程如下：某个 agent 的初始状态为



，然后从 A 中挑选一个动作



执行，

执行后，agent 按



概率随机转移到了下一个



状态，



 









。然后再执行一个动作



，

就转移到了



，接下来再执行



…，我们可以用下面的图表示整个过程

下载后可阅读完整内容，剩余5页未读，立即下载

練心

粉丝: 27
资源: 305

强化学习入门：马尔科夫决策过程与值迭代

【英文参考资料】-AUTOSAR学习资料无人驾驶-AUTOSAR_RS_CPP14Guidelines.zip

14-发展史学习学习学习

【9月14日出生的明星】9月14日学习总结.doc

南大出品 机器学习基础入门教程 机器学习导论 第08章 集成学习 共14页.pdf

14通往广场的路不止一条1PPT学习教案.pptx

五年级暑假生活指导答案14PPT学习教案.pptx

现代大学英语精读2 lesson14PPT学习教案.pptx

计算机专业学习课程(共14页).docx

Eclipse插件开发学习笔记(ch13-14)

Struts2 Basic 14_01 学习笔记（附带SSH所有的jar）

最新资源

南大出品机器学习基础入门教程机器学习导论第08章集成学习共14页.pdf