"深度强化学习：策略、奖励与环境交互"

需积分: 0 41 浏览量更新于2024-01-11 收藏 318KB PDF 举报

本段落总结了深度强化学习的关键概念和应用场景。首先，引入折扣因子意味着智能体更在意短期回报而不是长期回报。策略智能体根据环境状态来决定下一步的动作，即智能体的策略。策略可以分为确定性策略和随机策略。在监督学习的应用中，需要大量的带标签数据，这一般需要耗费大量人力和物力。而在像下棋这样的任务中，从结果判断最佳动作相对容易，这就为强化学习提供了一个应用场景。强化学习是指一类从与环境交互中不断学习的问题以及解决这类问题的方法。强化学习通过智能体不断与环境进行交互，并根据经验调整其策略来最大化其奖励值。深度强化学习是深度学习和强化学习的结合，它通过深度神经网络模型来实现智能体的策略。在深度强化学习中，智能体通过不断与环境的交互来学习最优的策略，从而最大化其累积奖励值。与监督学习不同，深度强化学习不需要大量带标签的数据，而是通过不断的试错和调整来优化策略。通过与环境的交互，智能体可以积累丰富的经验，从而不断改进自己的策略，以获取最大的奖励值。在深度强化学习中，折扣因子起到了重要的作用。折扣因子决定了智能体对未来奖励的重视程度。一个接近1的折扣因子意味着智能体更重视长期回报，而一个接近0的折扣因子则意味着智能体更重视短期回报。折扣因子的选择对于智能体的学习过程和最终的策略都有重要影响。另一个重要概念是策略。智能体的策略决定了在特定环境状态下应该选择的动作。策略可以分为确定性策略和随机策略。确定性策略是指在特定环境状态下，智能体总是选择相同的动作。而随机策略是指在特定环境状态下，智能体可能选择不同的动作。策略的选择直接影响了智能体的行为和学习过程。在深度强化学习中，智能体的策略通常通过深度神经网络模型来表示和实现。深度神经网络模型可以将环境状态作为输入，输出对应的动作，从而实现智能体的策略。通过不断的与环境的交互和学习，深度神经网络模型可以不断优化自己的参数，从而学习出最优的策略。总之，深度强化学习是一种结合了深度学习和强化学习的方法，它通过智能体与环境的交互来学习最优的策略，从而获取最大的累积奖励值。在实际应用中，深度强化学习可以应用于诸如下棋、自动驾驶、机器人控制等领域，为智能体的学习和决策提供了一种全新的方法和思路。通过不断的学习和实践，深度强化学习必将在人工智能领域发挥重要作用，为智能体的智能化和自主化提供强有力的支持。

20 2017 年 10 月 25 日第二章深度强化学习

1 2

5 6

图 2.2: 醉汉悬崖问题

智能体的学习目标是找到一个策略，并根据一个可以得到尽可能多的累积

奖励，即总回报（Return）。假设环境中有一个或多个特殊的终止状态（Terminal

State），从起始状态到终止状态总共走了 T 步，其总回报为

G =



t=1

. (2.3)

如果环境中没有终止状态，即 T = ∞，其总回报也是无穷大。为了解决这

个问题，我们可以引入一个折扣因子来降低远期回报的权重。因此，一个有折

扣的回报（Discounted Return）定义为

G =

∞



t=0

t+1

, (2.4)

其中，γ ∈ [0, 1] 是折扣率。引入折扣因子也意味着智能体更在意短期回报而不

是长期回报。

2.1.3 策略

智能体根据环境状态 s 来决定下一步的动作 a，就是智能体的策略（Policy）

。策略可以分为确定性策略（Deterministic Policy）和随机性策略（Stochastic

Policy）两组。

确定性策略是从状态空间到动作空间的映射函数 π : S → A。随机性策略

表示在给定状态时，动作空间的概率分布 π(a|s) = p(a|s)，



π(a|s) = 1。

为什么需要随机性策略呢？在很多强化学习的场合只有确定性策略是不可

行的。比如在围棋中，面对一个空棋盘，确定性策略总是会在同一个位置上下

邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

剩余18页未读，继续阅读

王佛伟

粉丝: 21
资源: 319

"深度强化学习：策略、奖励与环境交互"

chap-深度强化学习.pdf

从深度学习到强化学习

chap-深度强化学习.pptx

chap-password

r语言chap-1 introduction to r 中文版注释

talend 相关 /data/nexus_blobs/default/content/vol-43/chap-47/4857fa61-d629-4c21-b78a-c22c2daef9f6.bytes文件是啥文件

ensp查看配置chap

习题chap1-25

邱希鹏chap深度学习

ppp-chap认证配置

最新资源