没有合适的资源?快使用搜索试试~ 我知道了~
首页中文翻译《Human-level control through deep reinforcement》
资源详情
资源评论
资源推荐

通过深度强化学习实现人类水平的控制
Volodymyr Mnih
1∗
,Koray Kavukcuoglu
1∗
,
David Silver
1∗
, Andrei A. Rusu
1
...
December 13, 2018
Abstract
强化学习理论对关于智能体在一个环境中如何优化他们的行为提供了规范性的说明,其
根源是对动物行为研究得到的关于心理学和神经学的观点。在接近真实世界复杂度的情境
下,强化学习已经获得了一些成果;然而智能体也面对一些困难的挑战:必须从环境中的高
维感觉输入中得到有效的特征,并且要使用它们概括过去的经验来应付新的场景。明显地,
人类和其他动物看起来通过优雅地联合强化学习与多层次感觉处理系统来处理这些问题,大
量神经数据证明神经元发射的多巴胺相位信号与时间差分强化学习算法有明显的相似。当强
化学习智能体在多领域获得成功,它们的适用性以前仅限于可以手工制作有用特性的领域,
或者可以被完全观察、处于低维状态空间的领域。因此我们最近提出了通过训练深度神经网
络来开发一个称为“Deep Q-Network”的新型人工智能体,它可以通过高维感觉输入直
接学习成功的策略来实现端到端的强化学习。我们在传统 Atari2600 游戏挑战领域测试了
这个智能体。我们确信深度 Q 网络智能体仅仅从像素和游戏得分获取输入,使用相同的算
法、网络结构和超参数实现了对于 49 个游戏与专业人类游戏测试人员同等级别的表现,能
够超越以前所有算法。这项工作链接了高维感觉输入和行动,从而产生了第一个能够在各种
挑战中学习性能优异的人工智能体。
1 前言
我们打算创造一个单一算法,使其能够在多种具有挑战性的任务上做范围广泛的开发——
一个一般人工智能已经放弃努力的核心目标。为了达到这个目的,我们开发了一种新型智能体,
深度 Q 网络(DQN),可以让一类我们熟知的人工神经网络(例如深度神经网络)与强化学习
结合,在各自层里的节点逐步地建立更抽象的数据特征,让人工神经网络学习概念(例如直接
来自原始感观数据的对象类别)成为可能。我们使用了一种特别成功的结构,深度卷积网络,这
种网络使用分层的卷积核来模拟感受野效应——受到 Hubei 和 Wiesel 关于前视觉皮层前馈过
程研究工作的启发——从而利用图像中存在的局部空间相关性,建立对自然变换的鲁棒性,例
如视点或比例的变化。
我们考虑到智能体通过一系列的观察、动作和奖赏与环境进行交互。智能体的目标是选择
一种可以使未来累计奖赏最大的一种动作。更书面地说,我们使用了一个深度卷积神经网络来
近似一个最佳动作值函数:
Q
∗
(s, a) = max
π
E[r
t
+ γr
t+1
+ γ
2
r
t+2
+ ...|s
t
= s, a
t
= a, π] (1)
1

其中奖赏 γ
t
的最大和受到每一个时刻 tγ 的折扣,来实现一个行为策略 π = P (a|s),然后通过
观察状态(s)来做一个动作(a)。众所周知,强化学习在当一个非线性函数逼近时,例如一个
神经网络作为动作值(比如 Q)时,不稳定甚至会偏离实际。这种不稳定有一些原因:序列观察
的存在相关性,小的 Q 值的更新会显著地改变策略从而导致数据分布的改变,还有动作值(Q)
和目标值 r + γ 最大化 Q(s
′
, a
′
)。我们通过一个 Q-Learning 算法的新变种解决了这些不稳定性,
有两个主要思路。第一,我们使用了一种称为经验重播的生物启发机制,对数据进行初始化,从
而去除观察序列的相关性与平滑变化的数据分布(详见下文)。第二,我们采用迭代更新来调整
动作值(Q)接近仅仅周期性更新的目标值,以此来减少与目标的相关性。
虽然在强化学习的设置中存在其他稳定的方法来训练神经网络,例如神经拟合 Q 迭代,但
是这些方法会在训练网络的过程中导致成百上千次重复的迭代。因此不像我们的算法,这些方
法太低效以至于需要更大的神经网络来成功训练。我们使用深度卷积神经网络参数化了一个近
似值函数 Q(s, a; θ
i
),见图 1,其中 θ
i
是 Q 网络在第 i 次迭代时的超参数(权重)。为了进行经
验重播,我们在数据集 D
t
= e
1
, ..., e
t
的每一时间步 t 存储了智能体的经验 e
t
= (s
t
, a
t
, r
t
, s
t+1
)。
训练时,我们在样本(或小批量中)的经验 (s, a, r, s
′
) U(D) 应用 Q 学习更新,从存储的样本
池中均匀地随机绘制。在第 i 次迭代中,Q 学习更新使用如下损失函数:
L
i
(θ
i
) = E
(s,a,r,s
′
) U (D)
[(r + γ max
a
′
Q(s
′
, a
′
; θ
−
i
) − Q(s, a; θ
i
))
2
] (2)
其中 γ 是用来确定智能体水平的折扣因子,θ
i
是 Q 网络在第 i 次迭代的参数,θ
−
i
是用来计算
第 i 次迭代目标的参数。目标网络参数 θ
−
i
仅仅在 Q 网络参数(θ
i
)每隔 C 步更新,并且在下
次更新之前恒定。
1.png 1.bb
Figure 1: | 卷积神经网络示意图。结构细节在方法中有说明。神经网络的输入由经过预处理的
映射 ϕ 产生的一个 84×84×4 的图像组成,接下来是三个卷积层(备注:像蛇一样的蓝色线条
代表每一个卷积核在输入图像上滑动)和两个全连接层,最后是一个代表单个合法操作输出的
全连接层,每一个隐藏层后面是一个非线性整流单元(即 max(0, x))。
2

2.png 2.bb
Figure 2: | 跟踪智能体平均得分和平均预测行动值的训练曲线。 a. 每一点是智能体在空间中
使用 e-greedy 策略(e50.05) 运行 520k 帧后每一幕所得分数的平均。b. 任务每幕的平均得分。
c.Space Invaders 上一组状态的平均预测动作值。曲线上的每一点是动作值 Q 在持续状态集的
计算结果。请注意,由于奖励的衰减,Q 值会缩放(参见方法)。d. 任务中的平均预测动作值。
细节详见补充讨论。
为了评估我们的 DQN 智能体,我们利用了 Atari 2600 平台,它提供各种各样的挑战(n=49),
被用来吸引人类玩家, 供玩家挑战。我们使用了相同的网络结构、超参数值(见附加数据表 1)
和不变的学习程序——获取高维数据(60Hz 的 210×160 彩色视频)作为输入——来证明我们
的方法可以在仅仅基于感官的输入且具有很少先验知识的情况下可以成功地学习到各种各样的
游戏策略(输入仅仅是可视化图像,和每个游戏中可用的动作数量,但是没有一一对应的关系,
见方法)。值得注意的是,我们的方法可以以一种稳定的方式使用强化学习信号和随机梯度下降
训练巨大的神经网络——通过两个学习指标的时间演变来说明(智能体的每幕的平均得分和预
测 Q 值的平均值;参见图 2 和补充讨论的细节)。
我们比较了 DQN 和其他在 49 个结果可复现的游戏中表现最好的强化学习文献方法。除
了已学习的智能体之外,我们还报告了在受控条件下测试的专业人类游戏测试人员的分数以及
随机统一选择行动的一种策略(扩展数据表 2 和图 3,表示为 y 轴上的 100%(人类)和 0%(随
机);见方法)。我们的 DQN 方法在 43 个游戏中优于现有的最佳强化学习方法,而不包含任何
其他方法采用的有关 Atari 2600 游戏的其他先验知识。此外我们的 DQN 智能体在 49 场比赛
中的表现与专业人类游戏测试员的水平相当,在超过半数的游戏中,达到了高于人类得分 75%
的成绩(29 场游戏,见图 3,补充讨论和扩展数据表 2)。此外,在其他模拟中(参见补充讨论
和扩展数据表 3 和 4)。我们通过禁用重放内存、分离目标 Q 网络和深度卷积网络结构对性能
的不利影响来演示这些个人得分组件对于 DQN 智能体的重要性。
3

3.png 3.bb
Figure 3: | DQN 智能体和文献中其他智能体的对比。 DQN 的性能相对于专业人类游戏测试
员(100% 级别)和随机游戏(0%)级别进行标准化。注意以百分比表示的 DQN 标准化计算方
式为 100×(DQN 得分-随机游戏得分)/(人类得分-随机游戏得分). 可以看出,DQN 在几乎
所有游戏中都优于竞争方法(参见扩展数据表 2),并且在大多数游戏中与专业人类游戏测试员
的水平相仿或更高。人类玩家和智能体都禁用了音频输出,误差条表示在 S.D. 的 30 幕预测中,
用不同的初始条件开始。
4
剩余17页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0