没有合适的资源?快使用搜索试试~ 我知道了~
首页Playing Atari with Deep Reinforcement Learning(DQN)文献翻译.pdf
资源详情
资源评论
资源推荐
外文文献译文
1
使用深度强化学习玩雅达利
Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves
Ioannis Antonoglou Daan Wierstra Martin Riedmiller
DeepMind Technologies
摘要:我们提出了首个能够直接从高维场景成功中学习到控制策略的深度强化学习模型。模型由卷积神经
网络组成,基于 Q-learning 的变体进行训练, 输入是未经处理的像素,而输出是评价未来奖励的值函数。
我们在 Arcade 学习平台中,将我们的方法应用到了 7 个雅达利 2600 游戏上,且不需要对算法结构做任何
调整。我们发现有 6 个游戏的表现超过了已有方法,并且它们中有三个超过了人类高手的控制水平。
介绍
从类似视觉或语言的高纬度场景输出中,直接学习智能体控制方法是强化学习中存在已
久的难题之一。这个领域大部分成功的强化学习应用都依赖人工构造的特征值与线性价值函
数或策略设计。简言之,这类系统的表现高度依赖特征设计的质量。
深度学习的近期发展让从场景信息中直接提取高阶特征成为可能,代表性的突破有计算
机视觉以及语音识别。 这些方法利用了大量的神经网络模型,包括卷积神经网络、多层感
知机、受限玻尔兹曼机和循环神经网络,在监督学习与非监督学习领域都发挥了作用。顺着
这个思路,我们很自然地考虑是否能基于类似的技术,将强化学习与场景数据结合。
然而,强化学习与深度学习结合面临几个挑战。首先,当下大部分成功的深度学习应用
需要大量的手动标记的训练数据。另一方面,强化学习算法必须以一个标量的奖励信息为学
习对象。然而,该奖励信息往往是稀疏的、有噪声的、有延迟的。在动作与其造成的结果之
间的延迟,往往长达几千步长的时间。在延迟的情况下,对于监督学习,在输入与目标间建
立联系是十分艰难的。另一个问题是,大部分深度强化学习假设了数据样本是独立的, 而
在强化学习中,需要处理的序列往往是高度相关的状态。此外,在强化学习中,数据分布随
着算法学习到新的行为会发生改变,这与基于稳定分布的深度学习方法产生了冲突。
图
本文证实了卷积神经网络能够克服这些问题,从复杂的强化学习环境的视频数据中成功
学习到控制策略。 这个网络结构通过 的变体进行训练,与此同时使用梯度下降
外文文献译文
2
策略来更新权重。 为了缓解相关数据与不稳定的分布问题,我们使用了一个经验池机制,
经验池可以随机采样以前的状态转换,进而在大量旧行为的基础上达到平滑训练分布的效
果。
我们在 学习环境中对大量雅达利 游戏测试了我们的方法。雅达利
对于强化学习测试来讲富有挑战性,它为智能体提供了高维的图形输入以及为人类玩家设置
的有难度的丰富多样的有趣任务。我们的目的是创建一个单一的神经网络智能体能够成功学
会控制尽可能多的游戏。 我们没有为网络提供任何其他有关游戏的特殊信息或人工构建的
特征值,网络也不会知道模拟器内部的状态。用于网络学习的 只有视频输入、奖励值、终
止信号与可能的动作集合即人类玩家能获取的信息。 此外,网络结构与训练得出的所
有超参数在游戏间都是不改变的。目前该网络模型的表现在测试的七个游戏中的六个超过了
所有以往的强化学习算法,并且在三个游戏中超过了人类高手的水平。图 展示了五个用于
训练的游戏截屏。
背景
我们将任务考虑为智能体与环境、雅达利模拟器、序列化的动作、观测值与奖励值进行
交互。在每一步中,智能体从动作集中选择一个动作 。动作被传递给模拟器,模拟器内在
的状态与游戏分数发生改变。通常环境是可能是随机的。模拟器的内部状态并不被智能体所
观测;取而代之的是一张来自模拟器的图片,这张图片是由代表当前屏幕信息的像素向量组
成。 值得注意的是,通常来讲,游戏的分数取决于整个之前发生的动作与观测值序列;关
于某一个动作的反馈只会在几千步发展后显现。
既然智能体只能观测到当前屏幕的图片,这个任务就只能被部分得观测而许多模拟器的
状态在感知上是有偏的。比如,只从当前屏幕状态完全理解当前的情况是不可能的。 因此,
我们考虑将动作与观测值序列化并且从这些序列中学习游戏策略。
模拟器中的所有策略都被假设为在有限的步骤内终止。这个形式构建了一个极大的并且有限
的马尔科夫决策过程,其中每个序列都是一个确定的状态。 由此,我们可以将标准的强化
学习方法应用于这个马尔科夫决策过程,只需简单地将完整的序列
作为 时刻的状态。
智能体与环境交互并进行决策的目的是最大化远期奖励值。我们做出了基本的假设:未
来的奖励由参数递减,并且定义了 时刻的折扣回报
,其中 是终止时
间。我们定义了最优动作价值函数
作为任何策略下的最大期望可行动作回报。具体
来讲,就是在观测到状态序列 后,选择某个动作 ,依据
其中 是序列至动作(或动作的分布)的映射。
最优的动作价值函数遵守重要的贝尔曼等式的准则。具体来讲就是:如果当前序列
后
的最优价值
的下一步所有可能的动作
可知,那么最优策略就是选择最优动作
来使期望价值最大,
,
外文文献译文
3
这是许多强化学习算法的基础思想,目的是估计动作价值函数,手段是通过使用贝尔曼
方程作为迭代更新的依据。这个价值迭代算法集中在最优动作价值函数上,
中。在实践中,这个基础的方法是非常不现实的,因为动作价值函数由每个序列分开估
计,没有泛化。取而代之的常见方法是,使用一个函数逼近器去估计动作价值函数的值,
。 在强化学习社区中,使用线性函数逼近器是很常用的方法,但是有时
也会使用非线性函数逼近器替代,比如一个神经网络。 我们使用了一个神经网络函数逼近
器作为 ,其中的权重为。 可以通过最小化损失函数
序列来训练,
对于每代
其中,
是第次迭代的目标,是我们根据
行为分布进行描述的序列和动作概率分布。在优化损失函数
时,上一代参数
保
持不变。 注意,目标函数取决于网络权重;这点区别于监督学习的目标值,在监督学习中,
目标值在开始学习前就是固定的。 基于权重对损失函数进行推导,我们得到如下梯度,
比起基于上述梯度公式计算整个期望值,我们常常采用通过随机梯度下降的方法优化
损失函数。如果权重在每一步都被优化,并且期望值被行为分布与模拟器单一的样本更
新,我们就相当于使用了熟悉的 算法。
值得注意的是,这个算法是无模型的:在算法中只需直接使用模拟器中的样本来解决
强化学习任务,无需额外为构建一个估值函数。 同时,这个算法也是离轨的:算法从贪婪
策略
中学习,这个贪婪策略遵循一个能保证对状态空间进行合适探索的
行为分布。 在实践中,行为分布遵循 策略的选择,在这个策略中,有的概率
选择行为分布,而有 概率随机选择策略。
3 相关工作
也许最为知名的成功强化学习案例是 ,一个操作西洋双陆棋的程序,完全
由强化学习与自我博弈进行学习。这个案例中,强化学习获得了超人类的水平。
使用了一个类似于 的无模型强化学习算法,以及一个有一个隐藏层的多层感知机
近似价值函数(事实上, 使用了近似的状态价值函数 ,
而不是动作价值函数 ,并且其在自我博弈的过程中,学习是同轨的)。
然而,早期对于 的尝试,包括上述同样的方法来下棋, 方法与
剩余10页未读,继续阅读
Sisyphus_369
- 粉丝: 13
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 2022年中国足球球迷营销价值报告.pdf
- 房地产培训 -营销总每天在干嘛.pptx
- 黄色简约实用介绍_汇报PPT模板.pptx
- 嵌入式系统原理及应用:第三章 ARM编程简介_3.pdf
- 多媒体应用系统.pptx
- 黄灰配色简约设计精美大气商务汇报PPT模板.pptx
- 用matlab绘制差分方程Z变换-反变换-zplane-residuez-tf2zp-zp2tf-tf2sos-sos2tf-幅相频谱等等.docx
- 网络营销策略-网络营销团队的建立.docx
- 电子商务示范企业申请报告.doc
- 淡雅灰低面风背景完整框架创业商业计划书PPT模板.pptx
- 计算模型与算法技术:10-Iterative Improvement.ppt
- 计算模型与算法技术:9-Greedy Technique.ppt
- 计算模型与算法技术:6-Transform-and-Conquer.ppt
- 云服务安全风险分析研究.pdf
- 软件工程笔记(完整版).doc
- 电子商务网项目实例规划书.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0