DQN算法解决平衡小车控制：理论与实践

需积分: 0 49 浏览量更新于2024-08-05 收藏 711KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"林奇峰的报告探讨了使用深度Q学习（DQN）算法解决经典强化学习问题——平衡小车（CartPole）的控制。该问题的目标是通过调整小车移动来保持杆子竖直。实验表明DQN能有效地学习到控制策略。报告还分析了训练过程中的现象和DQN在连续状态空间处理上的优势。" 1. 强化学习与CartPole问题强化学习是一种机器学习方法，它通过与环境交互并根据环境反馈的奖励或惩罚来优化决策策略。CartPole问题是一个典型的强化学习任务，其状态由推车的位置、速度以及杆子的角度和角速度构成，目标是使杆保持直立。由于当前状态决定了未来的结果，它满足马尔科夫决策过程（MDP）的特性。 2. DQN算法深度Q学习（DQN）是强化学习的一个变种，它结合了Q学习与深度神经网络。Q函数用于估计在特定状态下执行某个动作后将获得的累积奖励。DQN使用两个网络：在线网络用于选择动作，目标网络用于稳定训练，定期更新其参数以接近在线网络。此外，DQN引入经验回放机制，存储过去的状态-动作-新状态-奖励四元组，以随机采样这些经验来训练网络，减少训练过程中的相关性，从而提高收敛性。 3. 实验设置与结果实验在OpenAI Gym的CartPole-v0环境中进行，该环境提供了4维状态向量和2个可能的动作。DQN算法在训练过程中逐渐学习到如何根据状态调整小车移动，以维持杆的平衡。实验结果显示，DQN能够成功掌握控制策略，即使在面对连续状态空间时也能表现出色。 4. 训练分析与讨论在训练过程中，可能会观察到DQN算法的波动学习曲线，这是由于经验回放和目标网络更新导致的。尽管存在这种波动，但DQN算法仍能稳定地学习到有效的控制策略。作者还指出，通过适当放大连续状态向量，算法可以在一定程度上改善性能，这可能是由于拓宽了网络的视野，使其更好地适应状态空间的变化。 5. 结论林奇峰的研究表明，DQN算法对于解决CartPole这样的连续状态空间问题具有潜力，并且通过经验回放和目标网络的设计，能够在复杂的环境中学习到稳定的控制策略。这一研究对于理解DQN在实际问题中的应用及其优化策略有重要的启示意义。

资源详情

资源推荐

图 2a为奖励曲线，纵轴的数值为连续 100 个 Episode 的平均奖励。从曲线的上升趋势

中我们可以看到 DQN 算法可以逐渐学习到比较好的策略来逐渐提高表现。

图 2b为损失函数曲线，纵轴的数值为进行开根号并对数处理后的损失函数数值。可以

看到随着训练的进行，损失函数逐渐减小，而 TD error 也逐渐减小。这也符合直观的训练

过程理解。

0 2500 5000 7500 10000 12500 15000 17500 20000

Episode

Mean Reward

Mean reward per 100 episode

(a) 奖励曲线

0 2500 5000 7500 10000 12500 15000 17500 20000

Episode

loss

Training loss(log10)

(b) 损失函数曲线

图 2: 奖励曲线和损失函数曲线

图 3a为当前 Q 值与下一步的 Q 值曲线图。首先，我们可以看到两者的曲线都在向上

提升。这符合我们一开始的直观理解。因为 DQN 应该会引导智能体不断地选择 Q 值增大

的方向学习。其次，我们可以看到 Q 和 Q

′

的数值上很接近。按照一开始的理解，两者之间

应该存在着近似 1 的差别。其实，一开始的时候，两者确实存在着近似 1 的差别。但随着

训练的进行，两者越来越接近。我们把两者之间的差取对数以后可以得到图 3b的结果。可

以看到，一开始两者之间的确是存在接近 1 的差别，但是后面就逐渐减小差别。这应该是

归结于状态空间为连续空间。连续空间的变化可能不够剧烈和明显，从而导致 DQN 的数值

变化也不明显。

0 2500 5000 7500 10000 12500 15000 17500 20000

Episode

Q-Value

Current action value and next action value

q-value

next-q-value

(a) 当前 Q 值与下一步的 Q 值曲线

0 2500 5000 7500 10000 12500 15000 17500 20000

Episode

4.0

3.5

3.0

2.5

2.0

1.5

1.0

0.5

Difference

Difference between current action value and next action value (log 10)

(b) 当前 Q 值与下一步的 Q 值之差的曲线

图 3: 当前 Q 值与下一步的 Q 值的相关曲线

图 4a为每一步正确动作和错误动作之间的 Q 值曲线。首先，正确动作的 Q 值曲线会

上升比较符合直观的理解，但是错误动作的 Q 值曲线应该会一直下降，而实验结果却有点

剩余11页未读，继续阅读

透明流动虚无

粉丝: 39
资源: 306

DQN算法解决平衡小车控制：理论与实践

df.to_excel 提示智勇;奇峰;先锐;金釜;凌峰;策宇

能帮我规划一份一天的黄山旅游路线吗

帮我写一篇 《黄山奇石》教案

单相正弦变频电源设计你从哪些文献中获取这些资料，学到哪些东西，研究中用到了哪些方法，有没有哪些不足，需要添加些哪些东西

绍兴有什么旅游景点推荐

现在这个时间段，国内有哪些风光比较好适合拍摄的徒步地点

用HTML和CSS做一个复杂的关于安徽旅游景点的网页

java开发手册 泰山 黄山 华山

基于微信小程序的学习资料销售平台设计与实现.docx

java基于ssm+jsp二手交易平台网站管理系统源码 带毕业论文

weixin218“校园资料分享微信小程序”的设计与实现springboot.rar

jdk - 22.0.2 - linux

java基于ssm+jsp旅游信息网站系统源码 带毕业论文+PPT

仿ios音量调节的效果.zip

基于springboot的校园疫情防控系统设计与实现.docx

Sigrity-System Explorer User Guide.rar

java基于SpringBoot+vue 宠物健康顾问系统源码 带毕业论文

基于springboot的智慧外贸平台设计与实现.docx

Sigrity-XtractIM-template.rar

想要快速查看Gif内容？我们的工具支持即时预览，无需等待加载完成即可查看Gif全貌

最新资源

帮我写一篇《黄山奇石》教案

java开发手册泰山黄山华山

java基于ssm+jsp二手交易平台网站管理系统源码带毕业论文

java基于ssm+jsp旅游信息网站系统源码带毕业论文+PPT

java基于SpringBoot+vue 宠物健康顾问系统源码带毕业论文