RLDM 2019强化学习与决策会议精华概览

需积分: 5 168 浏览量更新于2024-06-16 收藏 1.34MB PDF 举报

"RLDM 2019 笔记.pdf" RLDM 2019，即2019年强化学习与决策会议，是一场聚焦于强化学习（Reinforcement Learning, RL）和决策制定的学术盛宴，于加拿大蒙特利尔举办。会议涵盖了多个主题，包括联想学习、动态决策、反事实与强化学习、认知资源的合理使用、基于多巴胺的强化学习、计数探索、分布式强化学习、临床决策神经科学、超几何贴现、移动健康强化学习、人类选项转移、大动作集的泛化以及奖励机制设计等。 Melissa Sharpe的教程探讨了通过联想任务测试计算问题，强调了联想学习在理解和模拟学习过程中的重要性。她介绍了计算理论如何帮助我们理解学习，并结合多巴胺的实验结果，深入分析了学习机制。 Cleotilde Gonzalez的教程则关注人类的动态决策，对比了经典决策理论和自然决策的极端情况，讨论了人们如何在不断变化的环境中做出决策。她的讲解涵盖了动态决策制定的基本概念和实际应用。 Emma Brunskill的教程将焦点放在反事实和强化学习上，特别是如何将其应用于教育领域。她阐述了策略评估和优化的重要性，这些在教育场景中可以用于改进学习效果。会议的主要部分包括了各种主题演讲和论文介绍。Tom Griffiths讨论了认知资源的合理使用，提出了人工智能和心理学中资源合理性的悖论及其解决方案。Will Dabney的论文展示了基于多巴胺的强化学习中分布式编码的应用，而Mariusz Machado介绍了基于后继表示的计数探索方法，这对于解决探索与利用的困境有所贡献。 Liam Fedus关于超几何贴现的研究揭示了其在处理长期学习问题中的潜在价值，而Susan Murphy探讨了移动健康领域的强化学习应用。Liyu Xia研究了人类选项转移，Yash Chandak关注于提高大型动作集的泛化能力。Sheila McIlraith的报告则涉及奖励机制，讨论了如何使用和创建有效的奖励机制来指导学习过程。 Anna Harutyunyan和Pierre-Yves Oudeyer分别就终止评论家和内在动机的目标探索进行了讨论，Marcelo Mattar分享了关于记忆在学习中的作用的研究。这些议题共同推进了强化学习理论与实践的边界，为未来的智能决策系统提供了新的视角和思考方向。

→最近，还有用于研究消防、医学诊断、气候变化、实时资源分配等微观世界[20, 22]。

现场演示！展示了一个微观世界模拟的软件：通过复杂网络泵送水来最大化送水量。强调决策必

须在实时、噪声、延迟等条件下迅速做出。关键问题是人们如何在这种情况下做出决策。

2003年的研究[21]——探讨了关于DDM中的人的三个问题：

1. 练习是否能提高表现？

2. 在时间限制下练习是否有助于表现良好？

3. 人类的能力（智力、记忆）如何影响在动态任务中做出决策？

实验结果：在时间限制下，人们倾向于更加密切地遵循启发式方法，而给予更多时间的人则逐渐

远离启发式方法，而是选择基于任务的上下文知识（输入-输出关系）做出决策。

调查/实验结果总结：

• 在时间压力下进行更多练习并不能达到最佳表现

• 在同一任务的未来时间限制下，没有时间压力的练习可能更有益

• 模式匹配能力（通过Raven渐进矩阵测量）可以很好地预测表现

• 人们在任务中的练习中减少使用简单的启发式方法

2.2.4 我们如何在动态环境中做决策？

两个关键要素：

1. 识别：我以前见过这个吗？

2. 经验：在任务中通过实践获得特定上下文的知识产生输入-输出关联（大致是基于模型的预测

）

Dienes和Fahey [12]、Gonzalez等人[21]和Gibson等人[19]还有ACT-R [1]提出了更多的决策制定中

的学习理论。

→ 探索DDM的计算模型（参见Gonzalez等人[21]）。

问：这些理论有多普遍？还是它们适用于特定任务？

答：声称这些理论是真正决策制定过程的通用理论。

剩余64页未读，继续阅读

绝不原创的飞龙

粉丝: 4w+
资源: 1083

RLDM 2019强化学习与决策会议精华概览

笔记.pdf

RLDM ICML AAAI ICLR 2019 Notes

rldm.rar_asp 日历控件_asp日历控件

rldm_tutorials:GA Tech OMSCS RLDM类的教程

hBayesDM:使用R和Python对RLDM任务进行分层贝叶斯建模

Kafka 17道面试题和答案（2025最新版）.docx

基于Vue的智能停车计费系统.js+SpringBoot+MySQL开发，高分成品毕业设

基于Matlab/Simscape的动静摩擦切换模型（速度转换法）

优质项目工具-使用Armadillo实现Matlab转C++-附完整使用流程教程.zip

Java集合部分面试题（2025最新版）.docx

最新资源