行动中的多样性和互动学习：马修·瑟林的博士研究

90 浏览量更新于2024-06-16 收藏 5.77MB PDF 举报

"这篇资源是一篇关于互动学习和多样性在计算机科学博士学位论文中的应用的讨论。作者马修·瑟林在2021年9月28日公开辩护了他的论文，该论文着重于以行动为中心的强化学习和学习互动的概念。论文的评审团和指导教师包括了来自学术界和工业界的知名专家，如谷歌研究教授奥利维尔·皮耶昆和Facebook的教授卢多维奇·德诺耶。作者特别感谢他的导师和同事，他们在整个研究过程中提供了支持和启发，通过科学讨论和共同项目促进了深度学习和强化学习领域的理解。" 这篇论文的核心概念围绕着多样性在学习过程中的重要性，尤其是在计算机科学，特别是强化学习的背景下。强化学习是一种机器学习方法，其中智能体通过与环境的交互来学习最优策略。多样性在这里可能指的是算法的多样性、数据集的多样性和解决问题方法的多样性，这些都对提升学习效果和模型性能至关重要。互动学习是另一个关键点，它强调了学习者之间的交流和合作。在以行动为中心的强化学习中，学习者不仅从自己的经验中学习，还从与环境和其他学习者的互动中获取信息。这种互动可能包括共享策略、反馈和错误分析，有助于加速学习进程并提高学习效率。作者在论文中可能探索了如何利用多样性来增强强化学习算法的性能，以及如何设计互动学习的框架以促进集体智慧。通过与其他研究人员的合作，作者可能已经开发出新的方法来处理学习中的挑战，例如探索-利用难题，或者在大规模复杂环境中有效地学习。此外，论文的完成也得到了评审团成员的贡献，他们对论文进行了评估和反馈，进一步确保了研究的质量和影响力。邀请的专家如弗洛里安·斯特鲁布（Deepmind的博士）和其他学术界的同行，他们的专业知识和建议对论文的完善起到了关键作用。这篇论文深入探讨了在行动中实施多样性和互动学习的理论和实践，对于推动计算机科学，特别是强化学习和人工智能领域的研究具有重要意义。通过这种方式，作者不仅展示了科学探索的价值，还强调了团队合作和个人成长的重要性。

论文贡献

论文中的论文

•

马蒂厄·瑟林、菲利普·普雷和奥利维尔·皮耶昆（2020a）。"对不起，戴夫，我害怕我做

不到"从禁忌行为中深度Q学习"。" 神经网络国际联合会议论文集（IJCNN）

•

Goeffrey Cideron*

、

Mathieu Seurin*

、

Florian Strub

和

Olivier Pietquin

（

2020

年）。

IEEE计算智能系列研讨会论文集（SSCI）

•

马蒂厄

瑟林（

Mathieu Seurin

）、弗洛里安

斯特鲁布（

Florian Strub

）、菲利普

普雷

（

Philippe Preux

）和奥利维尔

皮耶昆（

Olivier Pietquin

）（

2020b

）。在：IEEE语音

通信协会国际会议（INTERSPEECH）的专业论文集。

•

马蒂厄·瑟林、弗洛里安·斯特鲁布、菲利普·普雷和奥利维尔·皮耶昆（2021）。不要做不

重要的事：内在动机与行动的有用性。人工智能国际联合会议（IJCAI）集

其他贡献

•

弗洛里安

斯特鲁布（

Florian Strub

）、马蒂厄

瑟林（

Mathieu Seurin

）、伊桑

佩雷斯

（ Ethan Perez ）、哈姆 · 德弗里斯（ Harm De Vries ）、热雷米 · 玛丽（ Jérémie

Mary）、菲利普·普雷（Philippe Preux）、亚伦·库尔维尔（Aaron Courville）和奥利

维尔·皮耶昆（Olivier Pietquin）（2018）。"多跳特征调制的视觉推理" IEEE欧洲计算

机视觉会议论文集（ECCV）

•

Timothée Lesort*、Mathieu Seurin*、李新瑞、Natalia Díaz-Rodríguez和David Filliat

（2019）。机器人先验深度无监督状态表征学习：稳健性分析神经网络国际联合会议论

文集（IJCNN）

活动组织

•

皮罗塔·马特奥（Pirotta Matteo）、罗南·弗鲁伊特（Ronan Fruit）、弗洛里安·斯特鲁

布（

Florian Strub

）和马蒂厄

苏林（

Mathieu Seurin

）（

2018

）。科学活动组织

•

尼古拉斯·卡拉拉（Nicolas Carrara）、奥马尔·达尔维什·多明格斯（Omar Darwiche

Domingues）、扬尼斯·弗莱彻-贝利亚克（Yannis Flet-Berliac）、艾米莉·考夫曼（Emilie

Kaufmann）、爱德华·勒朗（Edouard

Leurent）、奥达里克-安布里姆·梅拉德（Odalric-

Ambrym Maillard

）、皮埃尔

梅纳德（

Pierre Ménard

）、菲利普

普雷（

Philippe

Preux

）、马蒂厄

瑟林（

Mathieu Seurin

）、尚学东（

Xue-dong Shang

）、朱利安

塞兹内

克（

Julien Seznec

）、弗洛里安

斯特鲁布（

Florian Strub

）和穆罕默德

萨德格

塔莱比

（Mohammad Sadegh Talebi）（2019 a）。再强化学习暑期学校（RLSS）科学活动组织

输入

带标签

无标签数据

州

错误

监督学习

无监督

奖励

强化

学习

目标

评估

映射

类/映射

行动

输出

无监督强化学

习

图1.1：不同学习范式

第二种方法，称为无监督学习，有一个广泛的定义。给予

a数据集

{（

（

）

）}

学习p（x）的模型（或X上的分布）。无监督

学习包括各种任务，如聚类（ Rai 等人， 2010 年 ; Xu 等人， 2015 ）、降维

（Cunningham等人， 2015年）或自我监督学习（Jing等人，2020年; Doersch等人，

（

2015

年）。

强化学习（RL）（Sutton等人，2018年）是一个通用的范式，以解决顺序决策，或学习

在不确定性下的行动。强化学习问题包括学习该做什么，并将观察结果映射到行动

中，以最大限度地提高数字奖励信号。这个模型并不告诉我们要采取什么行动（就像

在监督学习中一样），但我们必须通过尝试这些行动来发现哪些行动会带来最大的回

报。最终目标是发现行动的最佳顺序（称为战略或政策）。有一整节专门介绍RL（见

第

1.3

节）。一种被称为无监督强化学习或无奖励学习的变体（

Lim

等人，

2012

年

; Jin

等

人， 2020年），结合了无监督学习和强化学习的想法，将不会在本文中深入探讨

。然

而，第

章中介绍的探索方法

可以部分解决无奖励设置。

1.1.2

应用程序示例

这份非详尽的清单突出了机器学习所解决的主题的多样性：气候变化（Rolnick et al.，

2019

），材料设计（

Mirhoseini

等人，

2020

年）、物理学（

Charpagne

等人，

2019

年）、医学（

Rajkomar

等人，

2019

年

; Cireşan

等人，

2013

年

; Ron- Neberger

等人，

2015年;桥本等人，2018年），经济预测（库存预测; Patel等人，2015年; Asadi等人，

2012

年），教育（

Vie

等人，

2017

年），生物学（高级等人，

2020

年

; Zhou

等人，

2017

年），数学（Lample等人， 2019年）、资源管理（Mao等人，2016年），气球导航

（Bellemare等人， 2020年）、自动驾驶（Leurent，2020年）、烹饪（Xin Wang等

人，自动威士忌酿造（哎呀，还没有）

1.2

深度学习

深度学习（

）（

LeCun

等人，

2015

年

; Goodfellow

等人，

2016

）是机器学习的一个子

领域，它出现于2010年代神经网络（NN）和图形处理单元硬件（GPU）之间的会议

（

Cireşan

等人，

2011

年

; Cireşan

等人，

2012

年）。使用

GPU

（以及后来的专用硬件，

如张量处理单元TPUJouppi等人）， 2017年）将训练模型的时间减少了许多数量级，

从而提高了处理大型数据集的能力。

1.2.1

完成本论文需要哪些工具

深度学习架构不是本文的核心，但需要几种工具。通用视觉架构，如卷积神经网络

（CNN LeCun等人，1995）和作为长-短期记忆的递归神经网络（RNN）的基本理解

（LSTMHochreiter等人，1997年）。如有必要，我们将更详细地讨论模型。

1.2.2

深度学习简史

在大约十年的时间里，使用千兆字节（GB）的数据变得更加容易，并转化为许多任务

的性能提升。"

你能收集的数据越多，你的结果就会越大，

"这位深度学习从业者说，

这可能会有问题。我们将举两个例子来说明数据消耗的急剧增加。

引发图像分类深度学习趋势的数据集是

ImageNet

，特别是图像大尺度视觉识别挑战

（ILSVRC Russakovsky et al.，2013）。 2015年），由130万张图片组成。不到10年

后，

Xie

等人，

2020

年使用由

亿张图像组成的数据集来训练他们的模型。

以自然语言处理（

NLP

）为例，其中数据集来自

3.48

亿个令牌（大约

500MB

的数据）

（Bahdanau等人， 2015年）到惊人的500万亿令牌（570 GB）（Brown等人， 2020

年），模型从大约6000万个参数到1.75亿个参数。

通过大规模并行化梯度估计和反向传播（Linnainmaa，1976; Rumelhart等人， 1986

年），场在六天内形成一个网络（

Krizhevsky

等人，

2012

年）到几分钟（

You et al.

，

2018年），降低每个参数的培训成本（但总体成本增加）。更快的培训和更大的数据集

转化为更高的性能，但故事并没有就此结束。

第二个好处来自反向传播的普遍性。一旦定义了基本的可微

块，即使有疯狂的重组和链

接，梯度也可以被计算出来。这意味着模型更加灵活。他们可以分享信息，被拒绝和微

调（至少在理论上）。

例如，将来自不同模型的流合并，处理两种以上的模态被称为多模态学习（Ngiam et

al.

，

2001

）。

2011

年）。将流划分为多个子组件可以解决多任务学习（

Ruder

，

2017;

Schmidhuber，2018）。这两个领域并不新鲜，但组合模型并将其用于不同任务的简

单性激发了机器学习社区的极大兴趣。

剩余135页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

行动中的多样性和互动学习：马修·瑟林的博士研究

局域网交流互动平台论文

春季学期小学高级教师述职报告.docx

馆员终身学习与图书馆可持续发展.pptx

英国电子信息类课程观摩与思考.pdf

安全技术-网络信息-融合网络业务云平台关键模块的设计与实现.pdf

老汤：优秀数据结构与算法课程导师简介

实验室设备管理系统 SSM毕业设计 附带论文.zip

PPT高效插件神器推荐-最新发布.zip

数据中心机房基础设计及规划方案.pdf

Visio软件全套资源及教程-最新发布.zip

最新资源

实验室设备管理系统 SSM毕业设计附带论文.zip