没有合适的资源?快使用搜索试试~ 我知道了~
多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依靠的人你的想法,你的严谨在实验室之外,我真的把你当作朋友,我很高兴能继续谈论电影,一边吃牛肉一边喝威士忌。非常感谢菲利普,你的距离,你的好幽默和你的鼓励,即使是最古怪的想法,我会非常想念我离开后我也感谢你给我的机会第三个要感谢的人显然是弗洛里安,他在整个论文过程中一直陪伴着我,我有幸与他合作过几次。如果没有你的动机和你的疯狂,这篇论文中的许多文章就我已经数不清和你一起度过的美好夜晚了,我甜菜根啤酒总是不好喝的我还要感谢我的报告员Olivier Sigaud和Ludovic Denoyer我要感谢我的考官Sao Mai Nguyen和评审团主席Fabrice Lefevre接受我的邀请,参加评审团,阅读这篇论文,我从一开始就是一个同志,但我是一个比我更有效率的研究者,我也要感谢爱德华,他也是我论文中的一个榜样。我们的许多讨论,迷你俱乐部阅读和你的严谨让我更好地了解我们的巨大领域和科学进步。也正是由于这些讨论,ciquel(电影续集)才得以重生。在第一天的同学薛东的陪同下,我们徒步穿越了斯泰伦博斯山脉,享受了轻骑兵烧烤,感谢你在你的陪伴下度过的这些时刻。再次在团队中多里安,你一直是一个非常重要的朋友(或敌人,在尼采的意义上)我们的辩论、电影之夜和果酱将成为强烈的记忆,如果没有这些,过去的一年将是令人沮丧的。内森、莎拉、安托万和最近的4马克,你的友谊对这篇论文也很重要,我希望我们能继续见面!你也是一个真正的A06 !我还要感谢其他现在和过去的博士生,纪尧姆、马赫萨、莉莲、罗南、梅尔万、尼古拉斯、拉尔夫、雷达、奥马尔、扬尼斯、伦纳德、约翰、朱尔斯、尼诺,以及以前的实习生拉斐尔和杰弗里。也要感谢博士后,马特奥,没有他,EWRL永远不会看到光明,皮埃尔,谁也要感谢艾米莉,奥达里克,感谢她,还要感谢Alexis Ducarouge,他选择了另一条路,还要感谢我的实习主管David Filliat,他总是抽出时间与我交谈,并让我们回到过去一点,如果没有我的两个最好的朋友,保罗和埃利亚斯,就不会有论文想法的雏形,我们对计算机科学和8°啤酒的热情使这个疯狂的想法成为可能我还要感谢Damien、Louis、Pierre和Leslie(也祝你们好运!)他在南特,我感谢我的第二个家庭文森特,格拉齐拉,特里斯坦(科学,它的工作!)。最后,我感谢我的父亲帕特里克,我的兄弟克莱门特和我的母亲劳伦斯多年来的支持,我希望这份手稿能让你们感到5论文摘要在这篇博士论文中,我们研究了人工智能中的顺序学习(所谓的"强化"),特别是动作和交互的概念。在强化学习中,代理接收关于其周围环境的信息并采取相应的行动。我们的目标是最大化一个叫做奖励的量。计划(行动的长期后果是什么,以及可以获得多少回报)和探索(如何在最短的时间内获得最大的信息)是这门L’intelligence50. 从那时起,认知主义潮流已经让位于具身认知心理表征不是把智力看作是一组抽象的功能,而是通过与世界的互动来构建和引导的我们希望用同样的眼光来分析强化学习算法,把交互重新动作定义了在电子游戏中,它们对应于可以按下的不同按钮这些不同形式的可能行动被称为首先,我们提出了不同行动领域的分类法及其带来的例如,"当代理必须从数千个操作中进行选择时,会发生什么?"或者"如何忽略不必要的行为或概括从未见过的行为?"在第二步中,我们表明,当环境出于安全原因阻止我们执行某些操作时第二种情况涉及我们将证明,推动代理寻找与对象交互的关键操作比其他现有技术方法提供了更好的探索这份手稿的第三部分是关于多目标学习的,也就是说,采取大量的行动序列,每一个执行不同的任务。我们专注于 该语言通过简单地描述代理必须完成的任务来简化许多子任务的定义。我们提出了一种算法,可以在需要完成大量目标时降低学习复杂度。最后,最后一部分讨论了将非交互式(监督)任务转换为交互式任务 使主体在其学习中主动,通过允许主体自己选择感兴趣的信息,允许扩展监督学习的可能性。 我们表明,通过改变说话人识别任务的定义,可以减少学习时间和识别所需的单词数量。6论文摘要在这个博士。本文研究了人工智能中的顺序决策(又名强化学习或RL),重点是 * 动作 * 和 * 交互 * 的概念 在强化学习中,主体从其环境和行为中接收信息。我们的目标是最大化一个叫做"回报"的约束。规划(预期长期后果和更高回报)和探索(如何在最短时间内收集尽可能多的信息)是本主题的核心。"强化学习"一词 认知研究启发了早期的人工智能先驱,计算机的模块化影响了认知主义。然后,具身认知接管,将与世界的互动置于心智发展的中心。我们以类似的姿势研究强化学习,并将动作作为本文的核心。操作定义了代理与其环境之间的接口在机器人控制中,动作就是发动机的力。在电子游戏中,动作是控制器的按钮。我们称之为不同形式的行动空间首先,我们提出了行动空间分类法,并分析了每种类型所带来的挑战。例如它是否?"然后,我们研究如何修改当前的算法,以考虑行动知识的优势。首先考虑的设置是safeRL,其中代理在安全约束下操作。我们表明,当环境阻止代理人采取特定行动时,考虑到这一信号对更快地学习至关重要。其次,我们提出了一种探索算法,该算法推动代理尽可能多地与环境交互。手稿的第三部分涉及行动抽象(代表更广泛目标的互动序列)。例如,自然语言可以通过描述代理必须完成的任务来传达多个子任务。我们提出了一种在处理大量自然语言指令时降低样本复杂度的算法最后一章更一般,并正式说明了如何将受监督的设置转换为交互式设置。通过将说话人识别任务重新构建为多回合游戏,我们可以提高样本效率并减少所需的字数。iF内容。1深度强化学习食谱91.1机器学习和深度学习背景91.1.1机器学习成分91.1.2应用示例1.2深度学习111.2.1完成本论文需要哪些工具?........................................................................111.2.2深度学习简史111.3强化学习121.3.1学习如何与环境互动:马尔可夫决策专业版第十二章形式主义1.3.2如何进行强化学习?................................................................................... 131.4深度强化学习(DRL)161.4.1深度Q-学习(DQN)161.4.2处理部分可观测性171.4.3升级到181.4.4强化学习的1.5结论第二十二章2操作和约束。252.1行动空间动物园252.1.1示例25中的字段2.1.2离散与连续域262.1.3处理大型行动空间292.1.4使用混合行动空间332.1.5更多异国情调的行动空间342.1.6第三十四章结论2.2迪普·加西亚和费尔南德斯342.2.1最坏情况最小值最大值352.2.2风险敏感性标准(CVaR)2.2.3约束标准362.2.4结论362.3第一次贡献(IJCNN我很............................................................................................................................2.4方法372.4.1反馈信号和MDP-372.4.2边境损失382.5实验40ii2.5.1小型电网环境402.5.2文本世界环境402.5.3模型和体系结构412.6结果412.7结论423使用行动相关性探索453.1按E键探索453.1.1探索中的非定向方法3.1.2勘探中的定向方法3.2第二次贡献(IJCAI....................................................................................................................................Don’t3.4不要做不重要的事! ..................................................................................................513.4.1直觉513.4.2方法523.4.3衰变图533.5实验设置533.5.1微型电网环境533.5.2实验设置553.6实验结果563.6.1基本环境563.6.2内在探索行为563.6.3内在动机陷阱593.7结论614抽象和目标634.1导言634.1.1视觉和语言导航644.2目标条件强化学习644.2.1背景和符号644.2.2后见之明体验重播654.2.3她的变体654.3第三个贡献(SCCI为体验再现而生成的后见之明4.4为体验而生成的后见之明4.5相关方法674.5.1条件语言政策674.5.2IRL用于68之后的说明4.6实验684.6.1实验设置684.6.2指令生成器分析694.6.372以下指令4.6.4讨论734.6.5通过指令生成器学习的语言4.6.6第75章第一次见面4.6.7限制764.7结论76iii5将监督学习转变为多转向交互式任务5.1主动学习和强化学习805.2顺序表示学习805.3第四篇贡献(INTERSPEECH几个单词的机器-交互式扬声器识别与强化学习815.4交互式扬声器识别游戏815.4.1游戏规则825.4.2游戏评分825.4.3对扬声器识别模块83进行5.5作为RL问题的5.5.1马尔可夫决策过程835.5.2询问者优化流程835.6实验协议845.6.1数据集845.6.2音频处理845.6.3扬声器识别神经模块855.7实验855.7.1评估855.7.2调查员评估865.8结论和未来方向88首字母缩略词列表符号列表1简介生活的自主性被理解为[...]无论是在它的行动方面,还是在它塑造一个有意义的世界的方式方面。(Bourgine等人,(1991年)每个博士学生们在某个时候面临着最具挑战性的问题:"你的博士学位是什么?"关于?向外行人解释可能会导致一场关于你的主题的难以消化的行话风暴"人工智能(AI)的领域,它赋予计算机在没有明确编程的情况下学习的能力"(Samuel,1959)它是概率、优化和计算机科学的交叉点。"在你的演讲结束时,外行会粗鲁地问:"但是......你和机器人一起首先,在普通观众的头脑中,智力必须被嵌入自动化和机器早在计算机之前就出现了,所以在现实世界中表演比在抽象领域工作感觉更自然。然而,这片土地的在20世纪50年代,麦卡锡、明斯基、罗切斯特和香农提出在1955年的夏天解决计算机化智能问题(麦卡锡等人,1955年)。 1955年)。这个非常雄心勃勃的研究项目涉及操纵抽象概念、计算、创造力和推理。然而,七个实习项目中没有一个涉及实施、互动或相关概念。与此同时,心理学通过检查学习、记忆、解决问题的技能来研究人脑,并将智力定义为一套抽象的任务。这一运动被称为认知主义,即对心理过程的研究(Mandler,2002)。直到20世纪70年代末,认知主义之后才出现了物化认知,将心理过程作为身体与世界互动的一部分从这个角度来看,智力不再是一个抽象的、自主的过程,与身体及其环境脱节。为了使它与众不同,人类的认知必须植根于感觉运动处理。这些想法已经成熟到机器学习的世界,并慢慢地看到了强化学习(RL)的诞生。这是人工智能的子领域,解决顺序决策。决策是因为代理(或程序)通过传感器接收信息,"顺序"一词源于与环境的反复相互作用最后,代理被优化以最大化2奖励或AS(Sutton等人,2018年10月15日):"学习如何从环境中获得东西"。图1:强化学习图。代理人(狗)从环境中接收观察(看到它的宠物父母拿着一根棍子),并最大化奖励(食物)。起初,它不知道该做什么;它吠叫,在地板上打滚,等等。然而,通过试验和错误,狗最终学会了执行一系列的动作(运行,拿起棍子)来收集食物。(图片来源:https://fr.mathworks.com/discovery/reinforcement-learning.html)强化学习是一个通用的范例,允许各种各样的应用,如围棋,其中一个代理有机体石头周围更多的领土比对手(银等,2004年)。 2016年)或自动平流层气球导航(Bellemare等人,2020年)。这两个问题看起来并不明显相似,解决其中一个或另一个的策略似乎无关紧要。围棋是一个有长期规划和战略的棋盘游戏,在那里驾驶气球是一个在不可预测的环境中的导航任务然而,两者都可以定义一套行动(把一块石头放在棋盘上,燃烧燃料去更高)和奖励(赢得游戏,到达目的地),并需要尝试不同的策略,以找出哪一个优于其他。 发现获得最大回报的策略或政策是强化学习范式的核心。在围棋中,无论对手使用什么策略,最大化奖励都是赢得每一场比赛。对于气球导航,它将是到达目的地的每一次和快速。 找到一个最优的政策不是一件容易的任务,因为代理人必须适应环境的不可预测性、传感器噪声、长期规划和探索。因此,强化学习是对顺序决策问题、设计(理论上)可以解决围棋的通用算法、气球导航和许多其他问题的统一观点。在过去的十年里,我们在这个方向上有了很大的飞跃,Deep Q-Networks使用原始像素玩雅达利游戏(Mnih et al.,2015年),AlphaGo(Silver等人,2017年)成为几乎无与伦比的,甚至掌握了国际象棋和Chogi(银等, 2018年)。两个肾脏-强制学习代理人分别成为星际争霸中的大师(Vinyals et al.,2019年)和Dota(Berner等人, 2019年)。每个算法都找到了一个很好的策略3长时间的训练,破解数百万个数据点。但是,它们是否高效? 为了达到最终的性能,AlphaGo玩了大约500万场游戏。一个通常持续一个小时的游戏,算法花了大约570年的时间来玩围棋。相比之下,他的对手,职业球员李世石(比赛时33岁),不能花这么多时间玩。据说它的数据效率更高:它玩得更少,但从每个游戏中提取了更多的信息。1.因此,最终性能很重要,但实现最优性的交互次数也很重要。第一章更正式地介绍了经典的和最新的强化学习方法,并讨论了算法如何传统地减少其数据消耗。整个论文符合这一原则:提高RL算法的数据效率。放大强化学习中的动作正如我们所讨论的,智力必须通过它与环境的相互作用来研究我们主张应该用同样的考虑来分析强化学习代理。RL范式已经将感觉机制解释为主体必须根据环境状态行动。更重要的是,许多例子突出了改变世界表征如何影响学习,无论是通过改变传感器还是稍微改变输入(Zhang et al.,p. 2018年; Hussenot等人, 2020b)。然而,我们相信RL是对具身认知运动所提出问题的部分回答。 强化学习研究者忽略了改变行动如何影响学习动力学(Kanervisto et al.,2011)。 2020年)。环境中可用的操作集称为操作空间。例如,在Atari2600(一个真正的控制台)上,操纵杆选择一个方向(包括对角线),并可以与按钮组合(触发不同的效果,取决于游戏)。因此,动作空间是所有可能方向的组合,按钮被按下和释放。 街机学习环境(Bellemare等人,2013年)是一个55个游戏的套件,来自Atari2600,喜欢设计一个单一的算法,处理所有的游戏。然而,动作空间并不是所有游戏的标准RL研究人员为每个游戏调整了动作空间,简化了学习过程,但失去了设计符合这一限制的算法的研究机会。同样的道理也适用于每一个环境;那些空间都是由手工精心设计和修改的,例如,通过移除看起来不必要或过于相似的动作。设计总代理涉及将行动空间工程减少到最低限度,最终目标是用数据驱动的方法解决这些问题。在实现这一目标之前还有几个里程碑,需要更好地了解行动空间的多样性,以提出一个统一的观点。在第2章中,我们回顾了这样的问题:此外,我们越希望代理成为通用代理,它需要的操作就越多;因此,我们还回顾了当前的强化学习算法如何处理广泛的操作空间。调查引导我们对本文的为了说明我们的观点,我们以Tucker等人报告的行为数据为例, 1998展示人类视觉信息处理如何操作控制器。主题为1AlphaGo运行一小时游戏的功耗约为170 kW/h(1202 CPU x 100 W+)176 GPU x 300 W一小时),其中Lee Sedol消耗约20 W/h,能效也可以考虑在内。4用于指示哪些公共对象(例如,通过按下遥控器上的按钮,壶(或煎锅)可以测量左手或右手操纵控制器时的响应时间。与远程控制器的手动处理称为响应手。 实验表明,当响应手与用于抓取检测对象的手相同时,响应时间最快(例如如果茶壶的把手在左手上,则为左手。我们可以得出结论,上下文暗示了什么是可能的。通常使用RL词汇翻译为"陈述应告知哪些动作可执行例如,代理人前面的一堵墙表明前进是不可能的,或者是一个危险的标志,防止他们做一些愚蠢的事情。我们使用术语"上下文无效"来描述在某些上下文中无效的操作(例如,出于安全原因)。在随后的第(2.3)节中,我们证明了强化学习代理正在努力检测这样的信号,即使它可以从状态中提取出来;因此,代理通过尝试无效的动作来浪费时间。第三章从同样的原则出发,但又深入到探索方法中。当前的策略侧重于状态新颖性和不可预测性,但未能将代理人推入需要特定操作的区域。例如,我们证明了学习在按钮前面使用"按"动作或在门前面使用"打开"动作对于当前的探索算法来说是困难的,并提出了一种检测和奖励罕见交互的方法。最后一个免责声明:太多次,肮脏的大脑类比被用来证明一些ML技术,这给一般观众带来了混乱。本文所采用的方法是将具体化理论作为我们旅程的起点。然而,本文的研究结果只能应用于强化学习代理和算法,我们不能得出关于人类认知的结论。论文大纲深度学习和强化学习背景将在第1章中介绍。它描述了2014/2015年后在深度强化学习中开发的工具,并向愿意与最新文献竞争的读者提供了输入。第2章介绍了动作空间的一般分类法,它深入到多样性、结构和在每种类型之间切换的方法。它还涵盖了最先进的工具,以学习行动空间结构和处理广泛的行动空间。下一节将安全、约束和强化学习作为一种应用,并详细介绍了论文的第一篇贡献通过提供关于正在执行的动作的外部信号,最先进的深度强化学习算法的自适应可以大大降低样本复杂性并学习以避免危险动作。第三章总结了强化学习中的探索和内在动机方法,重点是需要函数近似的大状态空间。第二个贡献强调了体现域的行为在本质上是非常不同的有些动作是,如触发按钮或开门。该方法使用具有不同后果的动作作为探索信号。第四章阐述了强化学习中目标的概念基于目标的方法旨在建立多目标政策,完成各种任务。这些更高层次的目标可以被视为更复杂的行动,特别是在有许多目标的开放领域。背景部分强调说明-5使用自然语言,因为它提供了环境的自然结构。第三个贡献是提高教学理解和执行力。通过学习一种语言生成器来补充数据收集,策略可以更快地学习更多指令。第五章对监督学习和强化学习进行了一般性的概述,思考了如何将监督任务转化为互动任务。顺序设置可以减少训练监督模型时的数据消耗,例如主动学习。最后的贡献表明,将说话者识别任务转换为强化学习设置可以减少识别说话者时所需的样本数量。最后一章讨论了以行动为中心的强化学习的未来方向67论文贡献论文中的论文• 马蒂厄·瑟林、菲利普·普雷和奥利维尔·皮耶昆(2020a)。"对不起,戴夫,我害怕我做不到"从禁忌行为中深度Q学习"。" 神经网络国际联合会议论文集(IJCNN)• Goeffrey Cideron*、Mathieu Seurin*、Florian Strub和Olivier Pietquin(2020年)。IEEE计算智能系列研讨会论文集(SSCI)• 马蒂厄·瑟林(Mathieu Seurin)、弗洛里安·斯特鲁布(Florian Strub)、菲利普·普雷(Philippe Preux)和奥利维尔·皮耶昆(Olivier Pietquin)(2020b)。 在:IEEE语音通信协会国际会议(INTERSPEECH)的专业论文集。• 马蒂厄·瑟林、弗洛里安·斯特鲁布、菲利普·普雷和奥利维尔·皮耶昆(2021)。不要做不重要的事:内在动机与行动的有用性。人工智能国际联合会议(IJCAI)集其他贡献• 弗洛里安·斯特鲁布(Florian Strub)、马蒂厄·瑟林(Mathieu Seurin)、伊桑·佩雷斯( Ethan Perez ) 、 哈 姆 · 德 弗 里 斯 ( Harm De Vries ) 、 热 雷 米 · 玛 丽 ( JérémieMary)、菲利普·普雷(Philippe Preux)、亚伦·库尔维尔(Aaron Courville)和奥利维尔·皮耶昆(Olivier Pietquin)(2018)。"多跳特征调制的视觉推理" IEEE欧洲计算机视觉会议论文集(ECCV)• Timothée Lesort*、Mathieu Seurin*、李新瑞、Natalia Díaz-Rodríguez和David Filliat(2019)。机器人先验深度无监督状态表征学习:稳健性分析神经网络国际联合会议论文集(IJCNN)活动组织• 皮罗塔·马特奥(Pirotta Matteo)、罗南·弗鲁伊特(Ronan Fruit)、弗洛里安·斯特鲁布(Florian Strub)和马蒂厄·苏林(Mathieu Seurin)(2018)。 科学活动组织• 尼古拉斯·卡拉拉(Nicolas Carrara)、奥马尔·达尔维什·多明格斯(Omar DarwicheDomingues)、扬尼斯·弗莱彻-贝利亚克(Yannis Flet-Berliac)、艾米莉·考夫曼(EmilieKaufmann)、爱德华·勒朗(EdouardLeurent)、奥达里克-安布里姆·梅拉德(Odalric-Ambrym Maillard)、皮埃尔·梅纳德(Pierre Ménard)、菲利普·普雷(PhilippePreux)、马蒂厄·瑟林(Mathieu Seurin)、尚学东(Xue-dong Shang)、朱利安·塞兹内克(Julien Seznec)、弗洛里安·斯特鲁布(Florian Strub)和穆罕默德·萨德格·塔莱比(Mohammad Sadegh Talebi)(2019 a)。再强化学习暑期学校(RLSS)科学活动组织89i=0第一章深度强化学习食谱烹饪深度RL需要自信的猜测和即兴创作-实验和替代,以创造性的方式处理失败和不确定性。-保罗·塞罗克斯(美国小说家)在本章中,我们奠定了手稿的技术基础。数学符号、定义和食谱将永远存在,但这种形式主义将通过拓宽机器学习的视野和解锁后续章节的访问权限来极大地奖励读者。深度学习和强化学习领导者可以跳过第2章。1.1机器学习和深度学习背景1.1.1机器学习成分要开始使用机器学习,需要几个工具。首先,选择感兴趣的区域(参见第1.1.2节)并收集一些将形成数据集的信息。第二,确定如何处理问题。机器学习可以分为三个主要领域(Bishop,2006):监督学习、无监督学习和强化学习。第三,要学习此数据集,请在厨房橱柜中选择一个模型及其相关的优化器该模型可以是任何东西,从决策树,贝叶斯线性回归,或神经网络(本文将集中在后面,但这里提出的许多算法可以与其他模型一起使用)。优化器严重依赖于模型,它描述了如何使模型适应数据。在最成功的方法中,有监督的学习。数据集由示例x>X组成,其中每个示例都与标签y>Y相关联。 目标是从x或更正式地预测y:给定{(x(i),y(i))}N的数据集 学习这样的模型作为p(y)|x)t概括了x的w个实例s。10i=0输入带标签无标签数据州州错误监督学习无监督奖励强化学习学习目标评估映射类/映射行动行动输出无监督强化学习图1.1:不同学习范式第二种方法,称为无监督学习,有一个广泛的定义。给予a数据集{(x(i))}N 学习p(x)的模型(或X上的分布)。无监督学 习 包 括 各 种 任 务 , 如 聚 类 ( Rai 等 人 , 2010 年 ; Xu 等 人 , 2015 ) 、 降 维(Cunningham等人, 2015年)或自我监督学习(Jing等人,2020年; Doersch等人,(2015年)。强化学习(RL)(Sutton等人,2018年)是一个通用的范式,以解决顺序决策,或学习在不确定性下的行动。强化学习问题包括学习该做什么,并将观察结果映射到行动中,以最大限度地提高数字奖励信号。这个模型并不告诉我们要采取什么行动(就像在监督学习中一样),但我们必须通过尝试这些行动来发现哪些行动会带来最大的回报。最终目标是发现行动的最佳顺序(称为战略或政策)。有一整节专门介绍RL(见第1.3节)。 一种被称为无监督强化学习或无奖励学习的变体(Lim等人,2012年; Jin等人, 2020年),结合了无监督学习和强化学习的想法,将不会在本文中深入探讨。然而,第3章中介绍的探索方法可以部分解决无奖励设置。1.1.2应用程序示例这份非详尽的清单突出了机器学习所解决的主题的多样性:气候变化(Rolnick et al.,2019),材料设计(Mirhoseini等人, 2020年)、物理学(Charpagne等人,2019年)、医学(Rajkomar等人,2019年; Cireşan等人,2013年; Ron- Neberger等人,2015年;桥本等人,2018年),经济预测(库存预测; Patel等人,2015年; Asadi等人,2012年),教育(Vie等人,2017年),生物学(高级等人,2020年; Zhou等人, 2017年),数学(Lample等人, 2019年)、资源管理(Mao等人,2016年),气球导航(Bellemare等人, 2020年)、自动驾驶(Leurent,2020年)、烹饪(Xin Wang等人,自动威士忌酿造(哎呀,还没有)111.2深度学习深度学习(DL)(LeCun等人,2015年; Goodfellow等人, 2016)是机器学习的一个子领域,它出现于2010年代神经网络(NN)和图形处理单元硬件(GPU)之间的会议(Cireşan等人,2011年; Cireşan等人,2012年)。 使用GPU(以及后来的专用硬件,如张量处理单元TPUJouppi等人), 2017年)将训练模型的时间减少了许多数量级,从而提高了处理大型数据集的能力。1.2.1完成本论文需要哪些工具深度学习架构不是本文的核心,但需要几种工具。通用视觉架构,如卷积神经网络(CNN LeCun等人,1995)和作为长-短期记忆的递归神经网络(RNN)的基本理解(LSTMHochreiter等人,1997年)。如有必要,我们将更详细地讨论模型。1.2.2深度学习简史在大约十年的时间里,使用千兆字节(GB)的数据变得更加容易,并转化为许多任务的性能提升。"你能收集的数据越多,你的结果就会越大,"这位深度学习从业者说,这可能会有问题。我们将举两个例子来说明数据消耗的急剧增加。引发图像分类深度学习趋势的数据集是ImageNet,特别是图像大尺度视觉识别挑战(ILSVRC Russakovsky et al.,2013)。 2015年),由130万张图片组成。不到10年后,Xie等人, 2020年使用由35亿张图像组成的数据集来训练他们的模型。以自然语言处理(NLP)为例,其中数据集来自3.48亿个令牌(大约500MB的数据)(Bahdanau等人, 2015年)到惊人的500万亿令牌(570 GB)(Brown等人, 2020年),模型从大约6000万个参数到1.75亿个参数。通过大规模并行化梯度估计和反向传播(Linnainmaa,1976; Rumelhart等人, 1986年),场在六天内形成一个网络(Krizhevsky等人, 2012年)到几分钟(You et al.,2018年),降低每个参数的培训成本(但总体成本增加)。更快的培训和更大的数据集转化为更高的性能,但故事并没有就此结束。第二个好处来自反向传播的普遍性。一旦定义了基本的可微块,即使有疯狂的重组和链接,梯度也可以被计算出来。这意味着模型更加灵活。他们可以分享信息,被拒绝和微调(至少在理论上)。例如,将来自不同模型的流合并,处理两种以上的模态被称为多模态学习(Ngiam etal.,2001)。 2011年)。将流划分为多个子组件可以解决多任务学习(Ruder,2017;Schmidhuber,2018)。这两个领域并不新鲜,但组合模型并将其用于不同任务的简单性激发了机器学习社区的极大兴趣。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功