没有合适的资源?快使用搜索试试~ 我知道了~
使用结构化语言约束指导安全强化学习Bharat Prakash1,Nicholas Waytowich2,Ashwinkumar Ganesan1,Tim Oates1,TinooshMohsenin11马里兰大学,巴尔的摩县(UMBC),2美国陆军研究实验室,摘要强化学习(RL)已经在解决复杂的顺序决策任务中取得了成功,当一个定义良好的奖励函数可用时。对于在现实世界中行动的代理,这些奖励函数需要非常仔细地设计,以确保代理以安全的方式行动。当这些智能体需要与人类互动并在这种环境中执行任务时,尤其如此。然而,手工制作这样的奖励函数通常需要专门的专业知识,并且很难随着任务复杂性而扩展。这导致了强化学习中长期存在的问题,即奖励稀疏性,其中稀疏或不明确的奖励函数会减慢学习过程,并导致次优策略和不安全行为。 更糟糕的是,对于RL代理必须执行的每个任务,通常需要调整或重新指定奖励函数。另一方面,为了安全地完成一项任务,人们很容易用语言指定你应该做什么或不应该做什么受此启发,我们提出了一个框架来训练RL代理条件的约束,是在结构化语言的形式,从而减少了设计和集成到环境中的专门奖励的努力。在我们的实验中,我们表明,这种方法可以用来接地的语言的行为,使代理解决任务,同时遵循的约束。我们还展示了代理如何将这些技能转移到其他任务中。介绍强化学习(RL)在复杂任务的学习策略方面取得了巨大的成功,这些任务的行为不容易事先设计,例如训练代理在3D环境中导航或操纵机器人对象。使用强化学习,智能体通过探索环境并从其交互中获得反馈来学习优化未来奖励随着环境复杂性的增加,管理代理行为的策略也变得越来越复杂。它们不仅包括代理如何在环境中操作的物理学,而且还定义了如何安全地操作。随着嵌入式AI代理(即机器人)越来越多地融入我们的社会,这些AI系统学习的行为是安全的至关重要。奖励塑造是通过修改奖励来塑造代理行为RL代理试图最大化的函数。然而,目前还不清楚如何有效地训练安全的行为,单独使用奖励塑造作为代理必须能够预测可能发生的伤害之前,它采取了危险的行动,而不是之后。此外,由于这些人工智能系统将与人类一起运行,因此允许未经技术培训的人能够轻松指定人工智能行为是很重要的。目前的奖励形成方法需要专门的知识来为每一项任务和环境手工设计规则, AI需要解决。相反,人类通过自然语言接受指令和指导,同时内化从与外部世界互动中获得的知识。 我们有能力调整我们的行为,找到替代路线,并在不同的场景(具有相似的条件)中使用相同的警告,即使警告不存在。例如,我们知道如何在人行道上导航,如何在建筑物中操作门。然而,当我们看到“前面的人行道关闭”或“不要开门”等标志时而且,我们可以在走一条新的街道时找到一条不同的人行道如果我们看到街上有建筑工程,即使没有标志。在这项工作中,我们提出了一个体系结构来训练代理谁可以接地结构化的语言约束的行为和学习的政策,以避免进入不安全的状态。为了做到这一点,我们首先收集一个轨迹段和结构化语言约束的数据集。然后,这些由人类根据是否发生违规行为进行标记。该数据集用于训练我们所谓的“约束检查器”,这是一种嵌入模型,用于在RL代理的训练期间提供辅助奖励信号。使用神经网络架构,我们训练约束检查器,它使用语言将复杂的行为映射到约束,以检测可能难以传达的不安全行为,这种方法可以用来训练RL代理学习安全行为。在我们提出的架构中,约束检查器被用来训练RL代理不同的结构化语言的约束和随机任务初始化。在测试期间,我们表明,代理执行任务,同时遵循每次提供的约束。此外,我们测试了我们的方法的推广,并表明相同的约束检查器可以用于不同的环境,版权所有© 2020本文由其作者。在知识共享许可署名4.0国际(CC BY 4.0)下允许使用。图1:示例场景和系统架构。考虑这样一个场景:座席需要导航房间并到达目的地如左图所示,可能有多条路径到达目的地。特工可以走红门也可以走蓝门。现在,代理还接收到语言形式的约束代理人必须使用蓝色的门,而不是达到目标。我们的系统接收语言约束,并将其作为行为的基础。为此,我们在训练过程中使用约束检查器模块,该模块可以解释代理行为以及语言约束和形状环境奖励,以学习安全行为。HIST存储当前状态和n-1个先前状态。约束检查器接收状态序列(来自HIST)和结构化语言约束,并输出奖励Rc。代理从约束检查器接收该额外的奖励信号以及状态和语言约束。训练代理遵循类似的约束。我们测试这一点上的迷你网格环境中,我们生成随机约束的英语。实验在3名不同难度的被试身上进行。相关工作在大多数强化学习和顺序决策问题中,任务是使用奖励 函 数 ( Sutton , Barto , and others 1998 ) 或 演 示(Argall et al. 2009)来指定的。其他一些指定任务的方法以偏好的形式使用人类反馈,如(Christiano et al.2017)和(Gandhi et al. 2019)所示。另一方面,使用语言指令是指定任务和目标的一种非常有吸引力的方式。人类用语言来传达目的和意图是非常自然和容易的.您不需要成为实际执行任务的专家,也不需要手动设计或设计奖励功能。与从偏好中学习不同,自然语言规范可以编码有关任务和执行任务的方式的更多信息。语 言 可 以 用 来 指定 计 划 , 目 标 和 高 层 次 的 需求(Gopnik和Meltzoff 1987)。我们人类不仅可以从演示中学习在新环境中完成任务,还可以从使用语言编码的信息中学习传统的强化学习和模仿学习方法重要的是开发具有相同功能的智能代理。在目前的研究中,语言在强化学习中的使用主要有两种方式:语言制约强化学习和语言辅助强化学习RL ( MacMahon 、 Stankiewicz 和 Kuipers 2006 )(Hermann等人,2017)。为语言条件任务开发的方法与语言辅助RL相关,因为它们都处理了RL背景下自然语 言 句 子 的 基 础 问 题 ( Goyal , Niekum 和 Mooney2019)(Bahdanau et al.2018年)。指令跟随代理呈现由基于语言的高级指令(序列)定义的任务。大多数技术关注于由(至少在某种程度上自然的)语言表示的指令,并且可以采取适当动作、目标状态(或一般目标)或期望策略的正式规范的形式。指令的另一个用途是诱导RL代理或规划器优化的奖励函数。我们将探索更多这类问题。在语言和动作或行为之间的学习映射方面已经有了一些工作Branavan et al.(2009)展示了一种在强化学习中学习语言指令和动作之间映射的方法。他们在简单的游戏教程和故障排除环境中展示了这一点。Chen和Mooney(2011)提出了一个系统,该系统通过简单地观察人类追随者的行为来学习语义解析器以解释导航指令,最近的工作表明自然语言叙述用于指导RL策略 学 习 复 杂 任 务 的 实 用 性 , 例 如 星 际 争 霸 2(Waytowich et al. 2019 b; 2019 a)。确保强化学习算法的安全性也是一个重要的研究领域。在构建安全代理方面已经做了很多努力,这些代理可以避免在训练和推理期间进入当智能体与人类密切合作和互动时,尤其如此。Saunders等人(2017)展示如何使用人类反馈来构建阻止不安全行为不0∞并尝试安全地学习任务。Prakash等人(2019 b)通过结合基于模型和无模型的再学习来扩展这项工作,以提 高 安 全 性 。 Amodei et al. ( 2016 ) 和 Leike et al.(2017)概述和激励安全人工智能研究,并提供一些测试环境。背景强化学习为决策和控制提供了一个框架,其中代理试图通过与复杂环境交互来最大化长期回报。这可以应用于各种任务,如自动驾驶汽车和机器人。与其他机器学习范式不同,没有监督者,我们只提供一个高级目标函数。反馈可能会延迟,数据不是独立同分布的(i.i.d),代理的行为会影响它接收到的后续数据。策略是代理的行为功能或从状态到动作的映射。Value函数用于评估状态的好坏;它是对未来回报的预测。动力学模型是环境或世界的模型,它是一个预测下一个状态和奖励的函数,给定当前状态和动作。RL代理可以由这些组件中的一个或多个组成。通常,强化学习使用马尔可夫决策过程(MDP)进行形式化。MDP被定义为元组(S,A,P,R,γ),其中S是状态空间,A是动作空间或代理可用的动作集,P是未知的转移函数,R是奖励函数,γ是折扣因子.RL代理通过根据策略π(从状态到动作的映射)或动作的概率分布来与环境交互。每一步的目标都是最大化数据收集训练约束检查器的数据需要使用人工注释器收集。为了训练约束检查器,我们需要轨迹段和语言约束的样本这些数据可以根据环境以各种方式收集。在模拟环境中,代理和目标位置可以随机化,约束可以从固定的词汇和语法中生成人类注释者可以看到这些对,并被要求标记代理是否违反了约束以及违反了哪个约束。同样,人类可以只看到轨迹,并被要求提出可能的结构化约束。或者,使用人类自己来演示行为,然后用结构化约束来标记它们可能更容易。在本文中,我们自动化了注释vi- olations的过程,因为我们可以访问模拟环境后端。一个部分训练的代理推出的环境中,随机结构化的约束,在每个情节产生。收集数据是为了确保我们有足够的所有类型的样本,包括语言约束和代理行为。在这个数据集中,每个样本由一系列的状态,S1到Sn,它对应于代理此外,我们不是在行为发生后将其标记为违规,而是在即将发生之前将其标记为违规。我们假设使用这种方法训练约束检查器可以潜在地减少训练阶段中的违规数量。我们在结果未来奖励的折扣金额,Σ∞t′=tγ t′−tRt′,以及科.时间t时的政策质量由价值函数E π(γ tRt+1)衡量|s=s),起始状态为s。我们遵循上面描述的类似结构。然而,代理还接收结构化语言句子C形式的约束或警告。代理需要学习策略π(a|s,C),其可以在满足这些约束的同时执行任务。我们定义一个轨迹段,T作为一个可能代表代理行为的状态序列例如,如果轨迹段的长度为5,则Ti是时间步i(i> 5)处的轨迹段,其是5个状态Si-5. S岛在接下来的部分中,我们将更详细地解释该架构以及实验和结果。系统架构拟议的架构有两个主要组成部分。约束检查器模块和RL策略模块。约束检查器模块用于确定给定约束(即,它采用轨迹段Ti(或状态序列)和结构化语言约束C,并输出指示违规的二进制标签。该输出被RL代理用作辅助奖励信号来学习安全策略。约束条件约束检查器模块解释语言约束C和轨迹段T,并输出是否发生违规。然后,这个标签可以用来增加环境奖励,以训练可以避免违规并在环境中安全行动的代理。在约束检查器内部有两个子模块:语言模块和轨迹模块,如图2所示。语言模块接受结构化语言约束并输出句子嵌入。轨迹模块将轨迹(状态序列)作为输入并生成轨迹嵌入。语言模块由一个大小为32的嵌入层组成,并从约束的词汇表中学习单词嵌入(见表1)。然后,这些文件通过一个大小为128的GRU层,以获得语句嵌入.轨迹段T是我们之前描述的状态序列。每个状态(在我们的例子中是2D图像)都由2D卷积层处理,以获得大小为64的状态嵌入序列。然后通过1D卷积来生成轨迹嵌入。句子嵌入和轨迹嵌入被连接,然后通过MLP传递,以给出表示违规的最终标签。该模块是从先前收集的数据中以监督方式训练的。图2:约束的体系结构。 它接受一个轨迹段和一个语言约束并输出表示违规的二进制标签。这可以用来塑造代理收到的奖励。轨迹段是智能体观察到的一系列状态,这些状态由2d卷积层处理,卷积层为我们提供了一系列状态嵌入。然后通过1d卷积处理,以提供轨迹嵌入。处理文本约束的方法是一个嵌入层,然后是一个门控递归单元(GRU)层,给我们一个句子嵌入。这两个嵌入都由多层感知器(MLP)连接和处理,以提供最终的输出标签。强化学习代理我们整个模型的架构如图1所示。RL代理接收状态S和语言约束C,并输出动作的概率分布。它使用2D卷积层处理状态S,然后是密集层。约束C由一个类似于约束检查器结构中所示的语言模块的模块处理RL代理接收的奖励是默认环境奖励R和约束检查器Rc的输出的函数。Rc取决于约束检查器是否认为给定约束的代理行为是RL策略使用Proximal策略优化来训练(Schulmanet al. 2017年)。实验和结果在本节中,我们将解释实验设置以及结果。我们的实验是在Chevalier-Boisvert,Willems和Wendy(2018)的MiniGrid环境中进行的,这是一个部分可观察的我们实验的主要目标是了解我们的模型在学习解释语言约束和在环境中安全行动方面的能力。我们还评估了约束检查器如何在不同的环境和任务中重用。环境设置该环境可以有多个房间,这些房间带有门、墙和目标对象。门可以有多种颜色,代理和目标对象在随机位置产生动作空间是离散的,允许在所有4个方向上移动,打开和关闭门,拿起和放下物体。环境是部分可观察的,代理只能看到代理前面的以自我为中心的5×5视图。此外,代理无法透过墙壁和关闭的门看到。我们在这个环境中设计了多个场景随着任务和语言限制的难度越来越大,我们将模型的性能与基线进行比较,在基线中,我们通过对违规行为给予负面奖励来直接塑造环境奖励图3(a)中示出了2个房间的场景。它由两个房间组成,由一堵墙和两扇门隔开。在每一集中,代理和目标在随机位置产生此外,还生成了遵循固定语法的随机语言约束,如表1中的示例所示任务是使用最少的步骤到达绿色目标对象,同时通过正确的门(使用语言约束指定)。图3(b)中显示了两个房间与熔岩场景。这类似于2Rooms环境,但它有一个称为Lava的额外单元这是在图中看到的橙色细胞,(a) 2间客房:有2间客房由一堵墙和2扇门隔开。穿红色衣服的特工需要通过其中一扇门到达绿色目标位置智能体只能看到它前面的一个5×5(b) 2间客房-熔岩:有2间客房由一堵墙和2扇门隔开。还有一个熔岩细胞,可以以不同的方式表现。穿红色衣服的特工需要通过其中一扇门到达绿色智能体只能看到它前面的一个5×5的区域此外,代理可以或可以不允许使用熔岩细胞取决于语言约束。(c) 3 Rooms-Key:有3个房间由墙壁和2扇门隔开。第一个房间有一个锁着的门,需要一把钥匙才能打开它。代理人需要在打开第一扇门之前拿起钥匙。然后,智能体可以使用门或采取更长的方式到达目标状态。同样,这取决于语言限制。图3:实验中使用的环境该图形和它可以根据语言约束以两种方式之一表现示例语言约束如表1所示。对于类型1-3的约束,熔岩充当传送单元,进入熔岩的代理将立即移动到代理旁边如果约束的类型为4-5,进入熔岩的智能体将死亡并获得0奖励。图3(c)中示出了具有关键场景的3个房间,其中任务是再次达到目标状态,但第一个房间 锁上了代理人需要先收集钥匙,然后打开门。目标单元始终位于环境的右上角。如果没有限制,走第二扇门总是最短的路径。这里的约束类似于两个房间的场景。根据约束的不同,使用门可能是违规行为,代理可能必须使用从第二堵墙底部开始的较长路由。实验条件我们将我们的方法与一个基线进行比较,在这个基线上,我们用成形的环境奖励来训练代理。这意味着奖励函数在MiniGrid框架中被更改为#约束环境1不要使用红色的门2Rooms,熔岩,关键2不要穿过蓝色的门2房间,熔岩,钥匙3没有黄色的门熔岩4不要通过红色的门和熔岩远离熔岩5避免蓝色的门,没有熔岩熔岩表1:在我们的实验当违反语言约束时,输出负奖励。这通常被称为奖励塑造。为了做到这一点,我们需要访问环境奖励功能(本例中的MiniGrid框架),这在大多数现实任务中并不总是可行的基线方法使用与我们相同的RL策略架构(减 去约束检 查器) ,并且还 使用近 端策略 优化(PPO)进行训练相比之下,我们的方法无论如何都不会改变默认的奖励函数,因此不会约束条件(我们的)形状奖励约束条件(我们的)形状奖励平均发作奖励平均发作奖励0.8600.7500.6400.5300.40.3200.2100.100.0 0.2 0.4 0.6 0.8 1.00.00.0 0.2 0.4 0.6 0.8 1.0步骤1e7(a) 违规行为:2 Rooms步骤1e7(b) 剧集奖励:2个房间400.8300.6200.4100.200.0 0.2 0.4 0.6 0.8 1.00.00.0 0.2 0.4 0.6 0.8 1.0步骤1e7(c) 侵犯:2 Rooms-Lava步骤1e7(d) 剧集奖励:2个房间-熔岩图4:2 Rooms(顶行)和2 Rooms-Lava(底行)环境的违规%和平均事件奖励。约束条件能够优化代理行为,以比成形的奖励基线更快地减少违规行为此外,我们的模型在训练结束时平均能够获得比形状奖励方法更高的情节奖励依赖于访问或专业知识的要求来改变奖励功能。相反,约束检查器检测违规行为并确定给予代理的奖励。换句话说,这允许通过结构化语言更直观地进行奖励塑造。我们的实验的目的是表明,我们的方法可以执行-形式一样好的性能方面的基线,同时也最大限度地减少违规我们的代理招致。结果我们使用建议的约束检查器方法以及所有三个任务的基线方法训练我们的RL代理。对于约束检查器,我们使用了12k个样本对于2房间环境,15 k样本用于2房间-熔岩环境。这两种方法都在所有三种环境中训练了1e7(10百万)步然后,我们记录了任务表现(基线奖励)和违反约束的次数。图4和图5显示了我们的约束检查器方法和奖励形成基线方法。为了得到这些图,我们在整个训练过程中定期保存模型。然后,我们评估这些模型上的50个随机事件。违规百分比是代理在给定约束的情况下执行违规的次数,并且平均事件奖励超过50个随机事件。智能体获得的奖励是达到目标状态后的奖励1,并根据达到目标所需的步骤数进行折扣。在图4b中,我们可以看到,在训练结束时,奖励塑造模型和我们的模型在奖励方面达到了相同的性能。这表明约束检查器能够解释语言约束和行为,并提供正确的奖励,仍然允许代理达到其我们还表明,违反百分比是在我们的方法相比,基线奖励形模型,特别是在训练开始时少得多下一个实验是在一个稍微大一点的...约束条件(我们的)形奖励约束条件(我们的)形奖励违反情况(%)违反情况(%)约束条件(我们的)形奖励平均发作奖励300.8250.620150.410500.0 0.2 0.4 0.6 0.8 1.00.20.00.0 0.2 0.4 0.6 0.8 1.0步骤1e7(a) 人权侵犯:2 Rooms-Lava至3 Rooms-Key步骤1e7(b) 奖励:2个房间-熔岩到3个房间-钥匙图5:泛化实验。3 Rooms-Key环境的违规百分比和平均剧集奖励。这里,来自2 Rooms实验的约束检查器被重新用于3 Rooms键,作为泛化测试同样,我们的方法能够优化代理行为,以减少违规行为,并实现与基线一样好的奖励性能这展示了我们如何重用约束检查器来训练代理执行具有类似约束的不同任务复杂场景(2 Rooms-Lava),包括任务和约束。由于这个场景有不同种类的约束和违规,我们收集数据并训练了一个新的约束检查器。表1第3-5行显示了这些约束的示例。两个房间-熔岩场景的结果(如图4c-d所示)表明,约束检查器在早期的事件奖励方面实现了比基线方法更好的性能。基线方法最终能够赶上并匹配约束检查器的性能。此外,我们看到,使用约束检查器可以大大降低训练过程中的违规行为。我们认为,这样做的原因是因为约束检查器被训练的性质。用于训练约束检查器的数据是以这样一种方式收集的,即在违规即将发生之前,轨迹段被标记为负。作为可推广性的测试,我们进行了另一个实验,以显示在一个新的MiniGrid环境中的约束检查器的可重用性。我们使用在2-rooms环境中训练的相同约束检查器,但是将其应用于具有关键环境的3个房间,其中任务和环境不同,但是约束和违规是相同的。这里的结果表明,我们能够重用针对不同场景进行训练的约束检查器(如图5所示,训练曲线陡峭,可以快速达到最大性能以及接近零的约束违反)。同样,我们的方法的奖励和违规百分比与基线奖励形状模型相匹配。这表明,我们能够使用我们的约束检查器,在不同的任务上进行预训练,并在具有最小违规的新任务上实现高奖励性能。讨论在现实世界中行动的智能体必须能够理解自然语言形式的指令和警告标志。这项工作提出了一个架构,可以学习简单的语言约束和代理行为之间的映射。然后,这被用来训练能够在不违反这些约束的情况下解决任务的代理。为了做到这一点,我们收集了代理行为和语言约束的数据集,并以监督的方式训练约束检查器模型。然后,这被用来塑造奖励和训练代理来解释自然语言约束并安全地行动目前,我们在结构化句子的小词汇表上测试了这一点,但未来的工作将涉及将其扩展到更复杂的状态空间和语言。在使用语言来帮助训练强化学习策略方面也做了类似的工作然而,大多数这些,试图使用语言来解决稀疏奖励和长期信用分配问题。他们使用语言指导作为一种方式来指导探索过程中的培训和加速学习。在我们的工作中,我们专注于使用语言来约束政策,而不是简单地指导它。这样做的好处是,我们的语言约束被用来训练代理避免某些行为,并最终在环境中安全地行动。Saunders et al.(2017)和Prakash et al.(2019 b)已经在安全强化学习方面做了工作,他们使用一种方法来学习状态动作对和安全之间的映射。这对于避免在探索期间进入不良状态是有用的。然而,由于它仅使用状态动作对,因此可能难以使用这些方法来指定更复杂行为的另一方面,我们提出的方法可以根据代理行为建立结构化语言句子,并且有可能在应该被执行的行为方面实现更广泛的表达能力约束条件(我们的)形状奖励违反情况(%)更喜欢或避免。这是朝着构建能够解释语言并使用人类反馈学习安全行为的智能体迈出的一步。这项工作的一个限制是,它需要一种方法来自动生成数据来训练约束检查器,或者需要一个人来收集和注释数据。在足够复杂的情况下,自动化管理这样的数据集是不可行的,而是必须手动收集。如果我们想将这种方法扩展到更复杂的环境或现实世界的问题,注释必须由人类完成众包平台,如亚马逊这种类型的注释的另一个好处是,人类可以标记更复杂的注释,这可能太难使用手写规则来指定。未来的工作将包括众包技术,以及减少首先需要的人工注释量致谢该项目由美国赞助陆军研究实验室,合作协议编号W911 NF- 10-2-0022。本文件中包含的观点和结论是作者的观点和结论,不应被解释为代表美国政府表达或暗示的官方政策。美国政府有权为政府目的复制和分发重印本,尽管此处有任何版权注释我们还感谢苏尼尔·甘地在本项目期间进行的有益讨论。引用Amodei,D.; Olah,C.; Steinhardt,J.; Christiano,P.;Schul-man,J.; 和Man e′,D. 2016年。人工智能安全中的具体问题。arXiv预印本arXiv:1606.06565。阿加尔湾D.的; Chernova,S.;Veloso,M.;还有布朗宁B. 2009. 机器人从演示中学习的研究综述。机器人和自主系统57(5):469-483。Bahdanau , D.; Hill , F.; Leike , J.; Hughes , E.;Hosseini,A.; Kohli,P.;和Grefenstette,E.2018年通过奖励模型学习arXiv预印本arXiv:1806.01946。布拉万湾的R.; 陈,H.;泽特勒莫耶湖S.的; 还有巴兹莱R. 2009年强化学习将指令映射到动作。在ACL第47届年会和AFNLP自然语言处理第4届国际联合会议的会议记录中,82-90。计算语言学协会。Chen,中国粘蝇D. L.,和Mooney,R. 2011年《联合国宪章》。学习从观察中解释自然语言导航指令。第25届AAAI人工智能会议。Chevalier-Boisvert,M.;威廉斯湖;和S. 2018.开放式健身房的极简网格世界环境。https://github.com/maximecb/gym-minigrid.克里斯蒂安诺山口F.地; Leike,J.;Brown,T.;Martic,M.;Legg,S.;和Amodei,D. 2017.从人类偏好进行深度强化学习。神经信息处理系统的进展,4299Gandhi,S.; Oates,T.; Mohsenin,T.;和Waytowich,N.R. 2019. 使用人类反馈从单个视频演示中学习行为Gopnik,A.,Meltzoff,A. 1987.第二年分类的发展及其与其他认知和语言发展的关系。儿童发展1523-1531.戈亚尔,P.; Niekum,S.;和Mooney,R. J. 2019年。在强化学习中使用自然语言进行奖励塑造。arXiv预印本arXiv:1903.02020。Hermann,K.M.; Hill,F.;Green,S.;王,F.;Faulkner,R.;Soyer , H.;Szepesvari , D.; 恰 尔 内 茨 基 湾 M.;Jaderberg,M.;Tejanashin,D.;等,2017年。在模拟的3d世界中学习语言。arXiv预印本arXiv:1706.06551。Hosseini,M.; Horton,M.; Paneliya,H.; Kallakuri,U.;Homayoun,H.;和Mohsenin,T. 2019年a。具有循环稀疏连通层的稠密层的复杂度从O(n2)降到O(nlogn)在2019年第56届年度设计自动化会议上。ACM。Hosseini , M.;Paneliya , H.;Kallakuri , UttejKhatwani,M.;和Mohsenin,T. 2019年b.最小化可穿戴设备的二值化神经网络推理的分类能量。2019年第美国电气与电子工程师协会。Khatwani,M.;海尔斯顿D.的; Waytowich,N.;和Mohs-enin,T.2019.利用eegnet实现低复杂度多通道脑电伪影自动检测。2019年IEEE EMBS神经工程会议。美国电气与电子工程师协会。Leike , J.;Martic , M.;Krakovna , V.;Ortega , P. 一 、Everitt,T.;Lefrancq,A.;迪普明湖的O.; Deepmind,S。L. 2017. AI安全网格世界技术报告。MacMahon,M.; Stankiewicz,B.; Kuipers,B. 2006.走的谈话:连接语言,知识,并在路线指示行动。定义2(6):4。Prakash,B.; Horton,M.; Waytowich,N.;海尔斯顿D.的; Oates,T.;和Mohsenin,T. 2019年a。使用深度自动编 码 器 进 行 有 效 的 嵌 入 式 强 化 学 习 。 在 ACMProceedings of the 29th Edition of the Great LakesSymposium on VLSI(GLSVLSI)中。ACM。Prakash,B.; Khatwani,M.; Waytowich,N.;和穆赫辛宁,T. 2019年b.使用基于模型的架构和人工干预提高强化学习的安全性。佛罗里达人工智能学会第32届国际会议(FLAIRS-32)AAAI。Saunders,W. Sastry,G.; Stuhlmueller,A.;和Evans,O.2017.没有错误的试验:通过人为干预实现安全的强化学习。Schulman,J.; Wolski,F.; Dhariwal,P.; Radford,A.;和Klimov,O. 2017.邻近策略优化算法。arXiv预印本arXiv:1707.06347。萨顿河S.的; Barto,A. G.地;等,1998年。强化学习导论,第2卷。麻省理工学院出版社剑桥。Tsividis,P.一、Pouncy,T.;Xu,J.L.的; Tenenbaum,J.B.人; 和Gershman,S. J. 2017.雅达利中的人类学习。2017年AAAI春季研讨会系列。Waytowich,N.;Barton,S.L.的; Lawhern,V.;Warnell,G.2019年a。基于叙述的奖励塑造方法使用接地自然语言命令。Waytowich, N.的R.; Barton, S. L. 的; Lawhern , V.;Stump,E.; Warnell,G. 2019年b.将自然语言命令与星际争霸2游戏状态相结合,用于叙事引导的训练学习。CoRRabs/1906.02671。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功