SafeLife1.0：探索强化学习代理安全性的程序生成环境

145 浏览量更新于2023-12-04 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

SafeLife 1.0：探索复杂环境中的副作用卡罗尔湖温赖特和彼得·埃克斯利Partnership on AISan Francisco，CA94105carroll@partnershiponai.org，pde@partnershiponai.org摘要我们提出了SafeLife，一个公开的强化学习环境，测试强化学习代理的安全性它包含复杂的、动态的、可调的、程序生成的级别，这些级别有许多不安全的机会。代理商的评分既要看他们最大化显式奖励的能力，也要看他们安全操作而不产生不必要副作用的能力。我们训练代理使用近端策略优化来最大化奖励，并在一套基准水平上对其进行评分。由此产生的药物是性能良好的，但不安全-它们往往会在其环境中引起大的副作用-但它们形成了一个基线，未来的安全性研究可以根据该基线进行衡量。1引言近年来，强化学习（RL）的安全问题受到了越来越多的关注（参见Garcıa和Fer na ndez 2015; Amodei et al.2016; Orteg a and Maini 2018）用于调查）。人们已经认识到，RL方法的能力在许多方面超过了它们的可预测性、鲁棒性、无意外副作用和完全可控的能力虽然所有这些问题的工作都在进行中，但几乎没有什么环境可以组织和衡量这些问题的进展。在大多数情况下，强化学习能力研究的前沿与安全性是分离的，除非安全性问题根本无法完成任务。我们从机器学习的其他领域了解到，定义良好的基准对于了解已经发生的进展和激励它都非常随着强化学习系统变得越来越先进，越来越接近于在半约束或开放式环境中部署然而，当RL安全1 突出的例子包括 MNIST 上的分类性能（ Lecun et al.1998 ）， ImageNet （ Deng 等人， 2009 年），开关板（Godfrey，Holliman和McDaniel 1992），或SQUAD（Ra-jpurkar 等人， 2016 ） ; 在 Penn Treebank 上进行精确建模（Prasad et al. 2008）;或Arcade Learning Environment（Belle-mare et al. 2013）或MuJoCo（Todorov，Erez，and Tassa 2012;Duan et al. 2016）中的评分。参见（Eckersley，Nasser，andothers 2017）更系统的调查。问题是衡量的，他们往往是在小手工制作的环境（例如，（ Leike et al.2018; Milli et al.2017; Shah et al.2019）），它们的丰富性相应地受到限制，并且可能无法保证可推广的解决方案（安全问题往往恰恰是那些难以预见的问题，因此未来的安全基准必须包括对各种重要场景下的紧急行为的测试本文试图通过介绍SafeLife，一个简单的物理和复杂的，紧急的动态环境的家庭，以解决目前的安全基准的局限性SafeLife规则允许一组丰富多样的级别，可用于检查和测量强化学习的安全性。我们首先关注避免负面副作用的问题，尽管我们计划在未来的SafeLife版本中将我们的研究扩展到其他安全问题。SafeLife满足了一系列我们认为对于安全性基准，特别是对于副作用研究很重要的要求。首先，环境具有动态性，可以产生大而有趣的效果。这些效果不是特别的，而是内置在环境定义本身中。第二，为了便于研究，可以只使用适量的计算来训练代理。单核CPU上的代理可以轻松地每秒进行数千步和观察，并且代理可以在一百万个时间步内完成其基本任务（不安全）。第三，环境使用程序生成的级别，具有许多可调的特性和挑战。这是至关重要的，允许一组不同的训练环境，不会导致代理过度适应特定的级别布局或目标结构。最后，我们认为SafeLife为人类玩家提供了一个有趣和有趣的挑战。在第2节中，我们总结了SafeLife环境的规则，包括环境我们在第3节中描述了如何第4节详细介绍了用于基准试剂的不同类型的水平，以及它们测试的副作用安全性问题的不同方面。在第5节中，我们使用邻近策略优化来训练和测试基线代理但是，我们在基线性能中包含了一个非常简单的版权所有© 2020本文由其作者。在知识共享许可署名4.0国际（CC BY 4.0）下允许使用。它只能在有限的情况下产生安全行为我们希望未来更安全的算法能够在此基础上改进。最后，我们在第6节中对未来的工作进行了展望。附录包括SafeLife程序级生成代码和基准测试结果表的详细信息。SafeLife是开源的，可在https上公开获取//github.com/PartnershipOnAI/safelife的网站。虽然我们试图在本文中提供最重要的装备和培训方面的完整说明，但代码本身2应被视为明确的环境描述。2游戏规则SafeLife 1.0环境由网格世界设置中的代理（图中的“”）以及“生命”（）、墙状屏障（）和关卡出口（）组成智能体可以在四个基本方向中的任何一个方向上移动，并且可以在每个时间步添加或删除相邻的个体生命点。智能体的目标是在突出显示的目标单元格（蓝色）中创建新图案，或者从棋盘上删除不需要的点图案（红色）。一旦代理完成了其目标，它应该继续到级别出口。SafeLife的挑战，以及它作为安全基准的原因，是董事会非常动态。生命的每一个点都像一个细胞自动机一样相互作用康威的生命游戏（Gardner1970）是一个简单的二维元胞自动机系统. 每个单元格可以是活的或死的，在每个时间步，整个单元格网格根据以下规则更新：任何有三个活邻居的死细胞都是活的;任何少于两个或多于三个近邻的活细胞死亡（就像是由于种群不足或过度增殖）;• 每隔一个细胞保持其先前的状态。每个细胞的“邻域”都与其摩尔邻域相一致，摩尔邻域由直接围绕中央细胞的8个细胞组成，包括对角线。这些简单的规则创造了一系列令人惊讶的有趣行为，如静物图案，振荡器，在网格上移动的滑翔机和宇宙飞船，以及可以孕育永无止境的新生命流的枪和喷气机。康威当代理在SafeLife中建立和破坏模式时，这些模式将根据上述规则以复杂和令人惊讶的方式发生变化。3聪明的代理商将使用2截至本出版物，SafeLife为1.0版本3代理人还如果没有这个，每次一个智能体孤立地创造一个生命点，它就会在智能体有机会创造另一个生命点之前由于人口不足而死亡。图1：SafeLife环境的一个简单级别，包含agent（）、spawner（）、crates（）和dots of life。智能体的目标是删除不需要的一旦智能体满意地完成了它的目标，它就可以通过关卡出口（）离开。请注意，所有级别边界都是环绕的;它们具有环形拓扑。动力学对他们有利，以更有效地完成他们的目标;不太聪明的代理将根本不能创建复杂的模式，将其限制为简单的稳定形式和相应的较低分数。我们扩展了Game of Life的树是固定的活细胞，它们对周围的生命有贡献，但自身不会死亡。Crates（）就像可以推动的墙。它们允许代理人建立障碍或围栏，以防止不必要的生活模式的传播有些生命细胞是硬化的（），不能直接通过代理操作删除，使模式操作复杂化。最后，spawner（）将在每个时间步随机创建新的活邻居。尽管它的直接影响是局部的，但它可以产生比其局部邻域传播得更远的图案单个产卵器将动态从确定性改变为随机性，并且极大地增加了代理可访问的状态空间。细胞也可以有不同的颜色。每当一个新细胞诞生时，它都会继承大多数父母的颜色。颜色可用于跟踪哪些单元格是由代理创建的，哪些是预先存在的。在红细胞的情况下，它们也被用来标记应该被去除的图案。图1显示了一个简单的SafeLife关卡，其中包含许多复杂的游戏元素智能体必须尝试填充蓝色目标并移除红点，但右下角的产卵器将倾向于发出自己的破坏性模式。最佳的代理行为是将板条箱推到离产卵器更近的地方，从而将其围起来并限制其影响范围，然后在安全的情况下填写蓝色目标。一个智能体智能体每从棋盘上移走一个红点就得一分，每在蓝色目标上增加一个新的生命点就得三分。同样，代理··−≪SDics是随机的或混沌的，就像SafeLife中的情况一样，51如果红点被添加或目标模式被中断，则会失分形式上，让V（s）测量板状态s的点值。代理人在时间步t的即时奖励将是Rt（st + 1，st）= V（st + 1）V（st）. 此外，代理人到达一个级别的出口得到一个额外的点4代理需要创建或破坏的模式通常与中性绿色模式交织或相邻，如图1所示。中性模式可能会也可能不会阻碍智能体完成任务，但它们往往是脆弱的;鲁莽的智能体往往会破坏它们。我们的环境的目标是测试这种鲁莽：智能体是否可以在没有被明确告知不要这样做的情况下学会避免破坏其环境？如果不是，未来的代理架构可以实现这一点吗？对于这个安全性测试来说，中性模式对代理的奖励函数是真正中性的是至关重要的。通过明确地惩罚我们测试的副作用来教导代理避免这种环境中的副作用是微不足道的。然而，避免副作用的问题是，它们往往比人们可以列举的要多得多。一个安全的代理人必须学会避免副作用一般没有预知我们的特定测试标准。3测量副作用副作用是难以正确定义的微妙现象为了充分说明一个行动者的影响是什么，必须建立因果关系和道德责任理论，包括与其他行动者相互作用的因果关系和道德责任理论5这些问题远远超出了本文件的范围我们这里的任务要简单得多：我们希望定义一个启发式的副作用测量，它在SafeLife环境中有意义，并与人类的直觉保持一致。根据Krakovna et al.（Krakovna et al.2018年），我们根据基线状态定义了基准SafeLife副作用测量-影响的状态遍历，我们通过从时间t之后的n= 1000个状态的序列中采样来近似该分布。7安全生活中的模式倾向于崩溃到稳定或振荡状态，或者它们在不超过1000的短时间尺度上无序地生长和再生，因此不行动轨迹的遍历性要求很容易满足。然后，我们同样在智能体轨迹结束同时采样n个t. 这产生了行动和不行动分布，而不是行动和不行动状态。每个分布都是从它自己的长度为t + n的单个轨迹中采样的，无论是否有代理交互。请注意，这个基线在计算上是昂贵的，当t被认为是一个事件的结束时最有意义;在训练过程中，还有其他基线状态可能更适合惩罚副作用。然而，每一条底线都有它的缺点起始状态基线不需要计算，但它将所有自然动力学计算为副作用。单一状态的不作为基线更直观地吸引人，但它需要完全模拟，在混乱的环境中不适用，并且可能激励代理人抵消他们的2018年）。最后，逐步不作为基线（Turner，Hadfield-Menell和Tadepalli 2019）可用于持续（而不是偶发）环境，但它可能会使代理人在安全要求他们采取行动时倾向于不作为。[8]寻找最佳的训练基线是一个尚未解决的问题，我们将其留到以后的工作中。偏差度量由于我们使用状态分布作为基线，因此必须使用分布之间的距离度量作为偏差度量。为了做到这一点，我们计算分布中的平均细胞密度，并找到它们之间的土方距离（Rubner，Tomasi和Guibas 1998）。让 .比较-和状态之间的偏差度量基线状态1ρα（→x;Ds）=|D|Σs∈Ds1如果s（→x）=α（1）0否则当在情景模拟环境中测试副作用时，最有意义的是将基线状态定义为如果代理不采取任何行动就会发生的状态。该状态很容易计算：为了找到时间t处的基线状态，只需要推进初始状态的副本。表示环境中位置→x处细胞类型α的期望密度，其中期望值是在状态分布上获得的S. 设dx（x→x）是环境网格上的空间度量，定义为max（dx）= 1。具体来说，我们状态S0总共T个时间步长。然而，当dynam-d（n→x）=tanh（1n→xn）（2）不行动状态可以具有不同值分布6而不是把自己局限于一个单一的国家，我们采取将基线作为该分布的整体假设没有代理交互的动态近似为[4]在某些层面，只有当智能体完成了其目标的一部分时，出口才会打开5SafeLife 1.0不包括多代理任务，但环境设计为易于扩展到更复杂的场景。[6]一个混沌但确定性的环境对于每个时间t都有一个明确定义的不作为基线状态，只要起始状态被指定为任意精度。然而，如果在起始状态中存在任何不确定性，那么在时间t处的不活动状态可以呈现许多发散的不同可能性。[7]给定n的选择是否足以达到这一目的，既取决于环境、环境与遍历性的偏离程度，也取决于对样本计算的统计量。SafeLife中的非遍历性程度在某种程度上受到有限的电路板尺寸的限制，这防止了（例如）像“puffers”和“rakes”这样的罕见结构在副作用分布中引入非遍历性奇点。当安全生命板上没有生成随机元素时（即，没有“产卵者”），大多数分布将倾向于由初始模式的后期阶段演化主导，向平凡遍历的静物和振荡器演化。8例如，如果一个智能体正在开车，并且他们的“无副作用”基线是他们在最后一个时间步中停止行动的基线，那么他们可能会得出结论，最不具破坏性的事情就是把手从方向盘上拿开Xǁ ǁα×√其中→x1是→ x的L1范数（曼哈顿距离）。然后，我们将分布之间的偏差度量定义为每种单元类型的密度之间的土方机距离由规则间隔的墙建造，以保护电路板的特定区域免受外部干扰。10同样，板条箱可以被推到战略位置，以防止联合国。dEMD（Ds1，Ds2）=EMD（ρα（Ds1），ρα（Ds2）;dx）的。（三）控制增长。我们期望增加更多的动态和约束会使一些任务更容易强化当两个分布中的总密度不相等时，额外的密度被添加（或删除），并带有单位惩罚。虽然有些特别，但这种推土机偏差测量具有几个期望的特性：当环境中的物体移动短距离时，它导致短偏差;创建新物体与从很远的地方运输物体具有相同的偏差;具有相似密度的随机（或混沌）场之间的偏差往往很小;并且计算起来相当简单当动力学是确定性的时，两个不同的不活动分布之间的地球移动器偏差恰好为零，因为确定性设置中的所有不活动分布完全相同。在具有来自n = 1000个状态的样本的随机设置中，偏差大约是随机单元的平均数量的10%。这种差异像1/n一样减小，与每个细胞密度的平均值的统计不确定性一致。基线和偏差测量的选择一起定义了SafeLife中基准副作用的方法请注意，这应该只用于测试代理和算法。如果基准测试方法同时用于训练和测试，那么经过训练的代理将过拟合测试标准，并且不会解决更一般的安全问题。特别地，在训练期间使用的任何副作用惩罚必须对特定颜色的细胞的副作用没有初步偏见。这将是欺骗，例如，明确惩罚代理与脆弱的绿色细胞的相互作用，而允许与黄色细胞在强大的产卵配置（见图11）。 2B在下一节）。相反，代理人必须自己学习这些行为更难逆转，例如，通过对状态可逆性的明确激励。4训练和基准测试的级别训练级别使用程序生成的模式（参见附录A）来形成创建和销毁任务。通过产生或多或少具有潜在副作用的复杂模式，任务的难度可以有所不同训练水平可以包括静物，振荡模式和随机区域，可能一次全部为了促进可调难度，程序生成过程可以定制为包括和排除不同的环境特征，并在生成的电路板上改变其频率。最直接地，可以增加所生成的图案的密度水平和复杂性。更大、更复杂的模式通常更难创建和销毁，而当模式紧密地结合在一起时，单独修改模式会更加困难。在某些情况下，向电路板添加更多功能会降低学习代理（或它们更容易学习），即使这在人类游戏中并不明显，因为在其他RL设置中已经发现了类似的新兴困难模式对于第一个版本，我们选择中等难度的基线训练水平参数，以便产生有趣的代理行为和丰富的副作用。对于未来的版本，应该可以根据经验测量许多参数组合的训练水平难度，并根据这些实验的结果提供难度设置和训练课程。测试副作用的基准水平是固定的，每个水平类型有100个水平。每个基准水平都是按程序生成的，因此可以为训练生成类似的水平。请参见图2，以示例不同难度下不同任务的基准水平。通过我们的基准水平，我们希望测试以下代理能力。i. 智能体能否在保持静态环境的同时实现其目标？代理被放置在具有两个主要任务之一的环境中（见图1）。2a）。它的评分是根据它完成任务的能力和保存现有静物图案的能力来ii. 智能体能否在随机环境中安全运行？在这个测试中，智能体必须再次创建或销毁静物图案，但这次环境中还包含围栏内的产卵细胞。随机动力学的存在是否会破坏其区分和避免副作用的能力？在随机环境中，基于可达性的影响度量变得特别困难，因为几乎所有的访问状态都是唯一的。iii. 药物能区分短期和长期副作用吗？最后一组测试环境将智能体置于振荡模式和随机模式之间，除了到达水平出口外没有目标（见图11）。2c）。随机模式是鲁棒的，如果受到干扰，它们会重新生成，而振荡模式则不是。当给予选择时，安全代理应该选择干扰前者而不是后者。这需要有显著的预见性，因为每种类型的代理人的直接局部效应是相似的。所有基准测试级别都使用26 26网格，并且都要求代理在到达级别出口之前执行至少50%的任务后一个标准允许代理成功完成基准测试级别，同时避免需要不安全行为的子任务。每个基准级别报告原始分数-代理在完成任务时收到的分数-和安全分数-绿色单元的土方机距离偏差测量，如第1.2节所定义。3.困难，而不是增加。例如，“围栏”可以10根据环境的规则，新的生命点只有在[9]之所以选择L1范数，仅仅是因为智能体的运动被限制在四个基本方向上。然而，这并不是一个重大的选择。当有三个邻居活着的时候。如果在一个区域的周边每隔三个细胞放置一堵墙，那么该区域内的任何模式都无法在外部形成新的生命。(a) 静物创作（b）随机性和破坏（c）振荡器图2：基准水平。左：一个相对容易的任务，涉及静物图案创作。代理应尝试填写蓝色目标，而不修改绿色单元格。许多代理商将安全地完成这一水平，甚至没有副作用的惩罚。中心：在随机发生器存在下的模式去除代理应该能够识别它自己对绿色模式的副作用，同时忽略动态生成的黄色模式。右：测试代理在尝试导航到关卡出口时区分短期和长期副作用的能力。绿色细胞组成脆弱的振荡模式，而黄色细胞是随机混沌模式的一部分如果代理人中断了混乱的模式，它很快就会重新形成，并消除代理人入侵的任何迹象。一个安全的代理应该有一个强烈的偏好中断黄色而不是绿色的模式。5基准座席性能训练过程我们使用邻近策略优化（Schul-man et al.2017年，他获得了最大的回报。这些特工并不安全;他们的训练不包括任何安全激励措施，因此他们经常采取不安全的行动也就不足为奇了。尽管如此，当安全与他们的目标一致时，他们偶尔会采取安全行动结果汇总在表1中，示例视频可以在https：//github.com/PartnershiponAI/safelife-videos的网站。除了天真的不安全代理之外，我们还使用起始状态基线来训练具有非常简单的副作用影响惩罚的代理。选择这种惩罚部分是因为它不需要让代理访问其环境动态的完整模拟。[11]我们对每个偏离其初始状态的细胞惩罚该代理λ，[12]除了包含代理本身或其目标的细胞。[13]虽然简单明了且易于计算，但我们并不期望它在动态设置中表现良好SafeLife环境的两个特点使培训复杂化。首先，与大多数环境不同，代理11全环境模拟适用于计算副作用性能评分（第3节），但不适用于包含在智能体的训练过程中。然而，研究基于模型的RL方法可能是有希望的，在该方法中，代理学习构建自己的近似环境模拟（Schrit- twieser et al. 2019年），因为这些可以允许更丰富的学习估计的副作用。12只有当单元格从其起始值发生变化时，代理才会收到惩罚。相反，如果代理将单元格重置为其初始值，则将贷记金额λ。奖励几乎完全取决于环境的当前状态：智能体每次完成一个目标时都会获得奖励，但如果其完成被取消，则会失去同等的奖励。一个特工成功的越多，他失去的就越多。这使得探索困难与大折扣因素，因为代理人的折扣回报将包含收益和损失，往往平衡。较小的折扣因子会让代理人短视地关注当前收益而不考虑未来的损失，但它们也会导致代理人过度积极地防范眼前的损失而不考虑未来的收益，这通常会导致代理人“陷入在初始超参数探索之后，我们发现折扣γ = 0。97很好地缓解了这两组问题，但代理的性能对参数敏感，特别是在另一个复杂的特性是SafeLife包含一个主要任务（模式创建/销毁）和一个次要任务（到达关卡很难在这些任务上设置相对奖励，以便智能体学会在单个事件中完成每个任务。然而，通过将环境视为持续的而不是偶发的，我们可以训练智能体尽可能有效地完成任务，然后在当前级别的机会减少时进入下一个级别。这样，达到下一个级别的激励与代理在其主要任务上的表现成比例。SafeLife的物理特性完全是局部的，并且其模式是几何不变的，因此它非常适合卷积神经网络。我们的代理使用4层网络，其中3个卷积层和1个密集层14来近似和学习它们的策略和值函数。我们开始培训时没有达到最低性能要求，13包括代理人目标的副作用惩罚减少这些目标的奖励函数，所以它不应该影响代理14卷积层的滤波器大小为5、3和3;步长2、2和1;以及32、64和64个输出通道。致密层包含512个单元。1.010001.00.88000.80.66000.60.44000.40.22000.20.00 1e62e63e64e65e6时间步长00 1e62e63e64e65e6时间步长0.00 1e62e63e64e65e6时间步长图3：PPO代理训练创建任务（蓝色）和销毁任务（橙色）的典型示例请注意，训练表现因情节而异，因为级别是按程序生成的，难度也各不相同阴影区域显示平均趋势线周围的一个标准差性能是以完成任务的分数来衡量的，而副作用则是使用推土机距离影响测量来报告的（第12节）。3）通过潜在受影响模式的数量进行归一化。楼层在t = 500，000（或者对于创建任务，t = 1，000，000）时，我们开始慢慢增加性能阈值，最终要求代理至少完成每个级别的30%。15个。同样，具有影响惩罚的智能体在训练过程中会看到他们的惩罚慢慢增加到最大值。结果代理销毁任务明显比创建任务容易，但在两种情况下，智能体都在200万个时间步内证明了能力。如果有足够的时间，即使是一个完全随机的代理也可以成功完成破坏任务，但是经过充分训练的代理将能够更有效地采取行动。在每次训练运行开始时，安全分数略有提高-随着代理学会专注于其目标，副作用下降了30-50%-但性能和效率的请注意，一个完全安全的代理应该有一个副作用得分为零;这些代理是远离这一点。安全性能不佳主要有两个原因。首先，代理人并没有得到完美的优化;他们经常犯错误，有时这些错误会扰乱董事会。其次，更重要的是，代理人的奖励往往与安全标准不一致，因此代理人会愉快地忽略安全问题。图2c是一个很好的例子：通过脆弱的绿色模式比通过健壮的黄色随机模式要容易得多，因此优化奖励的智能体将破坏绿色模式以最有效地达到其目标。在某些情况下，最优策略将避免中断，因此参与安全行为，但这远非典型。我们在附录B中记录了所有基准水平的药物性能和副作用图5和图6分别显示了静物创建和移除任务的性能和安全性分布，具有不同的副作用影响惩罚λ。 λ = 1的值。0似乎提供了一个很好的15如果智能体在t=1000之前没有完成一个级别，则假设其被卡住并且情节结束。与找到出口的代理不同，被卡住的代理无法获得后续剧集的折扣奖励。这两个任务中的每一个的性能和安全性之间的折衷，尽管安全性能仍然相当差。在较大的惩罚下，代理人倾向于不采取行动，永远不会完成他们的目标。具有起始状态副作用的代理在具有随机元素的环境中表现得更差。在这些环境中，简单的影响惩罚在每个情节开始后不久就会产生大量的负面奖励，这阻碍了代理人开始新的情节，并且惩罚的随机性淹没了积极的奖励信号并破坏了性能。启动状态影响惩罚也鼓励代理人将环境返回到其启动状态，即使这违背了状态的自然动态。当出现一个空的产卵元素区域时，这样的代理宁愿摧毁产卵器（），也不让它们创建新的模式。6结论和下一步避免负面影响是强化学习和AI安全中一个尚未解决的大我们在这里介绍的环境并不试图指定一条通往一般解决方案的直接路径，但是，与我们的基线代理一起，它确实可以作为衡量进展的标尺。有几个很有希望的研究途径可以实现这一进展相对可达性（Krakovna et al.2018）和可达到的效用保存（Turner，Hadfield-Menell和Tadepalli 2019）都提出了副作用影响措施，通过这些措施，代理可以学习减轻其影响，尽管在将其应用于具有大动态状态空间的环境之前需要进一步研究。反向强化学习有可能教会代理人人类价值观（Christianoet al. 2017年），包括保护和保护的价值我们相信，安全生活环境中的复杂动态将挑战这些和其他方法，突出它们的故障模式，并最终使它们更加安全。环境目标的几个方面仍然需要在后续版本中解决。例如，确保标称难度设置在一系列体系结构上为代理正确排序，并将不同的难度设置分开。座席性能情节长度副作用为业绩和安全方面的限制而设立的邪教组织，既有利于培训，又能进行更细致的业绩评估。SafeLife环境不必仅限于副作用问题;它也可以而且应该用于解决其他安全问题。程序生成和紧急游戏使其非常适合研究安全探索（Pecka和Svoboda 2014）和对分布转移的鲁棒性（Amodei et al. 2016），例如。它也可以用作元学习的测试平台（Wang et al. 2016）：复杂的模式是由更简单的组件构建的，智能代理需要学习如何快速地以新颖的组合方式将这些组件组合在一起我们对使用SafeLife进行多智能体游戏感到特别兴奋，并期待在合作，半合作和竞争环境中出现许多有趣的行为。致谢我们要感谢 Victoria Krakovna 、 Santiago Miret 、RohinShah、Alex Turner、Neale Ratzlaff、Jonathan Blow和Dylan Hadfield-Menell对SafeLife环境的预发布版本进行了游戏测试并提供了反馈。感谢Deborah Raji对本文草稿提出的有益意见。引用Amodei，D.;Olah，C.;Steinhardt，J.;Christiano，P.;Schul-man，J.; 和Ma ne'，D. 2016年。AI安全的具体问题。arXiv预印本。arXiv：1606.06565。Bellemare，M.G.地; Naddaf，Y.;Veness，J.;保龄球，M。2013. 街机学习环境：一个总代理商的评估平台.Journal of Artificial Intelligence Research47：253-279.Christiano，P.; Leike，J.;布朗，T. B.人; Martic，M.;Legg，S.;和Amodei，D. 2017. 从人类偏好进行深度强化学习。神经信息处理系统进展，4299-4307。邓，J.;董，W.;Socher，R.;李湖，澳-地J.道：李，K.;和Li，F.F. 2009. Imagenet：一个大规模的分层图像数据库。IEEE计算机视觉和模式识别会议248-255。段，Y.;陈X.;Houthooft，R.;Schulman，J.;还有阿比尔P. 2016年。深度强化学习的连续控制基准Eckersley，P.;Nasser，Y.;等人2017年。 EFF AI进度测量项目。https：//www.eff.or g/es/ai/metrics; retrieved 2019-11-10.Eysenbach，B.;Gu，S.;Ibarz，J.;和Levine，S.2018年不留痕迹：学习重置安全和自主的再学习。国际学习代表会议。Garcıa，J.，和Ferna'ndez，F. 2015 年。一个安全的强化学习。 Journal of Machine LearningResearch 16（1）：1437-1480.Gardner，M. 1970.数学游戏：约翰康威的新纸牌游戏“生活”的奇妙组合。《科学美国人》223：120-123。Godfrey ， J. J.; Holliman ， E. C.的 ; 和 McDaniel ， J.1992. 交换台：用于研究和开发的电话语音语料库。在[Proceedings] ICASSP-92 ： 1992 IEEE InternationalConferenceonAcoustics ， Speech ， andSignalProcessing，第1卷，517-520中。美国电气与电子工程师协会。Krakovna，V.;Orseau，L.;Kumar，R.;Martic，M.;还有莱格S. 2018.使用逐步相对可达性惩罚副作用。arXiv预印本。arXiv：1806.01186。列村，Y.;博图湖; Bengio，Y.;和Haffner，P. 1998. 应用于文档识别的基于一致性的学习 Proceedings of theIEEE86（11）：2278-2324.Leike，J.;Krueger，D.;Everitt，T.;Martic，M.;Maini，V.;和Legg，S. 2018年基于奖励模型的可扩展代理对齐：研究方向。arXiv预印本。arXiv：1811.07871。Milli，S.;Hadfield-Menell，D.;Dragan，A.;Russell，S.2017.机器人应该服从吗？在第二十六届国际人工智能联合会议的会议记录中，4754Ortega，P.一、和Maini，V.2018年建筑安全人工智能：规范、鲁棒性和保证。媒体：https://link.medium.com/shsgiGQmf1。佩卡，M.，和Svoboda，T.2014年。强化学习的安全探索技术概述。在霍迪基，J。，ed.，自治系统的建模与仿真，357-375。陈：施普林格国际出版社.Prasad ， R.;Dinesh ， N.;Lee ， A.;Miltsakaki ，E.;Robaldo，L.; Joshi，A.;和Webber，B. 2008.宾州话语树库 2.0 版。第六届语言资源与评估国际会议（LREC）Rajpurkar，P.;张，J.;Lopyrev，K.;和Liang，P.2016年。Squad：100，000+文本机器理解问题。arXiv预印本。arXiv：1606.05250。Rubner，Y.;Tomasi，C.;和Guibas，L.J. 1998年图像数据库应用程序的分布度量。第六届计算机视觉国际会议（ IEEE Cat.No.98CH36271 ）。出版社： NarosaPublishingSchrittwieser，J.;安东诺格鲁岛;Hubert，T.;Simonyan，K.;Sifre ， L.;Schmitt ， S.;Guez ， A.;Lockhart ，E.;Hassabis，D.;Graepel，T.;等人2019年。掌握雅达利，围棋，国际象棋和将棋通过规划与学习模型。arXiv预印本。arXiv：1911.08265。Schulman，J.;Wolski，F.;Dhariwal，P.;Radford，A.;和Klimov，O. 2017年。邻近策略优化算法。arXiv预印本。arXiv：1707.06347。Shah，R.;Krasheninnikov，D.;Alexander，J.;Abbeel，P.; 和Dragan，A. 2019年。世界现状中隐含的偏好arXiv预印本。arXiv：1902.04198。2017.建立一个工作游戏的俄罗斯方块在康韦的游戏的生活。代码高尔夫栈交换：https://codegolf.stackexchange.com/q/11880。Todorov，E.;Erez，T.;和Tassa，Y.2012年。Mujoco：基于模型控制的物理引擎。2012年IEEE/RSJ智能机器人与系统国际会议，5026- 5033。特纳，A.M.; Hadfield-Menell，D.;和Tadepalli，P.2019年。保守党机构。arXiv预印本。arXiv：1902.09725。×≤{∈}}{∈|{∈|}O←∝α←王建新; Kurth-Nelson，Z.; Tirumala，D.; Soyer，H.;Leibo，J. Z.; Munos，R.; Blundell，C.; Kumaran，D.;和Botvinick，M. 2016年。学习强化学习。 arXiv预印本。arXiv：1611.05763。Wolfram，S.2002年。一种新的科学。Wolfram Media.附录程序化的一代我们介绍了一种新的算法来生成不同密度和复杂度的静物图案，这里列出的算法1。在《生命的游戏》中，静物是一种模式，从一个时间步到下一个时间步不会改变：每个活细胞都有2或3个活邻居，没有死细胞正好有3个活邻居。该算法从一个（可能是空的）SafeLife板开始在每次迭代中，它选择一个单元格，如果董事会前进一个时间步，这个单元格就会改变。然后，它尝试改变该细胞的邻居之一，以减少静态生命违规的总数，其中给定细胞的违规数量被定义为需要切换到存活或死亡以保持中心细胞在下一个时间步长中不变的相邻细胞的数量。算法1程序化生成静物图案设B是一个m nSafeLife板。令s = mn。让T指定温度。令η指定非空单元格的目标最小密度。设I=（i，j）N2i< m;j

下载后可阅读完整内容，剩余1页未读，立即下载