强化学习机器人的安全部署策略及设计

24 浏览量更新于2024-01-02 收藏 771KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用16（2022）200105使用自稳定的强化学习机器人的安全部署Nanda Kishore Sreenivasa，Shrisha Rao*， b大卫河Cheriton School of Computer Science，University of Waterloo，Waterloo，ON N2L 3G1，Canadab印度班加罗尔电子城26/C班加罗尔国际信息技术研究所，邮编560 100A R T I C L EI N FO保留字：机器人安全强化学习自稳定A B S T R A C T在像视频游戏这样的玩具环境中，强化学习代理被部署并在其被训练的相同状态空间内运行。然而，在工业系统或自动驾驶汽车等机器人应用中，这一点无法保证。一个机器人可能会被一些不可预见的扰动推出它的训练空间，这可能会导致它进入一个未知的状态，它还没有被训练到向它的目标移动。虽然RL安全领域的大多数先前工作都侧重于确保训练阶段的安全性，但本文的重点是确保已经接受过安全空间内操作训练的机器人的安全部署。这项工作定义了一个条件的状态和动作空间，如果满足，保证机器人的恢复到安全独立。我们还提出了一种策略和设计，以促进这种恢复在扰动后的有限数量的步骤。这是实现和测试对标准的RL模型，结果表明，在性能上有显着提高1. 介绍虽然强化学习（RL）的一些早期工作仅限于简单环境（MannChoe，2011; Sutton Barto，&&1998），但最近的工作使用RL来解决现实世界中的问题，其中风险要高得多。在过去的十年中，RL已经进入机器人（Gu，Holly，Lillicrap，Levine，2017&），自动驾驶汽车（Sallab，Abdou，Perot，Yogamani，2017&），控制交通信号（Arel， Liu ， Urbanik ， Kohls ，2010& ）以及优化化学反应（Zhou，Li，Zare，2017&）以及许多其他实际用例。因此，可以看出，这种使用RL训练的机器人（我们称之为“RL机器人”）不能只关注性能;除了周围环境的安全外，它们还需要确保自身的机器人的安全性一直被认为是在工业和制造业中安全和高效使用机器人的主要瓶颈（El-Shamouty，Wu，Yang，Albus，Huber，2020&）。RL的安全性最近一直是人们感兴趣的话题阿奇亚姆，赫尔德，Tamar，Abbeel（2017）&提出了约束策略优化（CPO）作为一种信任域方法，它提供了近似约束满足。解决安全探索问题的一种不同方法是添加一个安全层，该安全层校正动作选择以在训练期间从不违反约束（Dalal等人，2018年）。这是通过基于由任意动作组成的过去轨迹的预训练来完成的。另一类解决方案使用李雅普诺夫函数来保证安全性，培训（Berkenkamp，Turchetta，Schoellig，Krause，2017; Chow，&Nachum，Duenez-Guzman，Ghavamzadeh，2018&）。最近的另一项工作使用QP求解器来确保安全性（Pham，Magistris，&Tachi-bana，2017）。Gehring Precup（2013）&提出了一种不同的方法，该方法基于从时间差异误差计算的可控性概念。人类示范也被用于限制勘探以确保安全（Thananjeyan等人，2020年）。最近，逆向RL已被用于学习人类对安全的感知和基于成功演示的硬安全约束（Scobee ，2020 ）。有关相关工作的扩展概述，请参阅García&Ferna'ndez（2015）关于安全RL的调查。所有这些工作的一个共同主题是，他们更注重确保培训期间的安全，这当然是一个重要的问题。Andersson Doherty（2019）&表明，当引入随机扰动时，在简单玩具环境中表现良好的流行RL算法表现不佳。此外，即使是经过安全探索方法（如模拟中的CPO）训练的机器人，在部署到现实世界中时，也无法完成某些任务（Ahn，2019）。 Dalal等人（2018年）写道：“安全是一个至关重要的问题：除非从部署的第一时间就彻底解决并确保安全操作，否则RL被认为与它们不兼容。”Chowet al.（2018）也同意：虽然大多数人都认为安全在部署中与在* 通讯作者。电子邮件地址：nandakishores1@acm.org（N.K.）Sreenivas），shrao@ieee.org（S. Rao）。https://doi.org/10.1016/j.iswa.2022.200105接收日期：2021年7月15日;接收日期：2021年11月29日;接受日期：2022年2022年7月26日在线发布2667-3053/© 2022作者。由Elsevier Ltd.发布。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsN.K. Sreenivas和S. 饶智能系统与应用16（2022）2001052+++（）（）（）（）在培训方面，部署安全方面的工作不多。这可能是因为一个隐含的假设，即受过良好训练的机器人被教导安全地探索，也将保持在部署的安全范围内。虽然这可能是真的，但由于环境中的一些不可预见的外部扰动，机器人可能无意中进入不安全状态。在这种情况下，机器人应该尽快恢复到安全状态，但它可能处于迄今为止看不见的状态，并且可能不存在机器人可以容易使用的学习策略Amodei等人（2016）将其定义为人工智能安全的挑战之一，他们讨论了代理发现自己处于与最初训练的空间不同“一般来说，当测试分布与训练分布不同时，机器学习系统不仅可能表现出较差的性能，而且还可能错误地认为它们的性能很好。更广泛地说，任何感知或启发式推理过程没有经过正确分布训练的智能体都可能严重误解其情况，从而有可能采取有害行动。我们正是关注安全性的这一方面：受过训练的RL机器人如何在受到干扰时快速恢复？关于RL及其应用的研究表明，使用RL的系统可能会受到瞬态干扰，特别是使用RL训练的机器人可能会在部署过程中遇到训练过程中没有看到的问题。我们illustrate，自稳定，分布式计算的经典范例，可以应用到RL来解决这些问题。我们首先定义一个状态空间上的可恢复性条件，如果满足保证机器人的安全返回时不安全。我们提供了一个RL机器人的原型，它在训练阶段学习每个动作的结果，即发生的状态变化。在部署过程中，当机器人进入不安全区域时，它会确定导航回安全区域所需的状态变化。机器人现在可以根据它在训练过程中学习到的动作和状态变化之间的关系，找到一系列有助于降低安全距离的动作。因此，建议的机器人模型可以稳定自己时推出的安全空间，由于一些意想不到的扰动。我们实现了这个模型，并在一个模拟的迷宫环境中进行测试，机器人导航迷宫到达其目标。当机器人处于不安全状态时，会有很高的负奖励。训练RL机器人部署有和没有自稳定。在这两种情况下，用相同的频率概率地模拟扰动。没有稳定的RL机器人可以从大约50%的扰动中恢复，而具有自稳定的RL机器人（缩写为RL SS）可以实现100%的恢复。还观察到，使用RL SS策略的机器人在5000次部署后的平均得分显著更高。此外，在基于Atari游戏Lunar Lander的模拟环境中实施了相同的策略。为了找出RL SS是否可以在没有系统安全约束的情况下获得更好的分数，不同的人工安全约束指导机器人-其目的是检验。对于已经训练好的RL机器人，增加了该方法的复杂性。有界预知屏蔽（ BPS ）（ Giacobbe ， Hasanbeig ， Kroening ，Wijk，2021&）是类似的，因为它修改了典型的DRL，以模拟每个动作的有限数量的步骤（H在大多数典型应用中，安全问题并不常见。但是，在这种方法中，在每个状态下，智能体都必须模拟几条未来路径（随着H呈指数增长），从而增加了显着的复杂性。此外，与该领域的其他作品一样，这种方法侧重于预防而不是恢复。与这些相比，我们工作的主要优点是，我们考虑了不可预见的外部扰动，这些扰动可能会将代理驱动到不安全的状态。此外，所提出的恢复策略是简单的（记录每个动作引起的状态变化，因此O1），并且可以在没有任何显着的计算开销的情况下学习。2. 自稳定在分布式计算中，Dijk-stra（1974）将自稳定性设想为系统的一种属性，即尽管缺乏集中控制，但系统仍可以返回到有效状态。等价地，自稳定系统是其当前状态仅取决于其先前k个输入（对于某个常数k）的系统。这样的系统一旦处理k个输入，就保证在故障自稳定也可以看作是非掩蔽容错的一个特例（Arora Gouda，1993;Jalote，1994&），其中系统能够从任意瞬时故障中恢复。它已经在需要算法的不同环境中找到了适用性，这些算法可以帮助系统在故障后恢复到有效状态我们用S表示所有状态的集合。对于任何谓词P，我们定义SP作为S中谓词P成立的状态的集合定义1. 我们定义了三个谓词，作为所有后续发展：1. L：S→{T，F}是一个合法性谓词，使得L（x）=T，如果x是S中的合法状态。所有合法状态的集合用SL表示。2. Z：S→{T，F}是一个安全谓词，如果x是安全状态，则Z（x）=TinS.安全状态SZ表示Z成立的所有状态的集合;SZ<$SL。3. Z′：S→{T，F}是一个非安全谓词，使得Z′=Z<$L。不安全态SZ′是Z不成立的那些合法态。安全状态是机器人应该运行的状态，不安全状态是机器人可以恢复到安全状态的状态。合法状态是指那些安全或不安全的状态，而非法状态是绝对最坏的情况，也不可能恢复。两个状态sl和sk之间的距离用d sl，sk表示。的精确的距离度量可以基于环境而变化到安全的距离，用dZ（x）表示，是给定状态x离安全有多近的度量;它是x和SZ中任何安全状态之间的最小距离（Bejan，Ghosh，Rao，2006&年）。右约束导致得分稍好d（x）={0x∈SZ（） ∈闪烁（一）“屏蔽 ” （ A l s h i e k h 等人， 2018）是最近的作品之一，加强RL的安全性。屏蔽是预先构建的，MDP和安全规范。它稍后会附加到RL代理Zmin d x，i xSZi∈SZ自稳定是机器人独立稳定并在导致不安全状态时覆盖该动作。这种屏蔽方法假设智能体对其轨迹具有唯一控制权。然而，与我们不同的是，他们不考虑意外的外部扰动，而这种扰动是护盾做不到的。这种方法和其他屏蔽方法的另一个共同的批评是，当状态空间很大时，它变得难以处理（Bastani，2021）。在模型预测屏蔽（Bastani，2021）中，智能体学习恢复策略以返回平衡。它模拟未来的几个步骤，以确定学习的策略是否会导致可恢复状态，如果不是，它将使用恢复策略回到平衡状态。这种恢复策略的训练和每个状态的模拟其本身通过有限的动作序列从不安全状态开始到安全状态，只要没有进一步的扰动。当机器人处于不安全状态x时，适当选择的动作将使机器人移动到状态x′，使得d Z x′

下载后可阅读完整内容，剩余1页未读，立即下载