通过风险敏感约束实现安全的强化学习

56 浏览量更新于2024-02-03 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文通过约束条件风险值实现安全的强化学习英成阳1，周新宁1，苏航1，2，3，董艳1，陈宁1，朱军1，2，31北京自然科学研究院人工智能研究所计算机科学技术系，清华大学清华-博世联合机器学习中心2彭城实验室3清华大学-中国移动通信集团有限公司联合研究所ycy21@mails.tsinghua.edu.cn，{coderlemon，sproblvem 17} @ gmail.com，{suhangss，ningchen，dcszj} @ mail.tsinghua.edu.cn摘要虽然深度强化学习（DRL）已经取得了巨大的成功，但由于过渡和观察的内在不确定性，它可能会遇到catastrophic失败。现有的安全强化学习方法大多只能处理迁移扰动或观测扰动，因为这两种扰动影响的是Agent的不同部分;此外，流行的最坏情况返回可能导致过度悲观的为了解决这些问题，我们首先从理论上证明了转移扰动和观测扰动下的性能退化依赖于一个新的度量值函数范围（VFR），它对应于最佳状态和最差状态之间的值函数间隙.在此基础上，采用条件风险价值（CVaR）作为风险评估指标，提出了一种新的CVaR-Proximal-Policy-Optimization（CPPO）强化学习算法，通过将CVaR保持在给定阈值之内，将风险敏感约束优化问题实验结果表明，CPPO在MuJoCo的一系列连续控制任务中获得了更高的累积回报1介绍深度强化学习（DRL）已经在各种任务上取得了巨大的成功，从玩Atari游戏[Mnih et al. ，2015]和Go [Silver etal. ，2016]在现实世界中操纵复杂的机器人[Kendall etal. ，2019]。然而，由于过渡和观测的内在不确定性，这些方法可能导致灾难性的故障[Heger，1994; Huang etal. ，2017]，即，代理可能会收到明显的负面结果。这种现象归因于几个因素。一个是传统的DRL仅以累积回报最大化为目标，而没有考虑经济增长的随机性[Garcıa和Fernandez，2015]，这可能导致严重后果，*通讯作者。风险，从而使政策面临风险。这可以在自动驾驶的情况下简要说明，其中代理可能试图通过危险行为来实现最高奖励代理可能沿着曲线的边缘行驶，以便更快地到达目的地，而不考虑潜在的危险。此外，随机干扰或对抗性干扰可能会干扰智能体的观察，导致显著的性能退化[ Huang et al. ，2017]。在安全强化学习（安全RL）方面已经做出了各种努力，以处理过渡不确定性和观察不确定性[H e ge r，1994;Garcıa 和 Fern a'ndez ， 2015; Zhangetal. ， 2020] 。Garcıa和Ferna' ndez（2015）对安全RL进行例如，鲁棒近似动态规划[Tamar et al. ，2013]，基于投影不动点方程，考虑如何求解鲁棒MDP [Wiesemann et al. ，2013]，以近似地提高代理在过渡不确定性下的鲁棒性。此外，对观测干扰也有一系列的工作要做.例如，最近的一些工作将观测扰动公式化为状态对抗马尔可夫决策过程（SA-MDP），并提出了针对观测扰动的鲁棒算法。然而，这种处理过渡不确定性和观测不确定性的工作有一些主要的缺点。首先，由于考虑到最坏情况的结果[Heger，1994]，这些方法可能会导致过于悲观的政策，这将过于关注最坏的情况，并拥有较差的平均性能。此外，尽管智能体可能同时遭受转变不确定性和观测不确定性，但实验工作[Nilim和El Ghaoui，2005; Tamar等人，2006]仍然存在。，2013; Zhang et al. ，2020]只能分别处理观测扰动或跃迁扰动。主要原因是这两种扰动在结构上不同。据我们所知，目前还没有分析这两种典型的不确定性之间的联系，也没有同时处理这两种不确定性的方法。为了建立转移扰动和观测扰动之间的联系，我们首先证明了它们各自导致的性能下降在理论上依赖于一个新的概念值函数范围（VFR），它是最佳状态和最差状态之间的值函数间隙。然而，直接控制VFR也可以满足-arXiv：2206.04436v1 [cs.LG] 2022年6+v：mala2277获取更多论文∞∈∈SRS × A → −P S × A × S →M S A R P SAθ≤P∈P由于VFR只考虑极端状态的值，而且VFR中计算的价值函数难以估计，因此存在过度悲观的问题。我们首先使用条件风险价值（CVaR）作为最小值的松弛，因为CVaR 可以用于避免过于悲观的政策 [Alexander andBaptista，2004; Alexander et al. ，2006年]。此外，我们还从理论上证明了轨迹收益率的CVaR是价值函数CVaR的一个下界，并说明前者更容易估计。在此理论分析的基础上，我们提出用轨迹返回的CVaR代替VFR，并建立了一个基于CVaR的安全RL约束优化问题，该问题同时考虑了转移扰动和观测扰动。此外，我们还分析了该操作的特性提出了一种新的算法CVaR-目前的算法试图最大化累积奖励，而不考虑政策的风险，这可能会导致灾难性的结果[Heger，1994]。为了解决这个问题，一系列安全的RL方法倾向于改变目标，以消除不确定性并避免危险 [Garcıa 和 Fer nandez，201 5]。一般来说，不确定性有两种，即过渡不确定性和观测不确定性.RL的过渡不确定性表示MDP的参数未知或训练和测试环境之间存在差距的场景Nilim、El Ghaoui和Tamar等人进行的研究假设，属于一个集合P，并建议优化maxminJt r（πθ ，P ），ED（πθ ），Eγtrt. πθ ，Pθ。（一）t=1基于邻近策略的邻近策略优化（CPPO）冰优化（PPO）[Schulman et al. ，2017]。根据经验，我们将CPPO与多个策略基线以及MuJoCo中各种连续控制任务的一些先前基于CVaR的方法进行了比较[Todorov etal. ，2012]。我们的研究结果表明，CPPO实现了竞争性的累积奖励在训练阶段，并表现出更强的鲁棒性，当我们施加扰动到这些环境。概括而言，我们的贡献是：• 从理论上分析了训练策略在过渡干扰和观测干扰下的性能，并利用VFR建立了这两类结构不同的干扰之间的理论联系关于RL的观测不确定度，它是指观测与真实状态之间的例如，智能体的观察可能会受到随机干扰以及对抗性干扰的干扰，这将导致性能下降[Huang et al. ，2017]。为了评估观测不确定性，以前的一些工作[Zhang et al. ，2020] 假设当真实状态为 s 时，观测值将被扰动为 ν（s），并希望在任意ν Γ下找到一个鲁棒策略，这里Γ是所有状态观测扰动的集合。基于这一假设，本文建立了一个名为状态对抗MDP（SA-MDP）的框架来解决maxminJ（π），E∈D（π，ν），ε∞γtrε.（二）• 在此基础上，我们提出了一个最大化累积报酬的约束优化问题，θν∈Γobsθθ tt=1在CVaR正则化的前提下，利用CPPO算法解决了风险控制问题• 我们的经验表明，CPPO表现出更强的鲁棒性下的过渡/观察扰动相比，其他常见的政策RL算法和以前的CVaR为基础的RL算法在不同的MuJoCo任务。2背景在本节中，我们简要介绍了安全强化学习（安全强化学习）和条件风险值（CVaR），这促使我们采用CVaR作为安全强化学习中的风险度量2.1安全RL在标准强化学习环境中，智能体与未知环境交互该任务被建模为马尔可夫决策过程（ MDP ），=（、、、，γ），其中和分别表示状态空间和动作空间;[0，1] 表示捕获元素的动力学的转移概率;：[Rmax ，Rmax]表示奖励函数; γ是折扣因子。我们用πθ来表示带参数θ的代理的策略，θ是从S到上的分布集的映射。A. 在每个时间步t，智能体感知当前状态然而，现有的安全RL方法并非没有问题。第一、（1）和（2）都是极大极小问题，没有通用的有效求解器，通常具有很高的计算复杂度。其次，关注最坏的轨迹可能会导致过度悲观的行为。最后，由于这两种不确定性在结构上是不同的，现有的工作总是单独考虑它们，而不是在它们之间建立2.2CVaR风险价值（VaR）和条件风险价值（CVaR）都是衡量经济风险的成熟指标[Alexander and Baptista，2004]。首先，我们在下面给出它们的定义[Chow和Ghavamzadeh，2014]。定义1（VaR和CVaR）。对于有界均值随机变量Z，Z在置信水平α∈（0，1）下的风险价值（VaR）定义为：Va Rα（Z）=min{z|F（z）≥α}，（3）其中F（z）=P（Z z）是累积分布函数（CDF）; Z的条件风险价值（CVaR）在置信水平α下定义为Z的α尾分布的期望值，如下所示：C Va Rα（Z）=Ez<$Z{z|z≥Va Rα（Z）}.（4）很容易证明[Chow et al. ，2015年]st∈ S，选择它的作用a t∈ A，从分布πθ（·|st），并获得reward rt。然而，大多数Limα→1− CVaRα（Z）= max（Z）。（五）+v：mala2277获取更多论文RC[MM，πS → S·|·|−PPMM S A P||+1−γEs<$dπ<$νEa <$π（·|ν（s））1 −π（a |ν（s））M1−γS.年代Σˆˆ∼π（a |ν（s））先前的工作 [Chow 和 Ghavamzadeh ， 2014; Chow etal. ，2015; Chow等人，2017]试图使用CVaR来分析风险MDP，它考虑了风险函数而不是奖励功能。他们提出了基于梯度的方法和基于价值的方法来优化MDP的损失，并将CVaR保持在一定的值以下。但这些证明的关键是分析VM，π−VM<$，π与不同态的关系。我们将完整的证明推迟到附录B.1，它类似于Kakade和Langford的证明，2002]。与给定MDPM的策略π相比，π在受扰的电子动量矩变差（TV）中的研究忽略了MDP中的奖励，因此不能直接tancemaxs，aDT V（P（·|s，a），P（·|s，a））和VFRVθ，π.的用于RL设置。此外，还有一系列优化CVaR的工作[Tamar et al. ，2015; Tang et al. ， 2020] ，优化 CVaR 约束目标[Prashanth，2014; Yang etal. ，2021]，并分析优化CVaR和对过渡扰动的鲁棒性之间的联系[Chowet al. ，2015;Rigter等人，2021]。此外，还有一些TV距离，取决于过渡区扰动的范围它独立于代理，不能被安全RL控制相比之下，VFR仅取决于π的值函数，是保单的固有属性π。因此，通过控制V_∞，可以提高策略π在过渡扰动.工作[Ma et al. [2020年]在分布式系统中扩展方法RL[Dabney等人，，2018]，主要考虑收益的随机性，进行CVaR优化。3理论分析在本节中，我们首先分析了策略对转移扰动和观测扰动的鲁棒性，并进一步建立了它们之间的联系。3.1价值功能范围对于MDPM和给定的策略π，我们将其预期累积奖励和价值函数表示为JM（π），M3.3 抗观测干扰现在，我们考虑观察干扰的情况类似于SA-MDP的设置[Zhang et al. ，2020]，我们引入对手ν：来描述状态的扰动，并将对手ν扰动的策略表示为πν，即πν（s）=π（ν（s））. 类似于定理1，我们也可以证明类似的结果如下：定理2. 对于任何策略π和任何对手ν，π的期望累积回报对ν的观测干扰的减少为JM（π）−JM（πν）V，π[Sutton和Barto，2018]。我们定义值函数范围（VFR），以捕获最佳状态和最差状态之间的值函数间隙，如下所示。γ=1−γE1sdππνMMEaπ（·|ν（s））1 −π（a|个）.π（a|s）伊什普VM，π（s′）ˆM，πMaxVSM，π（s）最小VSM，π（s）。（六）此外，减少的上限是|JM（π）−JM（πν）|此外，对于每个状态s∈ M，我们定义其折扣γ≤最大D（π（·|s），π（·|v（s））V未来状态分布∞1−γs2M，π（八）d π（s）=（1 − γ）<$γ tP（st= s|π，M）。+maxDT V（π（·|s），π（·|v（s））max|R（s，a）|.t=0时3.2 抗过渡干扰首先，我们考虑过渡扰动。假设转移受到干扰，我们试图评估针对干扰的累积奖励的减少。我们可以计算和界定π的性能差异，在定理1中，M和M是：定理1. 对于MDP中的任何策略π，M =（S，A，P，R，γ）以及任何受到干扰的环境证明与定理1类似，也在-包括在附录B.1中。此外，对于上限，定理2提供了一个在结构上与[Zhang et al. ，2020]。这是因为我们的VFR可以由maxs，aR（s，a）限定，这也在附录B.1中得到了证明。同样，与给定MDP的策略π相比，影响扰动策略πν性能的主要因素是TV偏差，tancemaxsDT V（π（·|s），π（·|v（s））和VFRVπ，π。的=（，γ），针对过渡扰动的累积奖励的减少是JM（π）− JM<$（π）电视距离，取决于政策和分布，ν扰动，反映了策略π的鲁棒性和对抗能力。然而，独立于对手，后一个因素（策略的VFR）仅取决于值γ。P（s′|s，a）ˆπ在M中的函数，反映了策略π的鲁棒性。=1−γEs<$dπEa<$πEs'<$P<$1−ˆ′VM，π（s′）.因此，我们也可以提高观测MP（s|s，a）此外，减少的上限是. J M（π）−J M（π）。通过控制策略的VFR来干扰策略3.4过渡和观测扰动之间的联系2γ≤1−γ最大D电视年代（P（·|s，a），P（·|s，a））V（七）.过渡扰动和观测扰动是结构扰动。不同，因为它们影响MDP和观察MV、M，π定义2（值函数范围）。对于MDP，策略π的值函数范围（VFR）为R（s，a）.电视+v：mala2277获取更多论文M.MM，πM，πMM-−·M∈- -λΣ≤≤1−α∇政策分别。虽然现有文献通常将它们分开考虑，但通过定理1和定理2，我们可以发现它们对累积报酬的影响是相似的。算法1CVaR近似策略优化（CPPO）要求：置信水平α，学习率lrη，lrθ，lrλ，lrφ确保：参数化策略πθ和参数化值ilar;相似性取决于VFR的V轴，这是一个固有性质，ππ和独立于对手。西奥函数Vφ。1：对于k= 1，2，...，尼特尔多若设P=maxs，则aDT V（P（·|s，a），P（·|s，a）），π π=maxsDT V（π（·|s），π（·|v（s）），并假设2：使用当前策略πθ生成N个轨迹。3：计算每个状态si，t的广告收益估计maxs，a|R（s，a）|= 1，我们可以很自然地推断出每一个轨迹我i和累积奖励D（potassium）..JM（π）−JM2γ（π）≤1−γ<$PγˆM，π2（九）4：用计算的梯度分别更新参数η、θ、λ、φ5：将β修改为当前轨迹返回的函数|≤1−γ<$πV<$，π+1−γ<$π。|≤1−γϵ πVˆ,π+1−γϵ π.6：结束锻造因此，通过控制V_∞，可以提高策略在观测扰动和过渡扰动下的鲁棒性.4方法在这一节中，我们首先制定我们的问题，以提高代理的鲁棒性，然后提出了一种新的CPPO的策略算法来解决它。4.1问题公式化我们首先讨论控制目视飞行规则由定理4可知，πc（α，β）的期望累积收益率虽然在一个有限的区域内优化，但不会比下界差。4.2优化与算法现在我们将约束问题（11）简化为非约束问题.首先，利用CVaR的性质，我们可以等价地将问题（11）重新表述为min−J（π）S.T. 1E[（η−D（π））+]−η≤−β。θˆM，π和基于C V aR的RL。F或控制V，它是更θθ，η1 −α最小s V最大化的合理性，π（s）而不是最小化maxsV，π（s），因为后者与我们最大化累积预期收益的目标相矛盾。然而，正如在SEC中提到的那样。2.1、直接最大化的价值函数偏离见附录B.4。此外，通过使用拉格朗日松弛方法[Bertsekas，1997]，我们需要求解函数L（θ，η，λ）的鞍点为max minL（θ，η，λ）最坏的情况可能使我们的政策过于保守。根据CVaR的性质（5），1999年10月20日，中国人民解放军总参谋部（其中s μ（）服从环境的初始分布不幸的是我们λ≥0、θ，η. 1E（十二）+不能精确地近似每个状态的价值函数在实践中由于每个轨迹的收益都可以精确计算，我们考虑通过以下方式放松−CVaRα（−V（s））：−CVaRα（−D（π））通过定理3。定理3（证明见附录B.2）。对于任何α[0，1]，我们有−CVaRα（−D（π））≤−CVaRα（−V（s））。（十）因此，我们考虑通过约束CVaRα（D（π））来提高策略的VFR，进一步提高策略对观测扰动和转移扰动的鲁棒性. 基于这一分析，我们定义了为了解决问题（12），我们扩展了邻近策略优化，（PPO）[Schulman et al. ，2017]与CVaR和命名我们的算法CVaR近似策略优化（CPPO）。特别是，关键点是计算梯度[Sutton et al. ，2000年]。这里，我们使用[Chow and Ghavamzadeh，2014]中的方法来计算目标函数（12）相对于η，θ，λ的梯度，πθ1{η≥D（θ）}）−λθL（θ，η，λ）=−E（logP（））。D（λ）−λ（−D（）+η）+约束优化问题最大J（πθ） S.T. −CVaRα（−D（πθ））≥β，（11）ξ∼πθ θ θ11 −α+θ其中α，β是超参数。λL（θ，η，λ）=1 −α Eπθ（−D（）+η）+β− η。我们将问题（11）的最佳策略记为πc（α，β）。与标准RL问题的最佳策略π s相比，我们显然有J（π c（α，β））J（πs），因为πc（α，β）在与超参数α，β相关的限制区域中。我们可以进一步给出J（πc（α，β））的下界如下：定理4（证明见附录B.3）。假设每个轨迹τ=（S0，A0，R0，S1，. ）可以由常数M ，i来界定。例如，∞t=0γtM，然后我们有J（ π（ α，β））≥J（πs）−αM。CVV-J（πθ）+λ] −η+β[（η−D（πθ））Σ.+v：mala2277获取更多论文详细计算见附录B.5。此外，随着培训过程中策略性能的提高因此，我们考虑将β修改为当前时期轨迹风险的函数。例如，在CPPO中，我们将β设置为前一个时期所有N个轨迹中最差K个轨迹的预期累积收益的平均值，并且我们将比率K/N设置为大于约束中的比率以降低风险。算法2概述了CPPO算法，更详细的版本是1 −α附录A中+v：mala2277获取更多论文±VPG TRPO PPO PG-CMDP CPPO5000400030002000100001000半猎豹0.00.51.01.52.02.53.0版本时间步长（1e6）3500300025002000150010005000500Walker2d0.00.51.01.52.02.53.0版本时间步长（1e6）200150100500游泳者0.00.51.01.52.02.53.0版本时间步长（1e6）3500300025002000150010005000料斗0.00.51.01.52.02.53.0版本时间步长（1e6）图1：VPG、TRPO、PPO、PG-CMDP和我们的CPPO的累积奖励曲线x轴表示与环境交互的步骤数，y轴表示智能体的性能，包括具有标准差的平均奖励1625.4± 356.4 2073.8± 741.3 2005.6± 398.7 101.2± 29.3 2391.4± 455.33372.2± 301.4 3245.4± 947.3 2946.3± 944.3 122.0± 7.9 2726.0± 886.07.4± 3.6 928.7± 562.9 596.7± 219.9 55.4± 18.8 1039.2± 21.13514.7±247.2 3680.5±1121.3 3194.0±648.2 182.5±46.0 3144.6±158.4表1：在不同MuJoCo游戏中由VPG、TRPO、PPO、PG-CMDP和CPPO训练的最佳策略的累积奖励（平均一个标准）在每一列中，我们将所有算法的最佳性能加粗。5实验在本节中，我们在MuJoCo [Todorov et al. ，2012]与其他常见的基于策略的RL算法进行比较。5.1实验装置环境. 我们选择MuJoCo [Todorov et al. 2012年，作为我们的实验环境。作为一个机器人运动模拟器，MuJoCo有许多不同的连续控制任务，如 Ant ， HalfCheetah ，Walker2d，Swimmer和Hopper，这些任务被广泛用于RL算法的评估。基线和代码。我们比较了我们的算法与常见的策略算法和以前的CVaR为基础的出租。对于前者，我们选择Vanilla Policy Gradient（VPG）[Sutton et al. ，2000]，信任区域策略优化（TRPO）[Schulman et al. ，2015]和PPO [Schulman et al. ，2017]。对于后者，我们用深度神经网络实现了 PG-CMDP[Chow andGhavamzadeh ，2014]。我们使用Adam[Kingma and Ba，2015]来优化所有算法。所有代码的实现，包括CPPO和基线，都基于代码库SpinningUp[Achiam，2018]。评价首先，我们比较了每种算法在训练过程中的累积奖励和收敛后的性能为了衡量系统的鲁棒性和安全性，我们分别比较了系统在过渡扰动和观测扰动下的性能对于过渡扰动，由于MuJoCo是一个物理仿真引擎，其过渡依赖于其物理参数，我们选择修改代理的质量来改变过渡动力学，并研究代理的性能和代理的质量之间的关系对于观测扰动，我们应用高斯干扰对主体5.2训练阶段的表现在这一部分中，我们将CPPO在训练阶段的性能与常见的策略算法以及MuJoCo环境中以前的基于CVaR的算法进行了对于每个任务中的每个算法，我们用不同的随机种子训练10个策略，因为环境和策略是随机的。对于每个任务中的每个算法，我们还绘制了10个策略的均值和方差作为训练阶段时间步长的函数，如图1所示。实线表示10个策略的平均回报，颜色较浅的部分表示它们的方差。表1中报告了每个环境中每个算法训练的10个策略的累积回报的最终均值和方差。如图和表中所示，对于所有五个任务，CPPO学习到的策略与所有基线相比都更好与VPG，TRPO和PG-CMDP相比，CPPO性能更好，因为我们使用了更好的策略优化技术。此外，CPPO的性能优于PPO，因为惩罚回报相对较低的公司也可以使累积回报受益5.3对过渡扰动的鲁棒性由于模拟器和真实环境之间的过渡差距，代理可能会在测试阶段失败。在本节中，我们选择修改机器人的质量并测试具有不同转换的代理的性能，即，我们改变了HalfCheetah（6.36），Walker2d性能性能性能性能PPOPG-CMDPCPPO（我们的）方法蚂蚁V3HalfCheetah-v3步行者2D-V3游泳者-V3料斗-V3VPGTRPO12.8± 0.0896.9± 531.1628.6± 229.448.3± 11.3888.4± 209.5+v：mala2277获取更多论文VPG TRPO PPO PG-CMDP CPPO500040003000200010000半猎豹345678910质量4000350030002500200015001000500Walker2d1 2 3 4 5 67质量20015010050游泳者25303540455055质量3500300025002000150010005000料斗1.01.52.02.53.03.5第4.0版质量图2：VPG，TRPO，PPO，PG-CMDP和我们的CPPO在过渡扰动下的累积奖励曲线。x轴表示代理的质量，y轴表示质量变化时算法的平均性能。VPG TRPO PPO PG-CMDP CPPO500040003000200010000半猎豹0.0 0.1 0.2 0.3 0.4 0.5方差350030002500200015001000500Walker2d0.0 0.1 0.2 0.3 0.4方差225200175150125100755025游泳者0.0 0.1 0.2 0.30.4方差350030002500200015001000500料斗0.000.020.040.060.080.10方差图3：在观察干扰下，VPG、TRPO、PPO、PG-CMDP和我们的CPPO的累积奖励曲线X轴指示干扰的范围，并且y轴指示算法在状态干扰下的平均性能。（3.53）、游泳者（34.6）和漏斗（3.53）。然后，我们绘制图2来描述在标准质量条件下训练并在不同质量条件下测试的代理的结果。实线表示10个策略的平均回报，颜色较浅的部分表示它们的方差。如图所示，所有算法的性能都随着代理质量的变化（无论它变大还是变小）而在一定程度上下降。下降的程度与质量变化正相关，这与我们在定理1中的理论分析一致- 即算法性能差异的上界此外，由于这些策略中所有状态的值函数都相对较低，并且这些策略的VFR也较低，我们发现VPG和PG-CMDP在转移扰动下保持鲁棒性，因为它们的VFR较低，这也在定理1中得到了证明。同时，我们可以看到，CPPO在不同的任务中取得了更高的结果，特别是在游泳和跳跃。这表明，我们的方法可以提高过渡扰动下的政策的鲁棒性，因为CPPO控制的风险，理论上与过渡扰动下的鲁棒性。5.4对观测干扰的鲁棒性代理也可能在测试阶段失败，因为它的观察和真实状态之间的因此，为了评估每个算法在观测不确定性下的鲁棒性为此，我们绘制了在图3中的观察干扰下训练的策略的性能。该图示出了性能劣化与扰动的大小正相关，这在定理2中示出。与转移扰动下的结果类似，我们也可以发现VPG和PG-CMDP在观测扰动下保持鲁棒性，因为它们的VFR很低，这在定理2中示出。如图所示，与基线相比因此，CPPO使我们能够在观测扰动下保持鲁棒性，这也是因为CPPO控制了理论上与观测扰动下鲁棒性相关的风险我们还评估了它们在状态观测的对抗性攻击下的鲁棒性详细结果见附录C。6结论本文首先给出了策略对转移扰动和观测扰动的鲁棒性之间的理论联系此外，我们分析了CVaR在评估政策不确定性方面的优势，并在此基础上，我们考虑了一个风险敏感的优化目标，提出了CPPO算法来求解该目标，并在多个MuJoCo任务上进行了大量的实验，实验结果表明，CPPO算法在获得较好性能的同时，也具有较强的鲁棒性。性能性能性能性能性能性能性能性能+v：mala2277获取更多论文道德声明由于不确定性，深度强化学习可能会遇到灾难性的本文研究了强化学习算法对迁移和观测干扰的鲁棒性，这有利于安全可靠地进行强化学习。没有严重的伦理问题，因为这是一项基础研究。致谢本工作得到了国家重点研究发展计划（ No.s2020AAA0106000 ， No.s2020AAA0104304 ，No.s2020AAA0106302 ）、国家自然科学基金项目（No.s2020AAA0104304，No.s2020AAA0106302）、国家自然科学基金项目（ No.s2020AAA0104304 ，No.s2020AAA0106302 ）、国家自然科学基金项目（No.s2020AAA0104304，No.s2020AAA0106302）、国家自然科学基金项目（ No.s2020AAA0104304 ，No.s2020AAA0106302 ）的资助。 62061136001 、61621136008、62076147、U19B2034、U19 A2081 、 U1811461 ）、 PCL 重大攻关项目（No.PCL2021A12）、清华-华为联合研究计划、清华-阿里巴巴联合研究计划、清华研究院郭强基金、清华-OPPO联合研究中心、北京人工智能研究院（BAAI）、NVIDIA GPU/DGX加速计划。引用[Achiam，2018] Joshua Achiam.在深度约束学习中旋转起来。2018年[Alexander and Baptista ， 2004] Gordon J Alexander andAlexandre M Baptista.基于均值-方差模型的投资组合var和cvar约束比较。Management Science，50（9）：1261[Alexanderetal.SiddharthAlexander ， ThomasFColeman，and Yuying Li. 最小化cvar和var，衍生品的投资组合。Journal of Banking Finance（JBF），30（2）：583[Bertsekas ， 1997] Dimitri P Bertsekas. 非线性规划。Journal of the Operational Research Society（JORS），48（3）：334[Chow and Ghavamzadeh ， 2014] Yinlam Chow andMoham- mad Ghavamzadeh.MDPS中无功优化算法。第 27 届神经信息处理系统国际会议论文集（NeurIPS），第3509-3517页，2014年[Chow et al. Yinlam Chow，Aviv Tamar，Shie Mannor和Marco Pavone。风险敏感与稳健决策：cvar最佳化方法。神经信息处理系统进展（NeurIPS），28：1522[Chow et al. ， 2017] 尹林Chow ， MohammadGhavamzadeh，Lucas Janson，and Marco Pavone.基于百分位风险标准的风险约束强化学习。The Journal ofMachine Learning Research（JMLR），18（1）：6070[Dabney et al. 2018] Will Dabney ， Georg Ostrovski ，David Sil v e r和Re'miMunos。用于分布式强化学习的隐式分位数网络机器学习国际，第1096-1105页。PMLR，2018年。[GarcıaandFerna'ndez，2015]JavierGarcıaandFernandoFern a'ndez. 一个安全的强化学习。Journal of Machine Learning Research（JMLR），16（1）：1437[Goodfellow et al. Ian J Goodfellow，Jonathe Shlens，andChristian Szegedy.解释和利用敌对的例子。arXiv预印本arXiv：1412.6572，2014年。[Heger，1994] Matthias Heger.再强化学习中的风险考虑。在Machine Learning Proceedings 1994中，第105-111页。爱思唯尔，1994年。[Huang et al. Sandy Huang ， Nicolas Papernot ， IanGoodfellow，Yan Duan，and Pieter Abbeel. 对神经网络策略的对抗性攻击。 arXiv 预印本 arXiv ：1702.02284，2017。[Kakade 和 Langford ， 2002]ShamKakade 和 JohnLangford。近似最优近似强化学习。第19届国际机器学习会议（ICML）Citeseer，2002年。[Kendall et al. Alex Kendall ， Jeffrey Hawke ， DavidJanz，Przemyslaw Mazur，Daniele Reda，John-MarkAllen，Vinh-Dieu Lam，Alex Bewley，and Amar Shah.一天学会开车。2019年国际机器人与自动化会议（ICRA），第8248IEEE，2019年。[Kingma and Ba，2015] Diederik P. Kingma and Jimmy Ba.Adam：随机最佳化的方法。2015年国际学习表征会议（ICLR）。[Ma et al. 马晓腾，李霞，周正元，杨军，赵千川。Dsac：用于风险敏感强化学习的分布式软执行器评论器。arXiv预印本arXiv：2004.14547，2020。[Mnih 等人， Volodymyr Mnih ， Koray Kavukcuoglu ，David Silver，Andrei A.放大图片创作者：John W.放大图片作者： Alex Graves ， Martin A. Riedmiller ，Andreas Fid-jeland，Georg Ostrovski，Stig Petersen，Charles Beattie ， Amir Sadik ， Ioannis Antonoglou ，Helen King ， Dharshan Kumaran ， Daan Wierstra ，Shane Legg，and Demis Hassabis.通过深度强化学习实现人类水平的控制。Nature，518（7540）：529[Nilim和El Ghaoui，2005年] Arnab Nilim 和劳伦特·艾尔·加维具有不确定转移矩阵的马尔可夫决策过程的鲁棒控制。运筹学，53（5）：780[Prashanth，2014] LA Prashanth. cvar约束mdp的策略梯度。在国际会议上算法- mic学习理论，第155-169页Springer，2014.[Rigter et al. 马克·里格特，布鲁诺·拉塞尔达和尼克·霍斯。风险规避贝叶斯自适应强化学习。神经信息处理系统的进展，34，2021。[Rockafellar et al. R Tyrrell Rockafellar，Stanislav Uryasev等人，条件风险价值优化。2000.+v：mala2277获取更多论文[Schulman et al. John Schulman ， Sergey Levine ，PieterAbbeel，Michael Jordan，and Philipp Moritz.信赖域政策优化。国际机器学习会议（ICML），1889-1897页PMLR，2015年。[Schulman et al. John Schulman，Filip Wolski，Pra- fullaDhariwal，Alec Radford，and Oleg Klimov.代理策略优化算法. arXiv预印本arXiv：1707.06347，2017。[Silver et al. [David Silver ， Aja Huang ，Chris J.Maddi-son ， Arthur Guez ， Laurent Sifre ， George van denDriessche，Julian Schrittwieser，Ioannis Antonoglou，Vedavyas Pan- neershelvam ， Marc Lanctot ， SanderDieleman ， Dominik Grewe ， John Nham ， NalKalchbrenner，Ilya Sutskever，Tim- othy P. Lillicrap，

下载后可阅读完整内容，剩余1页未读，立即下载