约束惩罚Q学习：离线安全强化学习的有效算法

15 浏览量更新于2023-12-01 收藏 19.22MB PDF 举报

数据收集

强化学习算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0约束惩罚Q学习用于安全离线强化学习0Haoran Xu 1 2 Xianyuan Zhan 2 Xiangyu Zhu 20摘要0我们研究了安全离线强化学习（RL）的问题，目标是在只有离线数据的情况下学习一个最大化长期奖励并满足安全约束的策略，而无需与环境进一步交互。这个问题对于现实世界的强化学习应用更具吸引力，因为数据收集是昂贵或危险的。在离线设置中强制满足约束是非常困难的，因为策略分布和数据分布之间可能存在很大差异，导致在估计安全约束的值时出现错误。我们表明，将安全RL和离线RL的技术结合起来的朴素方法只能学习到次优解。因此，我们开发了一种简单而有效的算法，约束惩罚Q学习（CPQ），来解决这个问题。我们的方法允许使用由混合行为策略生成的数据。我们进行了理论分析，并通过实验证明，我们的方法可以在各种基准控制任务中稳健地学习，优于几个基准方法。01.引言0强化学习（RL）在解决复杂任务方面取得了巨大成功，包括游戏（Mnih等人，2013年；Silver等人，2017年）和机器人技术（Levine等人，2016年）。然而，大多数RL算法只能在模拟环境中进行数百万次试错后学习到良好的策略。考虑到现实世界的场景（例如自动驾驶汽车、工业控制系统），我们只有一批预先收集的数据（非最优），包括一些不安全的尝试（例如自动驾驶汽车中的高速碰撞），不允许进一步主动在线数据收集。那么问题就出现了：我们如何从中得出有效的策略？01.计算机科学与技术系，西安电子科技大学，陕西西安，中国2.JD智慧城市研究，京东科技，中国北京。通讯作者：Haoran Xu。0Reinforcement Learning for Real Life (RL4RealLife) Workshopin the 38th International Conference on Machine Learning,2021. Copyright 2021 by the author(s).0如何在满足安全约束的同时使用这些离线数据？0安全RL通常被建模为约束马尔可夫决策过程（CMDP）（Altman，1999年）。通常有两种类型的约束：硬约束和软约束。硬约束要求轨迹的每个时间步不违反任何约束，而软约束要求策略在整个轨迹中满足约束的期望。在这项工作中，我们专注于软约束。有一类相关的安全RL工作，主要关注安全探索（Chow等人，2017年；Achiam等人，2017年；Tessler等人，2018年）。然而，这些算法都不是离线策略，不能在离线设置中使用。虽然最近有一项研究致力于在约束下进行批量策略学习（Le等人，2019年），但该方法假设数据收集策略已经进行了足够的探索。在现实世界的场景中，特别是在高维连续控制任务中，这个要求通常不成立。0关键挑战在于如何在最大化奖励的同时准确评估约束违规。通常，这需要在环境中展开策略并通过在线样本评估约束值（Tessler等人，2018年）。然而，在离线设置中是不可能的，因为我们只能访问离线数据集中的样本。从离线数据中评估约束值是非常困难的，当评估的策略位于数据集分布之外时，会遇到严重问题。在基于值的强化学习方法中，这可能会导致Q函数备份中的错误，并且无法收集在线数据来纠正此类错误。当离线数据集由多个冲突的行为策略生成时，问题将进一步恶化，因为策略可能会偏向不安全或次优的方向。0可以使用额外的成本评论家（如奖励评论家）来学习约束值，并使用分歧惩罚来控制学习策略与数据集分布之间的偏差。然而，我们表明这种天真的方法过于保守，会导致次优解。我们的主要贡献是提出了一种新的算法，约束惩罚Q学习（CPQ），来解决上述挑战。其核心思想是除了那些原本不安全的动作外，我们还将那些超出数据分布范围的动作也视为不安全。为了实现这一点，我们修改了奖励评论家的贝尔曼更新，对不安全的状态动作对进行惩罚。CPQ不使用显式的策略约束，不会受到数据集分布密度的限制，可以使用由混合行为策略生成的数据集。我们还在温和的假设下提供了CPQ的理论误差界分析。通过系统实验，我们展示了我们的算法可以在满足安全约束的同时学习稳健地最大化回报，在基准连续控制任务中优于所有基线方法。0arXiv:2107.09003v1[cs.LG]19Jul20210+v:mala2255获取更多论文��0约束惩罚Q学习用于安全离线强化学习0为了实现这一点，我们修改了奖励评论家的贝尔曼更新，对不安全的状态动作对进行惩罚。CPQ不使用显式的策略约束，不会受到数据集分布密度的限制，可以使用由混合行为策略生成的数据集。我们还在温和的假设下提供了CPQ的理论误差界分析。通过系统实验，我们展示了我们的算法可以在满足安全约束的同时学习稳健地最大化回报，在基准连续控制任务中优于所有基线方法。02. 相关工作02.1. 安全强化学习0安全强化学习可以定义为在确保安全约束的同时最大化长期回报的策略学习过程。当马尔可夫转移概率已知时，一种直接的方法是基于线性规划（Altman，1999年）。在无模型设置中，基于Lagrangian的方法（Chow等，2017年；Tessler等，2018年）将标准的预期回报目标与约束违反的惩罚相结合，并使用可学习的Lagrangian乘子解决所得到的问题。然而，基于Lagrangian的策略只能在渐近情况下满足约束，在与真实环境的交互训练过程中无法提供安全保证1。约束策略优化（CPO）（Achiam等，2017年）扩展了信任区域优化（Schulman等，2015年），可以在训练过程中满足约束，但随着多个约束的增加，计算开销大大增加。还有一些针对凸约束（Miryoose�等，2019年）或硬约束（Dalal等，2018年）的方法。然而，所有这些算法都是在线策略，因此无法应用于离线设置。约束批策略学习（CBPL）考虑了离线的安全策略学习，它使用Fitted QEvaluation（FQE）来评估安全约束，并通过Fitted QIteration（FQI）在博弈论框架下学习策略。02.2. 离线强化学习0离线强化学习（也称为批强化学习（Lange等，2012年）或完全离线策略学习）考虑的是在没有与环境交互的情况下从离线数据中学习策略的问题。离线强化学习面临的一个主要挑战是分布偏移问题（Levine等，2020年），当策略分布与数据分布大相径庭时会出现这个问题。虽然离线强化学习方法（Mnih等，2013年；Lillicrap等，2016年）天然地设计用于解决这个问题，但它们通常无法单独学习01这个特性不会影响离线强化学习设置，因为训练过程不涉及在线环境交互。0从固定的离线数据中学习，通常需要一批不断增长的在线样本才能获得良好的性能。最近的方法尝试通过将学习的策略约束为与行为策略“接近”来解决这个问题。BCQ（Fujimoto等，2019年）学习了行为策略的生成模型，并对其进行微小扰动，以保持接近数据分布同时最大化奖励。其他一些方法使用分歧惩罚（如BRAC中的KL分歧（Wu等，2019年）或BEAR中的最大均值差异（MMD）（Kumar等，2019年））而不是扰动动作。CQL（Kumar等，2020年）在学习的策略和数据集样本之间使用隐式Q值约束，避免了估计行为策略。模型的分布偏移问题也可以通过基于模型的强化学习通过悲观MDP框架（Yu等，2020年；Kidambi等，2020年；Zhan等，2021a年）或通过约束的离线基于模型的控制（Argenson＆Dulac-Arnold，2021年；Zhan等，2021b年）来解决。03. 初步03.1. 背景0约束马尔可夫决策过程（CMDP）由元组(S,A,r,c,P,γ,η)表示，其中S�Rn是闭合有界的状态空间，A�Rm是动作空间。让r:S×A→[0,R]和c:S×A→[0,C]表示奖励和代价函数，其上界为R和C。让P:S×A×S→[0,1]表示（未知的）转移概率函数，将状态-动作对映射到下一个状态的分布。让η表示初始状态分布。最后，让γ∈[0,1)表示未来奖励和代价的折扣因子。策略π:S→P(A)对应于从状态到动作的概率分布的映射。具体而言，π(a|s)表示在状态s中采取动作a的概率。在这项工作中，我们考虑参数化策略（例如神经网络），我们可以使用πθ来强调其对参数θ的依赖性。策略π下的累积奖励表示为R(π) =Eτ�π[∑∞t=0γtr(st,at)]，其中τ=(s0,a0,s1,a1,...)是一个轨迹，τ�π表示轨迹的分布是由策略π引起的。类似地，累积代价的形式为C(π) = Eτ�π[∑∞t=0γtc(st,at)]。0基于动态规划的离策略强化学习算法维护一个参数化的Q函数Qφ(s,a)。Q学习方法（Watkins＆Dayan，1992）通过迭代应用贝尔曼最优算子T�Q(s,a) := r(s,a) +γEs′[maxa′Q(s′,a′)]来训练Q函数。在演员-评论家算法中，Q函数（评论家）通过迭代贝尔曼评估算子TπQ = r +γPπQ来训练，其中Pπ是与策略相关的转移矩阵：PπQ(s,a)=Es′�T(s′|s,a),a′�π(a′|s′)[Q(s′,a′)]，并且训练一个单独的策略来最大化预期的Q值：0+v:mala2255获取更多论文+v:mala2255获取更多论文0约束惩罚Q学习用于安全离线强化学习0值。由于回放缓冲区通常不包含所有可能的转换（s,a,s'），策略评估步骤实际上使用的是只备份一个样本s'的经验贝尔曼算子。注意，π被训练为最大化Q值，它可能对具有错误高Q值的分布外动作存在偏见。在标准（在线）强化学习中，可以通过与环境交互并观察其实际值来纠正这些错误。0在我们的问题中，我们假设与环境没有交互，只有一个批次的离线数据集B=(s,a,s',r(s,a),c(s,a))，由未知的任意行为策略生成。注意，这些行为策略可能会生成违反安全约束的轨迹。我们用πβ表示这个经验行为策略：0数据集，形式上，πβ(a0|s0) :=0�0s,a∈0对于所有的s∈B1[s=s0]0状态s0∈B。我们用µβ(s)表示πβ(a|s)的折扣边际状态分布，因此数据集B是从µβ(s)πβ(a|s)中采样的。安全离线学习的目标是从B中学习一个策略π，该策略在满足累积代价约束的同时最大化累积奖励，表示为0max π R(π)0s.t. C(π) ≤ l0其中l是安全约束限制（已知常数）。03.2. 一种天真的方法0解决安全离线强化学习的一种天真方法是将安全强化学习和离线强化学习的技术结合起来。例如，我们可以训练一个额外的代价评论家Q网络（类似于（Liang等人，2018;Ha等人，2020）中获取累积代价值的方法），以及一个发散约束来防止从πβ到π的分布大幅度偏移。形式上，我们通过经验贝尔曼评估算子Tπ来更新奖励和代价评论家Q网络，其中（s，a，s'，r，c）�B：0Qr ( s, a ) = r + γ E a ′ � π ( ∙| s ′ ) [ Qr ( s ′ , a0Qc ( s, a ) = c + γ E a ′ � π ( ∙| s ′ ) [ Qc ( s ′ ,a ′ )]0然后，可以通过解决以下优化问题来推导策略：0π θ := max π ∈ ∆ | S | E s �B ,a � π (∙| s 0s . t . E s �B ,a � π ( ∙| s ) [ Qc ( s, a )] ≤ l （约束1）0D ( π, π β ) ≤ ξ （约束2）0D可以是任何现成的分歧度量（例如KL散度或MMD距离），ξ是一个近似选择的小值。我们可以通过使用Lagrangian松弛过程将约束优化问题转化为无约束形式，并通过双重梯度下降来解决它。0然而，我们认为在这种方法中，约束1和约束2可能无法同时满足。假设B包含来自安全和不安全策略的转换。当策略π满足约束2时，它将匹配行为策略分布的密度，当行为策略分布包含一些不安全的动作时，得到的策略可能违反约束1。可以考虑从B中减去安全策略的转换来构建一个新的“安全数据集”，并仅用于训练。虽然在这种情况下，约束1和约束2都可以满足，但是缺少高奖励转换会使得得到的策略次优。原则上，通过精心地将来自安全和不安全策略的转换“拼接”在一起，策略应该能够产生累积奖励最大化的轨迹，同时仍满足安全约束。04. 约束惩罚Q学习0在本节中，我们介绍了我们的方法，约束惩罚Q学习（CPQ），这是一种简单而有效的安全离线RL算法。关键思想是使OOD动作“不安全”，并仅使用“安全”的状态-动作对来更新奖励评论家。CPQ避免了显式的策略约束，它包括以下三个步骤：0步骤1：首先使OOD动作的Qc值大于安全约束限制，我们通过在原始Bellman评估误差目标中添加一个额外的项来实现这一点，得到一个新的目标：0最小化Qc E s,a,s ′ �B � ( Qc − T π Qc ) 2 � − α E s �B , a � ν [ Qc ( s, a )]0（1）除了标准的Bellman评估误差项外，方程（1）还最大化了数据集B中所有状态的Qc值，对于那些由分布ν引起的动作。直观地说，如果我们选择ν作为生成OOD动作的分布，那些OOD动作的Qc值将被推高。注意，标准Bellman误差项会使得内分布动作的Qc值下降以遵守Bellman备份。因此，通过适当的权重α，我们只会高估OOD动作的Qc值，而对于内分布动作保持不变。0剩下的问题是如何获得生成OOD动作的分布ν。我们通过执行OOD检测（Ren等人，2019年；Liu等人，2020年）来避免这个困难的问题。由于策略π被训练来最大化奖励评论家，我们只需要确保π采样的动作不是OOD。为此，我们预训练条件变分自动编码器（CVAE）来建模数据集的行为策略，并利用潜在空间进行OOD检测。具体而言，我们基于以下证据下界（ELBO）目标训练状态条件VAET πP Qr(s, a) = r + γEa′∼π(·|s′) [1 (Qc(s′, a′) ≤ l) Qr(s′, a′)]minQr Es,a,s′∼B�(Qr(s, a) − T πP Qr(s, a))2�(3)πθ := maxπ∈∆|S| Es∼BEa∼π(·|s) [1 (Qc(s, a) ≤ l) Qr(s, a)](4)minQc maxα≥0 Es,a,s′∼B�(Qc − T πQc)2�−α (Es∼B,a∼ν [Qc(s, a)] − lc)(5)0约束惩罚Q学习用于安全离线强化学习0基于数据集的对数似然：0最大化ω1，ω2 E z � q ω2 [log p ω1 ( a | s, z )] − βD KL [0（2）第一项表示重构损失，第二项是编码器输出与 z的先验之间的KL散度。注意，如果 z � q ω 2 ( s, a )的值在先验 p ( z ) 下具有较高的概率，则状态 s中的动作 a 在行为数据分布下具有较高的概率。由于先验p ( z ) 被设置为 N (0 , 1) ，我们可以令 ν ( s ) = a，如果 D KL [ q ω 2 ( z | s, a ) ||N (0 , 1)] ≥ d，通过引入一个超参数 d来控制阈值。之前的研究（Fujimoto等，2019；Kumar等，2019）也使用了CVAE，但他们使用它来采样动作并计算差异度量的值，这与我们的用法不同。0第二步：在第一步中，CPQ学习的成本评论家有些"扭曲"，即OOD动作的Qc值可能大于其真实值，并且会外推到接近分布内动作边界的动作。在初步实验中，我们发现使用扭曲的成本评论家通过双梯度下降（即 max π Q π r − λQ πc）来更新策略时效果不好。幸运的是，第一步中的Qr值保持不变，因此我们可以通过仅最大化Qr值来更新策略。我们修改奖励评论家的Bellman更新，仅从既是约束安全又是分布安全的状态-动作对进行备份，这通过乘以一个指示器来实现。我们定义经验约束惩罚Bellman算子 T π P ，对于 ( s,a, s ′ , r, c ) � B ，如下所示：0其中 1 是指示函数。可以证明，T πP通过使用对那些不安全的状态-动作对的更新进行悲观估计的0来减少更新。给定离线数据集 B，我们通过最小化均方误差（MSE）来更新奖励评论家，如下所示：0第三步：最后，在策略改进步骤中，为了确保最终策略是安全的，CPQ在执行最大化之前对计算得到的状态-动作值应用指示器：0与CQL的关联CQL在标准Bellman误差项中添加了两个惩罚项，第一个项是最小化学习策略的Qr值，第二个项是最大化数据集中动作的Qr值。CQL使得Qr值的分布具有更高的值0在数据分布区域中的值比在策略分布区域中的值更高，因为CQL仅考虑奖励最大化，它消除了OOD动作的不良影响。在我们的问题中，策略被训练以同时最大化奖励和满足安全约束。我们不能简单地按照CQL的方式最大化策略中动作的Qc值，并最小化数据集中动作的Qc值。最大化策略中动作的Qc值会在策略输出分布内动作时降低性能。因此，我们检测策略输出的动作，并仅使那些OOD动作的Qc值变大。0实际考虑为了减少超参数的数量，我们可以自动调整 α，如下所示：0方程（ 5 ）意味着如果OOD动作的Qc值大于 l c ，则 α将停止增加。参数 l c 应选择大于约束阈值 l，在实践中，我们使用 l c = 1 . 5 × l适用于所有任务。我们使用β-VAE（Higgins等，2016）来学习比原始VAE框架更好的解缠缚潜空间表示（可以看作是β-VAE的特例，其中 β = 1）。我们从策略中采样 n个动作，并选择 ν 为违反潜空间阈值 d的所有动作。如果没有任何一个动作违反，方程（ 1）将简化为原始的Bellman评估误差目标。我们还采用双Q技术（Fujimoto等，2018）来惩罚值估计中的不确定性，在计算目标Qr值时选择两个奖励评论家中的最小值。这个技巧不适用于成本评论家，因为它往往会低估Qc值。有关实现细节和超参数选择，请参见附录B。CPQ的伪代码如算法1所示。05. 分析0在本节中，我们对CPQ进行了理论分析，具体来说，我们证明了我们可以仅通过离线数据集学习到一个安全且高回报的策略。我们首先给出了证明中使用的符号表示和定义了什么是不在数据分布中的动作集，然后我们证明了CPQ可以使得不在数据分布中的动作的Qc值大于l，只需特定的α。最后，我们给出了通过迭代约束惩罚Bellman算子得到的Qr值与可以从离线数据集中学习到的最优安全策略π�的Qr值之间的误差界。0符号：令Qk表示MDP中第k次迭代的真实表格Q函数，没有任何修正。在一次迭代中，当前的表格Q函数Qk+1与之前的表格Q函数迭代Qk有关系：Qk+1 =0+v:mala2255获取更多论文ˆQπc (s, a) = Qπc (s, a)+0约束惩罚Q学习用于安全离线强化学习0算法1约束惩罚Q学习（CPQ）要求：B，约束限制l，阈值d。1:初始化编码器Eω1和解码器Dω2。2: // VAE训练3: 对于t = 0,1, ..., M，进行以下循环：4:从B中采样状态-动作对的迷你批次(s, a)。05: 通过公式（2）更新编码器和解码器。06: end for 7: // 策略训练 8:初始化奖励评论家集合{Qri(s,a|φri)}2i=1和代价评论家Qc(s,a|φc)，演员πθ，拉格朗日乘子α，目标网络{Q′ri}2i=1和Q′c，其中φ′ri ← φri和φ′c ← φc。09: 对于t = 0, 1, ..., N，进行以下循环：10:011: 从πθ(a|s)中采样n个动作{ai}ni=1，得到潜在均值和标准差{µi,σi = Eω1(s, ai)}ni=1，并从中提取满足D KL(N(µj, σj)∥N(0, 1)) ≥d的m(m ≥ 0)个动作{aj|D KL(N(µj, σj)∥N(0, 1)) ≥ d}mj=1。012: 令Qc(s,a0j Qc(s, aj) if m > 0 否则为0。013: 通过公式（1）更新代价评论家和公式（3）更新奖励评论家。014: 通过策略梯度使用公式（4）更新演员。015: 更新目标代价评论家：φ′c ← τφc + (1 − τ)φ′c016: 更新目标奖励评论家：φ′ri ← τφri + (1 − τ)φ′ri 17: endfor0TπQk。令ˆQk表示从CPQ获得的第k个Q函数迭代。令ˆVk表示值函数，即ˆVk:=Ea�π(a|s) [ˆQk(s,a)].0我们从定义不在数据分布中的动作集开始：0定义1（不在数据分布中的动作集）。给定数据集B，其经验行为策略πβ和ϵ∈(0,1)，我们称由策略ν生成的动作集Aϵ为不在数据分布中的动作集，如果对于任意s∈B，任意a∈Aϵ，都有πβ(a|s)≤ϵ。0ν(a|s) ≤0直观地，对于那些不在数据分布中的动作（即不太可能在数据分布中出现的动作），ν(a|s)会很大，而πβ(a|s)会很小。与不在数据分布中的动作相反，分布内的动作指的是那些满足a�πβ(a|s)的动作，即在数据分布中有很好的支持。注意，在这里我们不关心不在数据分布中的状态，因为用于训练的状态是从B中采样的。在引入不在数据分布中的动作集之后，我们现在展示了当通过公式（1）更新代价评论家时，我们可以使得Aϵ的Qc值大于l，只需适当的α。0定理1. 对于任意满足supp ν � suppπβ的ν(a|s)，对于任意s∈B，a∈Aϵ，通过迭代公式（1）得到的Qπc（Q函数）满足：02∙�(I−γPπ)−1ν(s|a)0πβ(s|a)0�(s,a)0如果我们选择α≥max{2ϵmaxs,a(l−Qπc(s,a))(I−γPπ)(s,a),0}，则我们可以得到ˆQπc(s,a)≥l，对于任意s∈B，a∈Aϵ。0证明。通过将方程（1）的导数设置为0，我们得到ˆQk+1c关于ˆQkc的以下表达式：0对于任意k，ˆQk+1c(s,a)=TπˆQkc(s,)+α02∙ν(0πβ(a|s)(6)0由于ν(a|s)>0，α>0，πβ(a|s)>0，我们观察到在每次迭代中，我们都会增加下一个Qc值，即ˆQk+1c≥TπˆQkc。现在让我们检查方程（6）的不动点，如下所示：0ˆQπc(s,a)=TπˆQπc(s,a)+α02∙ν(a|s)0πβ(a|s)0=c+γPπˆQπc(s,a)+α02∙ν(a|s)0πβ(a|s)0=Qπc(s,a)(I−γPπ)+γPπˆQπc(s,a)+α02∙ν(a|s)0β(a|s)0=Qπc(s,a)+γPπ�ˆQπc(s,a)−Qπc(s,a)�+α02∙ν(a|s)0πβ(a|s)0因此，我们可以得到ˆQπc和真实的Qc值Qπc之间的关系，如下所示：0ˆQπc(s,a)=Qπc(s,a)+α02(I−γPπ)−1�ν(a|s)0πβ(a|s)0�(s,a)0如果Qπc(s,a)≥l，即该状态-动作对的真实Qc值大于约束阈值，我们不需要增加Qc值，设置α=0即可。否则，如果Qπc(s,a)≤l，则选择α≥2ϵ∙maxs,a(l−Qπc(s,a))(I−γPπ)(s,a)将保证对于a∈Aϵ，ˆQπc(s,a)≥l。0α≥2(l−Qπc(s,a))(I−γPπ)�ˆπβ(a|s)0µ(a|s)0�(s,a)0=�α≥2ϵ∙maxs,a(l−Qπc(s,a))(I−γPπ)(s,a)(7)0注意，（I−γPπ）是一个矩阵（状态占用矩阵的逆（Sutton等人，1998）），其所有非负条目，且（7）成立是因为超出分布动作集的定义。总之，选择α≥max{2ϵmaxs,a(l−Qπc(s,a))(I−γPπ)(s,a),0}将满足对于任意s∈B，a∈Aϵ，ˆQπc(s,a)≥l。0现在我们展示了CPQ获得的值与最优安全策略π�在数据集上的值之间的误差界限。定理2。令∥ˆQkr−TπPˆQk−1r∥µβ为第k次迭代中约束惩罚贝尔曼算子TπP的平方逼近误差。令∥Qkr−TπQk−1r∥µβ为贝尔曼评估算子Tπ的平方逼近误差。0在第k次迭代中。如果这两个误差都被δ限制，则对于任意s∈B，我们有：01）limk→∞ˆVkc≤l和2）limk→∞0��V�r−ˆVk 0(1−γ)3G(ϵ)√0δ0+v:mala2255获取更多论文0约束惩罚Q学习用于安全离线强化学习0ϵ/g(ϵ)，并定义g(ϵ):=minµπ(s)>0[µβ(s)]，g(ϵ)捕捉行为策略下状态的最小折扣访问概率。0证明。对于1），可以从（4）中很容易得出，当k→∞时，对于任意s∈B，我们有ˆVc(s)=Ea�π(∙|s)�ˆQc(s,a)�≤l。对于2，我们在这里给出一个证明概述，详细的证明可以在附录A中找到。证明概述如下，我们首先将π�和πt之间的性能差异转化为一个由指示器1�ˆQc(s′,a′)≤l�（为简单起见，我们将其表示为Pc）过滤的值函数间隙：0V�r−ˆVkr≤10γ Es，a�ν��Pc（s，a）�Q�r（s，a）−ˆQkr（s0其中ν是状态-动作空间S×A上的任意分布。然后我们证明��Pc（Q�r−ˆQkr）��ν= Eν��Pc（Q�r−ˆQkr）��可以0|Q�r−TπQ�r|µβ是附加的次优误差项，它源于最优策略可能不满足πβ/π�≥ϵ。滤波器Pc通过限制浓度常数C来允许从ν到µβ的测度变换，该常数捕捉边缘分布ν（s）和µβ（s）之间的最大密度比。然后通过结合所有这些步骤证明了主要定理。0总结：我们展示了通过调整定理1中的α，我们可以将OOD动作的Qc值扩大到大于l。我们还展示了定理2中的性能保证。请注意，我们可以通过调整算法1中的参数d来使G（ϵ）尽可能小，这是唯一需要调整的超参数。该结果保证了在算法1终止时，主要目标的真实性能可以接近最优安全策略的性能。同时，假设k足够大，安全约束将得到满足。06. 实验06.1. 设置0我们在三个Mujoco任务上进行了实验：Hopper-v2，HalfCheetah-v2和Walker2d-v2。这些任务模拟了机器人在现实生活中遇到的场景。机器人由多个关节组成，每一步代理选择施加在每个关节上的扭矩量。在实验中，我们的目标是延长不同机器人的电机寿命，同时使它们能够执行任务。为此，机器人的电机需要受到使用高扭矩值的限制。这通过将约束C定义为代理对每个关节施加的折扣累积扭矩，并使用每个状态的惩罚来实现。0c（s，a）是代理决定在每一步应用的扭矩量。0对于每个环境，我们使用一个安全策略和一个不安全策略收集数据。安全策略具有低奖励并满足安全约束，而不安全策略具有高奖励但违反安全约束。不安全策略通过PPO（Schulman等人，2017）进行训练，直到达到图1中提到的回报收敛，而安全策略通过CPO（Achiam等人，2017）使用约束阈值l =30进行训练。数据集是由安全策略收集的转换和由不安全策略收集的转换的混合物。混合数据集非常有趣，因为它涵盖了许多实际应用案例，其中代理在大多数情况下都表现安全，但为了获得更多好处而进行了一些不安全的尝试。每个数据集包含2e6个样本。我们使用相同的数据集来评估不同的算法，以保持结果的一致性。0每个代理经过50万步的训练，并在每5000次迭代后对10个评估回合（与训练分布不同）进行评估，我们使用平均分数和方差进行绘图。06.2. 基线0我们将CPQ与以下基线进行比较：0CBPL：CBPL（Le等人，2019）通过应用FQE和FQI来学习安全策略，最初是为离散控制问题设计的，我们通过使用连续FQI（Antos等人，2008）将其扩展到连续情况。0BCQ-Lagrangian：由于BCQ（Fujimoto等人，2019）并不是为了安全的离线强化学习而设计的，我们将BCQ与拉格朗日方法相结合，该方法使用自适应惩罚系数来强制执行约束条件，从而得到BCQ-Lagrangian。0BEAR-Lagrangian：类似于BCQ-Lagrangian，但使用另一种最先进的离线强化学习方法BEAR（Kumar等人，2019）。0BC-Safe：如第3.2节所述，我们还包括了一个基于行为克隆的基线，只使用从安全策略生成的数据。这用于衡量每种方法是否实际执行有效的RL，还是仅仅复制数据。06.3.比较评估0如图1所示，与两种朴素方法（BCQ-L和BEAR-L）相比，CPQ在满足安全约束的同时实现了更高的奖励。朴素方法由于第3.2节中讨论的原因而实现了次优性能。例如，BEAR-L难以学习两个拉格朗日乘子之间的平衡，λ1用于安全约束，λ2用于发散约束，这两个乘子交替提高其值以满足其中一个约束，使得Qr的效果被稀释。BCQ-L的表现优于BEAR-L，但仍然存在问题。0+v:mala2255获取更多论文0约束惩罚Q学习用于安全离线强化学习0图1.我们根据第6.1节的实验评估了CPQ和不同的基线。阴影区域表示均值周围的一个标准差。虚线品红线表示BC-Safe的性能。虚线黑线表示约束阈值l。可以看出，CPQ对于不同情景的学习具有鲁棒性，在满足安全约束的同时优于其他基线。0由于相似的原因，CPQ的学习曲线呈现出锯齿状。CBPL在所有三个环境中发散并且无法学习到良好的策略，这是由OOD动作引起的大值估计误差造成的。还可以观察到CPQ的约束值有时低于阈值，原因是ν有时错误地选择了分布内的动作，使得这些动作的Qc值错误地变大。这表明通过应用更先进的OOD检测技术来构建ν可能进一步提高CPQ的性能，我们将其留作将来的工作。06.4.对约束限制l的敏感性0前面讨论的结果表明，CPQ在几个具有挑战性的任务上优于其他基线。我们现在对CPQ对不同约束限制l的敏感性感兴趣。如图2所示，CPQ对不同约束限制具有鲁棒性。这意味着我们可以进行反事实策略学习2（Garcıa＆Fernández，2015），即事后调整l以得到具有不同安全要求的策略。请注意，基于模仿的方法（例如BC-Safe）只能满足原始的约束限制l。06.5.潜在空间阈值d的消融实验0潜在空间阈值d控制OOD动作的容忍度。较大的d可能导致超出分布的动作。另一方面，较小的d会使动作选择更加严格。我们通过使用整个批次数据集的潜在KL损失的不同百分位数τn（n∈{50, 75,99}）来变化不同的潜在空间阈值。如图3所示，一个相当大的d（τ75）可以获得最佳结果，严格避免（τ50）或过度宽容（τ99）都会影响性能。07.结论和未来工作0我们提出了一种新颖的安全离线RL算法CPQ，这是第一个能够从混合离线数据中学习的连续控制RL算法。02在线RL在约束下，当约束限制被修改时，代理需要从头开始“重新采样和学习”。0图2. 对约束限制l的敏感性。0图3.潜在空间阈值d的影响。0通过理论分析和系统实验结果，我们展示了CPQ在各种任务中相对于几个基线的更好性能。未来的工作是使用更先进的OOD检测技术（例如使用能量分数（Liu等，2020））进一步增强CPQ的性能。另一个未来的工作是开发新的算法来解决具有硬约束的离线RL问题。我们希望我们的工作能为安全的离线RL提供一些启示，人们可以在离线环境中训练RL算法，并为真实世界任务提供可靠的安全和高质量的控制策略。0+v:mala2255获取更多论文0约束惩罚Q学习用于安全离线强化学习0参考文献0Achiam, J., Held, D., Tamar, A., and Abbeel, P.约束策略优化。在第34届国际机器学习会议论文集-第70卷，第22-31页。JMLR.org，2017年。0Altman, E.有约束的马尔可夫决策过程，第7卷。CRC出版社，1999年。0Antos, A., Szepesvári, C., and Munos, R.连续动作空间MDPs中的拟合Q迭代。在神经信息处理系统中，第9-16页，2008年。0Argenson, A. and Dulac-Arnold, G.基于模型的离线规划。在国际学习表示会议上，2021年。URL https://openreview.net/forum?id=OMNB1G5xzd4。0Chow, Y., Ghavamzadeh, M., Janson, L., and Pavone, M.带有百分位风险标准的风险约束强化学习。机器学习研究杂志，18(1):6070–6120，2017年。0Dalal, G., Dvijotham, K., Vecerik, M., Hester, T., Paduraru, C., and Tassa,Y. 连续动作空间中的安全探索。arXiv预印本arXiv:1801.08757，2018年。0Fujimoto, S., Hoof, H., and Meger, D.解决演员-评论家方法中的函数逼近误差。在国际机器学习会议上，第1587-1596页，2018年。0Fujimoto, S., Meger, D., and Precup, D.无探索的离线深度强化学习。在国际机器学习会议上，第2052-2062页。PMLR，2019年。0Garcıa, J. and Fernández, F.安全强化学习的综合调查。机器学习研究杂志，16(1):1437–1480，2015年。0Ha, S., Xu, P., Tan, Z., Levine, S., and Tan, J.在现实世界中学习以最小的人力投入行走。arXiv预印本arXiv:2002.08550，2020年。0Higgins, I., Matthey, L., Pal, A., Burgess, C., Glorot, X.,Botvinick, M., Mohamed, S., and Lerchner, A. beta- vae:用约束变分框架学习基本视觉概念。2016年。0Kakade, S. and Langford, J.近似最优的近似强化学习。在ICML中，第2卷，第267-274页，2002年。0Kidambi, R., Rajeswaran, A., Netrapalli, P., and Joachims, T. Morel:基于模型的离线强化学习。在神经信息处理系统（NeurIPS）中，2020年。0Kumar, A., Fu, J., Soh, M., Tucker, G., and Levine, S.通过减少引导误差稳定离线Q学习。在神经信息处理系统中，第11761-11771页，2019年。0Kumar, A., Zhou, A., Tucker, G., and Levine, S.保守的离线强化学习的Q学习。arXiv预印本arXiv:2006.04779，2020年。0Lange, S., Gabel, T., and Riedmiller, M.批量强化学习。在强化学习中，第45-73页。Springer，2012年。0Le, H., Voloshin, C., and Yue, Y.批量策略学习约束下。在国际机器学习会议上，第3703-3712页，2019年。0Levin, D. A. and Peres, Y.马尔可夫链和混合时间，第107卷。美国数学学会，2017年。0Levine, S., Finn, C., Darrell, T., and Abbeel, P.深度视觉运动策略的端到端训练。机器学习研究杂志，17(39):1–40，2016年。0Levine, S., Kumar, A., Tucker, G., and Fu, J.离线强化学习：教程，综述和对开放问题的展望。arXiv预印本arXiv:2005.01643，2020年。0Liang, Q., Que, F., and Modiano, E.加速原始-对偶策略优化的安全强化学习。arXiv预印本arXiv:1802.06480，2018年。0Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T.,Tassa, Y.,

下载后可阅读完整内容，剩余1页未读，立即下载