离线强化学习：新代理设计减去基于预测的探索奖金

152 浏览量更新于2023-12-01 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文1离线强化学习作为反探索ShidehRezaeifar 1，RobertDadashi 2，Nino Vieillard2，3，Léonard Hussenot2，4，OlivierBachem2，Olivier Pietquin2和Matthieu Geist21日内瓦大学2谷歌研究，大脑团队3洛林大学，法国，法国，南希，F-540004Univ. Lille，CNRS，Inria Scool，UMR 9189 CRISTAL摘要离线强化学习（RL）旨在从固定的数据集中学习最优控制，而无需与系统交互。在这种情况下，代理应该避免选择无法从数据中预测其后果的行为。这与强化学习中的探索相反，强化学习更倾向于这种行为。因此，我们从基于奖金的探索文献中获得灵感，设计了一个新的离线RL代理。核心思想是从奖励中减去基于预测的探索奖金，而不是增加这是为了探索。这允许策略保持接近数据集的支持。我们将这种方法与对数据的学习策略的更常见的正则化联系起来。实例化为奖金的基础上的预测误差的变化autoencoder，我们表明，我们的代理是有竞争力的一组连续控制运动和操纵任务的最先进的1介绍深度强化学习（RL）在各种任务中取得了显着的成功，包括机器人[26，50，8，4，14]，推荐系统[44，3]和游戏[47]。深度RL算法通常假设代理反复与环境交互，并使用收集的数据来改进其策略：它们被称为在线。由于在线RL算法需要与环境进行实际交互，因此它们不符合大多数实际应用的约束。事实上，允许代理收集新数据可能是不可行的，例如在医疗保健[35]，自动驾驶[45，21]或教育[33]中。作为替代方案，离线RL [31]是一种实用的范例，其中使用固定的轨迹数据集来训练代理学习的能力固定的数据集是迈向可扩展和可推广的数据驱动学习方法的关键一步。原则上，非策略算法[15，29，34，32，23]可以用于从固定数据集学习然而，在实践中，它们在没有环境反馈的情况下表现很差即使政策外数据来自有效的专家政策，这个问题仍然存在，原则上应该解决任何勘探问题[27]。主要挑战来自对数据分布的敏感性行为策略和学习策略之间的分布不匹配导致值函数的外推误差，这可能在数据集支持之外的状态-动作空间区域变得过于乐观外推误差沿着发作累积，并导致不稳定的学习和发散[17，27，28，31，39，13，56]。这项工作引入了一种新的离线RL方法，灵感来自探索。这看起来可能违反直觉. 事实上，在在线强化学习中，探索代理将尝试访问它以前从未经历过的状态-动作这正是离线RL代理应该避免的，因此我们将其视为反探索问题。我们专注于基于奖金的探索[9，12，38，11，7]。平等贡献。arXiv：2106.06431v1 [cs.LG] 2021年6月+v：mala2255获取更多论文2Σ.∈⟨⟩∈D {}θs′P（s′|·，·）v（s′）∈ RS×A. 利用这些符号，定义Bellman算子为Bπ Q = r + γP <$π，Q<$.在这些方法中，基本原则是向奖励函数添加奖金，对于新颖/令人惊讶的状态动作对，奖金更高[5]。该方法的核心思想是通过从奖励中减去奖金而不是增加奖金来执行反探索，有效地防止代理选择效果未知的动作。在最小的假设下，我们将这种方法与更常见的离线RL思想联系起来，即惩罚学习到的策略偏离据称生成数据的策略。我们还提出了这个一般思想的一个具体实例，使用TD 3 [17]作为学习代理，其奖金是在离线状态-动作对上训练的变分自动编码器（VAE）的重建误差我们在D4RL基准测试[16]的手部操作和运动任务上评估了智能体，并表明它与最先进的技术具有竞争力2预赛马尔可夫决策过程（MDP）由元组M：=（S，A，r，P，γ）定义，其中S是状态空间，A是动作空间，P∈RS×A是马尔可夫转移核（RS是S上的分布集），r∈RS×A，报酬函数和Sγ∈（0，1）是折扣因子。策略π∈S是从状态到分布ove r actions（adeterministicpolicybeingaspecialcase）. RL的一般目标是找到一个策略，该策略最大化收益Gt=∞i=0γir（st+i，at+i）. Givenapolicyπ，actionvalue function，或Q-function，被定义为采取行动后遵循策略π时的预期收益a在状态s中，Qπ（s，a）=Eπ[Gt|st=s，at= a]。对于<$u1，u2∈RS×A，定义点投影<$u1，u2<$=<$au1（·，a）u2（·，a）∈RS，对于v∈RS，记为它是一个压缩[41]，Qπ是它的唯一不动点。最优策略π<$满足π<$∈argmaxπQπ。一个多项式π被称为一个关于Q i的贪婪多项式，如果π∈argmaxπ'ππ，Qπ（注意，Eππ，Qπ（s）=Eaππ（·|s）[Q（s，a）]）。一个算法，它所有的流计算一个最优的policy是ValueIteration（VI）。对于任意初始值Q0∈RS×A，迭代如下，πk+1argmaxπ<$Sπ，Qk一Qk+1=r+γP<$πk+1，Qk<$第一步是贪婪。当只考虑确定性策略时（稍微滥用符号），它简化为πk+1（s）= argmaxa∈AQk（s，a）。第二步是评估步骤，同样对于确定性策略，它简化为Qk+1（s，a）=r（s，a）+γEs'|s，a[maxa'Qk（s'，a'）].VI可以用于导出许多现有的深度RL算法。首先，考虑离散动作的情况，假设所收集的转换的数据集=（s，a，s′，r）是可用的。开创性的DQN [34]使用深度神经网络w或kQω参数化Q值，将Qk视为先前神经网络w或kQω<$的系数（ω<$视为参数的系数），使用贪婪策略可以精确计算的事实，并考虑作为评估步骤两侧的平方差的损失，Ldqn（ω）=ED[（r+γmaxa'Qω<$（s′，a′）−Qω（s，a））2]，并进行了经验检验。对于连续动作，贪婪策略不再能被精确计算，这需要引入一个policynetw或kπθ。TD3[17]是一种最先进的演员关键算法，可以从相同的VI视图中导出。该方法采用定变高斯n参数化的方法，对参数y，πθ<$N（μθ，σI）进行参数化，其中μθ∈AS，σ是勘探噪声的标准差，σ是I阶整数矩阵。贪婪y步可由actorlosJtd 3近似d，acto r（θ）=E<$s∈ D[E<$a <$πθ（·，s）[Qω<$（s，a）]]. 这可以通过重新参数化trick，Jtd3，acto（θ）=Eεs∈D[Eεsε N （ 0 ， σ I ） [Q ω<$（s，μ θ （s）+ε）]]而得到更好的结果. 临界损失类似于DQN1，Jtd 3 ，critic （ω ）=E<$D[E<$a′ <$π（·|s'）[（r+γQω<$（s'，a'）−Qω（s，a））2].3将离线RL框定为反探索是什么让离线强化学习变得困难？传统的基于策略的强化学习算法运行在这样一种环境中，即代理反复与环境交互，收集新数据并使用这些数据PV=.+v：mala2255获取更多论文3∈.∈⟨⟩∈∝√更新其政策。术语off-policy表示可以使用其他策略收集的数据同时仍然能够与环境交互的算法。离线RL仅依赖于先前收集的数据集，而不与环境进行进一步的交互。这种设置可以利用大量以前收集的数据集，例如人类演示或手工设计的探索策略。离线RL具有挑战性，因为收集的数据集不覆盖整个状态-动作空间。分布外（OOD）操作可能会导致值函数近似中的外推误差作为作为一个例子，考虑DKN损失的回归目标，y=r+γmaxa'∈ AQω<$（s′，a′）。不在数据集中的状态-动作对的值函数Qω<$（s′，a′）的估计值可能由于额外的聚合误差而错误地偏高。因此，对于在数据中从未观察到的状态-作用对（s′，a′），可以达到最大值maxa′∈AQω<$（s′，a ′）m 使用此最大值作为目标的一部分估计Qω（s，a）的方法将导致对（s，a）过于乐观。随着策略选择使价值函数最大化的行动，这种估计误差会随着时间的推移而因此，许多方法限制了学习的策略保持在数据集的支持范围这些方法的不同之处在于如何测量偏差以及如何强制约束。例如，它可以通过将DQN目标修改为r+γmaxa'来实现。|（s'，a'）∈DQω（s'，a'），这是[27，20]的基本思想.强化学习的探索。探索在强化学习中至关重要，但在处理它时失败了。适当地可以防止代理识别高奖励区域，或者甚至在稀疏的情况下收集任何奖励。勘探的方法有很多，也有很多挑战，例如众所周知的勘探-开采困境。在本文中，我们专注于基于奖励的探索，然后将其应用于离线RL。其核心思想是定义或学习一个奖励函数bRS×A，该函数对于已知的状态-动作对较小，而对于未知的状态-动作对较大这个奖励被添加到奖励函数中，它将直观地驱动学习的策略遵循未知状态-动作对的轨迹嵌入到通用的VI方法中，这可以写成πk+1argmaxπ<$Sπ，Qk一Qk+1=r+b+γP<$πk+1，Qk<$基于奖励的策略可以大致分为基于计数的方法和基于预测的方法。首先，在基于计数的方法中，状态的新颖性是通过访问次数来衡量的，并相应地分配奖金。例如，它可以是b（s，a）1/n（s，a），其中n（s，a）是遇到状态-动作对的次数。奖金指导代理的行为，以更喜欢很少访问的国家比常见的。当状态-动作空间太大时，计数不是一个可行的选择，但访问频率可以通过使用密度模型[7，37]或将状态-动作映射到哈希码[49]来近似其次，在基于预测的方法中，新颖性与代理对环境的知识有关智能体对环境的熟悉程度例如，前向预测模型捕获代理高预测误差表明智能体不太熟悉该状态-动作对，反之亦然。然而，这种预测误差与智能体在特定任务中的表现纠缠在随机网络蒸馏（RND）被引入作为一种替代方法，其中预测任务是随机的，独立于主任务[12]。提出的反勘探方法。离线RL算法从固定的数据集学习，而不与环境进行任何交互。因此，数据集之外的状态-动作对从未实际经历过，并且由于未被环境反馈校正的外推误差，可能会接收错误的乐观值估计在线强化学习在一定程度上可以鼓励对价值函数的高估，因为它激励代理通过试错来探索和学习[22，46]。此外，在在线设置中，如果智能体错误地为给定的动作分配了高值，则该动作将被选择，真实的回报将被实验，并且动作的值将通过自举被纠正。从这个意义上说，在线RL是自我纠正的。相反，在离线RL中，需要探索的如果没有交互作用，则是可能的）。因此，一个自然的想法是定义一个反探索奖金来惩罚OOD状态-动作对。这一奖金将鼓励政策采取类似于现有的行动，离线轨迹的过渡。因此，离线RL的反探索的一种简单方法是从.+v：mala2255获取更多论文4−−Σ∈⟨⟩−≈≈Bτ奖励，而不是添加它。嵌入到我们的通用VI方案中，它将提供πk+1= argmaxππ，Qk。Qk+1=r−b+γP<$πk+1，Qk<$直觉上，这应该可以防止RL代理选择具有高奖金的动作，即，数据集中没有或没有足够的未知但是，这样根本就没有效果。的确，在离线强化学习中，我们只使用数据集中的状态-动作对，这意味着奖金很低。因此，这不会避免具有未知后果的行为的自举值，这是我们的主要目标。作为一个例子，再次考虑DQN的自举目标，有额外的奖金，rb（s，a）+γmaxa'∈AQω<$（s′，a′）. 状态动作对（s，a）必然来自数据集，因此奖金被认为是低的，例如，对于良好训练的基于预测的奖金为零。因此，奖金就在这里基本上没用。更有意义的是用奖金惩罚自举值，例如考虑目标tr+γmaxa'∈ A（Qω<$（s′，a′）b（s′，a′））。这可以使未知状态-动作对（s′，a′）的约束值相等。这两种方法都是等价的，从动态规划的角度来看（即，当Q值和策略对于所有可能的状态-动作对精确计算时;等价性显然不适用于近似离线设置）。事实上，再次考虑我们的VI计划，我们有πk+1= argmaxπ<$π，Qk<$Qk+1=r−b+γP<$πk+1，Qk<$πk+1=argmaxπ<$π，Q′k−b<$Q′k+1=r+γP<$πk+1，Q′k−b<$、（1）其中Q′k+1=Qk+1+b。即使Q值不相同，只要Q′0=Q0+b，两种算法提供相同的策略序列。事实上，独立于初始Q值，两个算法都将收敛到最大化Eπ[tγt（r（st，at）b（st，at））]的策略。这是因为它是正则化MDP [19]的一个特定实例，具有线性正则化子<$（π）=π，b。这是一更好的离线代理的基础，因为奖金直接影响Q-功能。上面以DQN目标为例说明了这一点，作为该VI方案的具体实例然而，这个想法更普遍地适用，例如在演员-评论家计划中，因为我们稍后将通过提供基于TD 3的代理来进行连续动作。4正则化的链接离线强化学习中的许多最近的论文都集中在正则化学习策略以保持接近离线轨迹的训练数据集。它通常相当于基于学习策略和行为策略之间的差异的惩罚（以数据集底层的状态为条件的动作分布）。这些方法具有相同的原理，但它们在如何测量策略偏差方面有显着差异在这里，我们在反探索和行为正则化离线RL之间建立了联系设bRS×A为任何勘探奖金。我们只假设数据集中的状态-动作对的奖金低于数据集外的状态-动作对。例如，如果b是用一个单类分类器训练的，那么如果（s，a）在支持中，它可能是b（s，a）0，而在其他地方，它可能是b（s，a稍后我们将讨论一种不同的方法，基于条件变分自动编码器的重构误差我们可以使用这个奖金来模拟以状态为条件的动作分布，为低奖金分配高概率，为高奖金分配低概率，目标是对数据分布进行建模（这通常是一个很难的问题）。这可以通过softmax分布方便地完成设β>0为a尺度参数和τ >0a温度，我们将策略πb定义为π（. |s)= softmax.−βb（s，.）。现在，我们可以使用这个策略来规范VI计划。将两个策略之间的Kullback-Leibler（KL）分歧定义为KL（π1||π2）=∈RS.还将策略的熵定义为...⇔+v：mala2255获取更多论文5Σ−.⇔.H（π）=− ππ，lnπ∈RS. 考虑以下KL正则化VI方案[19，51]：πk+1= argmax π（ππ，Qk− τ KL（π||πb））Qk+1= r + γP（πk+1，Qk− τ KL（πk+1||πb））.（二更）例如，考虑在贪婪步骤中优化的数量，我们有βbπ，Qk||πb）= π，Qk+ τ ln softmax（−τ）− τπ，ln π = π，Qk−b + H（π），其中βb（s，a）=βb（s，a）+ τlna'exp（βb（s，a'）/τ.可以对评估步骤进行相同的推导，表明（2）πk+1= argmaxπ（ππ，Qk− πbπ + τ H（π））。Qk+1=r+γP（<$πk+1，Qk−<$b<$+τH（πk+1））这可以被看作是我们提出的Eq. （一）.现在，取温度为零时的极限，我们有limb（s，a）= βb（s，a）+max（−βb（s，a′））= β（b（s，a）− min b（s，a′））.τ→0a'a'此外，假设奖金是基于预测的奖金，经过良好训练，意味着对于数据集中的任何状态s，mina'b（s，a'）= 0当量（1）：πk+1= argmax π<$π，Qk−b<$。Qk+1=r+γP<$πk+1，Qk−b<$因此，我们可以将所提出的反探索VI方案视为KL正则化方案的限制情况，当温度变为零时，KL正则化方案将学习的策略正则化为从奖金构建的行为策略，将更高的概率分配给更低的奖金。这种推导让人想起学习[6]是在线RL [52]中KL正则化VI [51]的限制情况。5A practical approach原则上，任何（基于VI的）RL代理都可以与任何探索奖励相结合，为离线RL提供反探索代理。例如，在一个离散的行动设置，可以结合DQN，简要描述在第二节。2，RND [12]。RND探索奖金被定义为编码特征的预测误差，如图1所示：预测网络被训练来预测表示为目标网络的固定随机神经网络的输出，理想情况下，当面对不熟悉的状态时，会导致更高的预测误差在这里，我们将专注于一个连续的动作设置。为了做到这一点，我们认为TD 3 actor-critic作为RL代理，在第二节中简要描述。2. 对于探索奖金，RND将是一个自然的选择。然而，在我们的实验中，RND表现不佳。这可能是因为RND是为离散动作空间和基于图像的观察而引入的，我们知道随机CNN可以捕捉有意义的特征。然而，将其扩展到连续控制并不简单。我们在第6节中的实验表明，RND不足以区分数据集中的状态动作。因此，我们引入了基于变分自动编码器的重构误差的奖励（这在探索设置中也很有用）。TD 3。我们之前从VI的角度简要描述了TD 3。它确实带有额外的特殊性，这对良好的经验表现很重要。噪声（高斯策略的标准偏差）在演员评论家损失中不一定相同，考虑双评论家以减少.+v：mala2255获取更多论文6θ--i=1||L2L|−|||f0（s，a）图1：RND和CVAE网络、损失和推断的反探索奖金的图示自举和策略更新延迟时的高估偏差我们参考Fujimoto et al.[17]更多详情我们使用经典的TD3更新，除了额外的奖金条款：Jtd3，actor，b（θ）=Es∈D[E N（0，σI）[Qω<$（s，μθ（s）+）−b（s，μθ（s）+）]]，（3）Jtd3，critic，b（ω）=ED[Ea'π（·|s'）[（r+γQω<$（s'，a'）−b（s'，a'）−Qω（s，a））2].（四）CVAE。我们用于反探索的奖金是基于条件变分自动编码器（CVAE）[48]。变分自动编码器（VAE）首先由Kingma和Welling[25]引入。该模型由两个网络组成，编码器Φ和解码器Φ。输入数据x被编码为潜在表示，并且第n个样本sx被从第n个空间解码生成。让我们考虑一下一个数据集，X=x1，...，xN，由N i.i.d.样品我们假设数据是从低维潜变量z。 VAE对P（x，z）执行密度估计，以最大化观察到的训练数据x：logP（x）=NlogP（xi）。由于这种边际可能性很难起作用，直接用于非平凡模型，而不是参数推断模型|x）用于优化边际对数似然的变分下界：|x）[log Φ（x z）] KL（log（z x）Φ（z））。一个VAE通过重新参数化Ψ（z x）[25，43]来优化下界。的第一项对应于第一项是重构误差，第二项使由编码器Φ（x z）参数化的分布正则化，以最小化与所选先验分布（通常是各向同性的中心高斯分布）的KL发散在我们的问题公式中，给定数据集D，我们使用条件变分自编码器来重建动作以各州为条件。因此，LΦ，λ可以重写为：LΦ，λ= EP（z|s，a）[log Φ（a|s，z）] − KL（n（z|s，a）||Φ（z|（s））。（五）摘要我们对离线RL的反探索思想的具体实例如下。给定一个交互数据集，我们训练一个CVAE来预测以状态为条件的动作（见Alg。①的人。对于任何给定的状态-动作对，我们将奖金定义为CVAE的缩放预测误差b（s，a）=β<$a−<$（Φ（s，a））<$2，（6+v：mala2255获取更多论文7）其中β是尺度参数。这个奖金修改了TD3的损失，运行在固定的数据集（Alg。2）。+v：mala2255获取更多论文8{}D∈DAN算法1CVAE训练。1：初始化CVAE网络Φ和Φ第二章：对于步骤i= 0至N，3：对k个状态-动作对{（st，at），t = 1，.，k}从D4：使用LΦ，θ训练Φ和θ，参见等式（五）算法2改进的TD3训练。1：初始化policyπθ，action-valuenetworkQωandtargetenetworkQω′，Qω第二章：对于步骤i= 0至N，3：对k个转换（st，at，rt，st+1）的小批量进行采样，t = 1，.，k从4：对于每一个过渡，解码的行动和计算机的奖金，见方程。（六）5：更新临界点：在Jtd3，临界点，b（ω）上的梯度步长，参见等式（4）6：更新actor：在Jtd3，actor，b（θ）上的梯度步长，参见等式（3）第七条：更新日期目标t ne tw或kQω<$：=Qω6实验在描述了实验设置和所考虑的数据集之后，我们首先评估了基于CVAE的反探索奖金在识别OOD状态-动作对方面的区分能力，将其与更自然的（至少在探索上下文中）RND进行比较。（六）。然后，我们将所提出的方法与先前的离线RL方法在一系列具有多种数据收集策略的手部操作和运动任务上进行比较[16]。实验装置。我们专注于D4RL数据集的运动和操纵任务[16]。随着不同的任务，多种数据收集策略也被认为是在复杂的环境中测试代理首先，对于运动任务，目标是最大化行进距离。对于这些任务，数据集是：随机，中等重放，中等和最后中等专家。随机由随机策略收集的转换组成中等重放包含SAC代理收集的前一百万个转换[23]，该代理在环境中从头开始训练。Medium具有由具有次优性能的策略收集的转换最后，中等专家建立从过渡收集的一个接近最优的政策旁边的过渡收集的次优政策。其次，手部操作任务需要在不同的任务中控制24-DoF模拟手，例如锤击钉子，打开门，旋转笔和重新定位球[42]。这些任务比具有更高维度的健身房运动任务复杂以下数据集收集的手操作任务：人类，克隆和专家。人类数据集由人类操作员收集。克隆包含由经过行为克隆训练的策略收集的转换，该策略与初始演示旁边的环境进行交互。最后，专家是建立在一个微调的RL政策在环境中交互收集的转换。反探索奖金。我们详细分析了不同算法的学习奖金的质量。特别是，我们感兴趣的是反探索奖金的能力，从其他数据集中分离状态-动作对然而，即使有正面的例子（这些是数据集中的例子）是很简单的，但要定义什么是负面的例子要困难得多（否则，奖金可以简单地使用二元分类器进行训练）。在这些实验中，对于状态-动作对（s，a），我们以三种不同的方式定义了一个nOOOD动作。首先，我们考虑从作用空间一致地导出作用U（）。其次，我们考虑来自高斯n噪声的数据集的动作s，α=α+γ （0，1）。第三，我们考虑随机混洗的动作（对于一组状态-动作对，我们混洗动作而不是状态，这形成了被视为反例的新对+v：mala2255获取更多论文92ǁ −ǁ2我们研究了奖金在区分两种不同模型的OOD状态-动作对时的辨别能力，即RND（因为它在探索环境中是一种自然选择，至少在离散动作设置中是这样）和CVAE（建议的学习奖金的方法对于RND [12]的情况，状态-动作对被传递到目标网络f和预测网络f′。训练预测网络以在给定相同的状态-动作对的情况下从目标网络预测编码特征最小化编码特征之间的预期MSE。所有实施细节载于附录。奖金被定义为编码特征的预测误差：b（s，a）：=β f（s，a） f′（s，a）2. 在CVAE模型中，状态-动作对（s，a）被连接并编码为潜在表示z。状态s旁边的这个潜在表示z被传递到解码器以重构动作a。编码器和解码器都由两个大小为750的隐藏层组成，潜在大小设置为12。我们在附录中提供了有关实施的进一步细节奖金的定义是重建动作误差：b（s，a）：= β <$a− <$（Φ（s，a））<$2。图2：RND和CVAE的walker 2d-medium整个数据集的重建误差直方图可视化重建误差是针对原始数据集状态-动作对（蓝色）以及动作的不同扰动计算的：在数据集上随机排列的动作（橙色），随机动作（绿色），添加了具有不同标准偏差的高斯噪声的原始动作其他数据集的结果类似。OOD状态-动作对的奖金直方图与数据集中的直方图进行了比较，并在图2中可视化。对于这些实验，状态是固定的，并且针对不同种类的OOD动作导出奖金。CVAE和RND模型的结果分别显示在左图和右图中。正如我们所预期的那样，对于CVAE模型，与数据集中的动作相比，混洗、随机和噪声动作的奖金大多更高。此外，当我们增加所添加的噪声的方差时，奖金会变得更高。然而，数据集中的动作和RND模型中的其他动作的奖金之间没有太大的差异，并且在识别OOD动作方面表现不佳另一方面，CVAE模型具有足够的区分性，可以将数据集中的事实上，在目标是识别离群值的新颖性检测任务中，自动编码器被证明是有益的[1，40，55，58]。D4RL数据集上的性能。现在我们已经评估了CVAE在区分OOD状态-动作对与数据集中的状态-动作对方面的效率，我们将其与TD 3结合起来，并评估了所产生的离线RL代理在上述D4 RL数据集上的性能。我们比较了无模型方法BEAR [27]，BRAC [54]，AWR [39]，BCQ [18]和CQL [28]，后者提供了这些任务的最先进结果。TD3 actor和critic的架构由两个大小为256的隐藏层组成，第一层具有tanh激活，第二层具有elu激活。参与者输出带有双曲正切激活的动作除了激活函数，我们使用作者实现的TD3的默认参数，并使用Adam优化器运行106梯度步骤，批量大小为256。所有实施细节见附录。+v：mala2255获取更多论文10Σ≥−联系我们在在线RL中，缩放或裁剪奖励是非常标准的，这可能很难，因为奖励范围可能事先不知道在离线设置中，将使用的所有奖励都在数据集中，因此它们的范围是已知的，并且可以直接将它们标准化。我们在每一个人身上，都有一种属于自己的幸福，一种属于自己的幸福。这对于使奖励的尺度参数β不太依赖于任务是重要的事实上，我们已经证明了我们的反探索思想理想地优化了Eπ[t0γt（r（st，at）b（st，at））]。因此，奖金的规模应该与奖励的规模一致，这更容易与归一化奖励TD 3允许演员和评论家损失中不同级别的噪音，这与VI的观点有点偏离。我们对奖金的规模采取了类似的方法，因为它提供了稍微好一点的结果。我们允许不同的尺度βa和βc分别用于演员损失和评论家损失的奖金我们对β a，β c 0上的额外权重执行超参数搜索。1，0。五一五十对于所有运动任务，我们选择提供最佳结果的比例因子对（因此所有任务都是一对，而不是每个任务一个），对于操纵任务也是如此。对于运动βa= 5和βc= 1，对于操作任务βa=βc= 10被选中了我们在表1中示出了所提出的方法在D4 RL数据集上的性能（在那里被描绘为TD 3-CVAE）。我们报告了10个种子的平均值和标准差，每个种子在10集上进行评估。平均而言，它与CQL竞争，并在运动任务中优于其他人。在手部操作任务上，CVAE优于所有其他方法。请注意，所有考虑的基线都是无模型的。基于模型的方法可以获得更好的结果[57，56]，至少在运动任务上。请注意，无模型或基于模型的方面与我们的核心贡献是正交的，反探索的想法可以很容易地结合到基于模型的方法中我们让这方面的进一步调查，为今后的工作。7相关工作在这里，我们简要讨论了离线RL的先前工作以及我们提出的方法的不同之处。如第2节所讨论的，离线RL遭受由分布失配引起的外推误差。最近，离线RL在解决这个问题方面取得了一些进展它们大致可以分为基于政策规则化的方法和基于不确定性的方法。前者将学习的策略约束为尽可能接近数据集中的行为策略约束可以是隐式的或显式的，并确保值函数逼近器不会遇到分布外（OOD）状态动作。不同之处在于如何定义和执行密切程度的衡量标准。一些最常见的接近度度量是KL-散度，最大平均差异（MMD）距离或Wasserstein距离[54]。在AWR [39]、CRR [53]或AWAC [36]中，通过合并策略更新来隐式地引入约束，使其接近行为策略。此外，约束可以直接在参与者更新或值函数更新上实施在BRAC中，Wu et al.[54]考察了价值惩罚与政策规范的不同分歧与选择在BEAR Kumar et al.[27]认为将学习策略的支持限制为行为分布的支持就足够了，允许算法具有更大的灵活性和更广泛的操作范围。另一种减轻OOD状态作用影响的方法是使值函数逼近器对这些状态作用具有鲁棒性。其目的是使OOD状态-动作的目标值函数更保守[28，10，30]。我们提出了一个替代方法的启发，从探索。与在线设置相反，离线代理应避免偏离数据集的分布。因此，我们制定了一个“反探索”的问题，OOD状态动作对受到惩罚。关注基于奖金的方法[12，38，11，7]，我们定义了从奖励中减去的反探索奖金这一总体思路为使任何探索策略适应离线设置开辟了新的研究方向此外，在最小的假设下，我们提出的方法可以与基于正则化的方法相联系在正则化方法和基于不确定性的方法之间架起一座桥梁+v：mala2255获取更多论文11算法BC熊BRACpBRACvAWRBCQCQLTD3-CVAEhalfcheetah-randomwalker2d-random hopper-randomhalfcheetah-medium walker2d-medium hopper-mediumhalfcheetah-med-rep walker2d-med-rep hopper-med-rephalfcheetah-med-exp walker2d-med-exp hopper-med-exp2.11.69.836.16.629.038.411.311.835.86.4111.925.17.311.441.759.152.138.619.233.753.440.196.324.1-0.211.043.877.532.745.4-0.30.644.276.91.931.21.912.246.381.131.147.70.90.641.981.60.82.51.510.237.417.435.940.315.528.452.753.827.12.24.910.640.753.154.538.215.033.164.757.5110.935.47.010.844.479.258.046.226.748.662.4111.098.728.6 ±2.05.5±8.011.7 ±0.243.2 ±0.468.2± 18.755.9± 11.445.3 ±0.415.4 ±7.846.7± 17.986.1±9.784.9± 20.9111.6± 2.3平均表现25.039.829.831.426.840.452.350.3 ±8.3笔-人锤-人门-人搬迁-人笔-克隆锤-克隆门-克隆搬迁-克隆笔-专家锤-专家门-专家搬迁-专家34.41.50.50.056.90.8-0.1-0.185.1125.634.9101.3-1.00.3-0.3-0.326.50.3-0.1-0.3105.9127.3103.498.68.10.3-0.3-0.31.60.3-0.1-0.3-3.50.3-0.3-0.30.60.2-0.3-0.3-2.50.3-0.1-0.3-3.00.3-0.3-0.412.31.20.4-0.028.00.40.0-0.2111.039.0102.991.568.90.5-0.0-0.144.00.40.0-0.3114.9107.299.041.637.54.49.90.239.22.10.4-0.1107.086.7101.595.059.2± 14.30.2±0.00.0±0.0-0.0 ±0.045.4± 25.50.3±0.10.0±0.1-0.2 ±0.0112.3 ±21.9128.9± 1.559.4± 34.7106.4± 5.0平均表现36.738.30.4-0.432.239.640.342.6±8.6表1：CVAE评价。我们使用Fu等人报告的性能结果报告基线的结果。[16]，不包括性能的标准差，因为数字是基于3个种子。在我们的例子中，我们使用10个种子，以下建议亨德森等人。[24]，并在报告性能的平均值和标准差之前对每个种子进行10次评估。我们加粗最佳平均性能，并在最佳性能的一个标准差之内的性能下划线。8结论我们提出了一种直观而直接的离线RL方法。我们约束的政策，以采取数据集内的状态动作对，以避免外推错误。要做到这一点，核心思想是从奖励中减去基于预测的探索奖金（而不是增加探索奖金）。我们从理论上证明了所提出的方法与基于正则化的方法的连接通过基于CVAE的奖励和TD3代理（这是许多其他代理中的一种可能性）来实例化这个想法，我们在D4RL数据集上达到了最先进的性能。我们的方法是非常通用和通用的。因此，一个有趣的研究方向是将其与离线RL的正交改进相结合，例如考虑基于模型的代理[56]。+v：mala2255获取更多论文12引用[1] D. Abati，A.Porrello，S.Calderara和R.库奇亚拉用于新颖性检测的潜在空间自回归在IEEE/CVF计算机视觉和模式识别会议论文集，第481-490页[2] J.Achiam和S. Sastry。深度强化学习中基于惊喜的内在动机。在Deep RL研讨会上，神经信息处理系统的进展，2017年。[3] M. M. Afsar，T.Crump和B.远了基于强化学习的推荐系统：综述。arXiv预印本arXiv：2101.06286，2021。[4] J.A. Bagnell和J.G.施耐德基于强化学习策略搜索方法的自主直升机控制。在2001年ICRA会议记录中。IEEE机器人和自动化国际会议（目录号01 CH 37164），第2卷，第1615-1620页。IEEE，2001年。[5] A. Barto，M.Mirolli和G.巴达萨雷新奇还是惊喜？Frontiers in Psychology，4：907，2013。[6] M. G.贝勒马尔湾Ostrovski，A. Guez，P. Thomas，and R.穆诺斯增加行动差距：强化学习的新算子。在AAAI人工智能会议论文集，第30卷，2016年。[7] M. G. Bellemare，S.斯里尼瓦桑湾奥斯特洛夫斯基，T.Schaul，D.Saxton和R.穆诺斯将基于计数的探索和内在动机相结合。神经信息处理系统会议（ NIPS ）， 2016 年。网址http://arxiv.org/abs/1606.01868。[8] H. Benbrahim和J.A. 富兰克林使用强化学习的机器人动态行走Robotics and Autonomous Systems，22（3-4）：283[9] R. I. Brafman和M.坦嫩霍兹R-max-一种近似最优强化学习的通用多项式时间算法。Journal ofMachine Learning Research，3（Oct）：213[10] J. 巴克曼角Gelada和M.G. 贝勒马尔悲观主义在固定数据集策略优化中的重要性。2021年国际学习表征会议（International Conference on Learning Representations，ICLR）[11] Y. Burda，H.爱德华兹，D。Pathak，A. Storkey，T. Darrell和A. A.埃弗罗斯好奇心驱动学习的大规模研究。arXiv预印本arXiv：1808.04355，2018。[12] Y. Burda，H. Edwards，A. Storkey和O.克里莫夫用随机网络蒸馏法进行探索。2019年学习代表国际会议。网址https://openreview.net/forum? id= H11JJnR5Ym。[13] R. Dadashi，S.Rezaeifar，N.维埃亚尔湖胡塞诺岛Pietquin和M.盖斯特离线强化学习与伪度量学习。强化学习研讨会的自我监督- ICLR 2021，2021。[14] G. Endo，J.Morimoto，T.Matsubara，J.Nakanishi和G.程用策略梯度方法学习基于cpg的移动：应用于人形机器人。国际机器人研究杂志，27（2）：213[15] D. Ernst，P. Geurts，and L. Wehenkel基于树的批处理模式强化学习。Journal of Machine LearningResearch，6：503[16] J. Fu，中国茶条A.库马尔河，澳-

下载后可阅读完整内容，剩余1页未读，立即下载