鲁棒RL：基于自适应正则化对抗训练的层次公式模型

146 浏览量更新于2024-02-03 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于自适应正则化对抗训练Peide HuangXiang，Mengdi Xu，Fei Fang，Ding Zhao卡内基梅隆大学{peideh，mengdixu}@andrew.cmu.edu，feif@cs.cmu.edu，dingzhao@cmu.edu摘要鲁棒强化学习（ RobustReinforcementLearning，RL）主要研究如何提高在模型错误或对抗性攻击下的性能，从而促进RL智能体在现实生活中的部署。鲁棒对抗性再强化学习（RobustAdversarialRe-instrumentationLearning，RARL）是最流行的鲁棒强化学习框架之一.然而，现有的文献大多将RARL建模为一个零和同时博弈，并以纳什均衡作为解的概念，这可能会忽略RL部署的顺序性，产生过度保守的代理，并导致训练不稳定。在本文中，我们介绍了一种新的层次公式的鲁棒RL-一般和Stackelberg游戏模型称为RRL-Stack -形式化的顺序性质，并提供额外的灵活性，鲁棒训练。我们开发了Stackelberg策略梯度算法来解决RRL-Stack ，通过考虑对手的响应来利用Stackelberg学习动态。我们的方法生成具有挑战性但可解决的对抗环境，有利于RL代理的鲁棒学习。我们的算法在单智能体机器人控制和多智能体高速公路合并任务中对不同的测试条件1介绍深度强化学习（DRL）在处理复杂任务方面表现出巨大的潜力。然而，其实际部署受到训练和测试环境之间普遍存在的差异的阻碍，例如，机器人操作任务中的不确定物理参数[Zhao等人，2020]和改变自动驾驶场景中周围车辆的隐藏策略[Ding等人，2021年]。为了弥补模型失配的脆弱性，鲁棒强化学习（ RRL ）[MorimotoandDoya，2005]的最新进展提出学习鲁棒策略，以最大化各种不确定性的最坏情况下的性能。一种流行的RRL框架是鲁棒对抗强化学习（RARL）[Pinto等人，2017年]，其中联系作者图1：现有的RARL公式和我们的RRL-Stack公式之间的高级比较。在RARL中，RL代理（绿色汽车）与对手（黄色汽车）一起训练，生成极具挑战性甚至无法解决的环境。在RRL-Stack中，RL代理使用自适应正则化对手进行训练，该对手生成具有挑战性但可解决的环境，以提高对不同测试环境的鲁棒性。将环境不匹配视为对智能体的对抗性扰动。RARL制定了一个两人零和同时游戏之间的主角谁的目的是找到一个强大的战略跨越环境和对手谁施加扰动。计算方法已被提出来解决这个游戏，并找到一个强大的战略，为主角。尽管在许多任务中有很好的经验表现，但RARL框架下的现有方法有三个潜在的局限性：1）忽视RL代理部署的顺序性，2）产生过度保守的代理，3）诱导训练不稳定。这些限制将在第2.2节中详细讨论。在本文中，我们提出了一种新的鲁棒强化学习公式-为了形式化主角首先被训练然后被部署在不确定环境中的顺序结构通过假设对手为主角优化两个极端场景的线性聚合目标，RRL-Stack使主角能够在具有挑战性但可解决的对抗环境中学习鲁棒策略。RRL-Stack还提供了额外的灵活性来控制主角然后，我们利用Stackelberg学习[Fiez等人，2020]并开发Stackel-berg策略梯度（Stack-PG）方法，该方法具有已知的收敛性和稳定性保证，以找到RRL-Stack的局部代理解。本文的主要贡献是：（1）引入了一种新的Stackelberg博弈理论形式-arXiv：2202.09514v1 [cs.LG] 2022年2月+v：mala2277获取更多论文S ×A →P S × A →SS A P SA−A →∼P 公司简介A → S S × A ×S A A P AAT−1γt r（st，at），其中τ表示轨迹的RRL（第3.1节），b）开发一个堆栈PG，一个解决游戏的策略梯度方法（第3.2节），c）证明RRL-Stack公式与堆栈PG一起与现有方法相比显着降低了训练的不稳定性，并且代理从具有挑战性但可解决的对抗环境中学习鲁棒但不过度保守的策略（第4节）。2相关作品2.1马尔可夫决策过程与随机对策我们考虑由5元组（，r，γ，μ0）定义的马尔可夫决策过程（MDP），其中是一组状态，是一组连续或离散的动作。：（）是转移概率，r：R是奖励函数，γ是折扣因子，μ0是初始状态分布。RL的目标是找到一个参数化的策略π θ：S×A →R这意味着没有代理人可以通过偏离均衡策略来获得更高的回报。虽然NE是一个标准的解决方案的概念，为错误的移动游戏，使用NE的RRL忽略了实际的政策部署的顺序，因为主角例如，2020年]。考虑到这种连续性，更合适的解决方案概念是Stackelberg均衡（SE）。在零和博弈中，主角在SE中的策略与最大最小鲁棒策略一致。虽然在许多零和游戏中，NE也与SE重合，但在RARL中并非如此，如[Tessler et al.，2019年;Zhang等人，2019年]。其中一个原因是，使用深度RL中的策略参数化，例如，利用神经网络，随机对策的目标在参数空间中是不同于大多通过使预期收益Eτπ[R（τ）]最大化的现有的作品，我们的RRL-Stack采用了层次游戏-ΣΣΣt=0时θ理论公式和解决方案的概念，形式化实际策略部署的顺序使用策略πθ采样。为了简单起见，我们将策略的符号重载为策略参数Eτθ[R（τ）]：产生过于保守的代理人现有的工作通常假设主角和对手玩零和游戏Eτ<$πθ[R（τ）]。一个两人随机博弈[沙普利，1953年]被定义对手最小化主角的预期回报的游戏。然而，这种提法鼓励了以一个tuple（，一、二、，r1，r2，γ，s0），其中1和2是代理1和代理2的动作空间。：1个21998年，）是转移概率。 r1，r2：12R分别是Agent 1和Agent 2的奖励函数。若r1=r2，则随机对策为零和，否则为一般和.2.2基于对抗训练的鲁棒强化学习在RL应用中，训练和测试中的转换模型有时可能会有所不同。例如，在Sim2Real传输中，物理模拟器具有不可避免的建模误差，而现实世界总是具有意想不到的不确定性[Akkaya et al.，2019年]。为了解决这个问题，[Pinto等人， 2017]提出了鲁棒对抗强化学习（RARL），它引入了对手对环境动态施加扰动，例如施加到机器人关节的干扰力，重力常数和摩擦系数。RARL制定了一个同时零和随机博弈。更具体地说，设θ为在不确定环境中行动的主导者的策略参数，θ为控制环境动态的对手的策略参数。RARL假设主角最大化Eτθ，R[R（τ）]，而对手最小化它。[Tessler等人，2019]引入了Noisy Robust MDP，以在不访问环境模拟器的情况下对命令动作应用扰动。[Kamalaruban等人，2020]从采样的角度适应Langevin学习动力学来接近鲁棒RL。此外，大多数现有的作品使用基于梯度下降上升的算法来训练代理。尽管在许多任务中取得了经验上的成功，但现有的提法仍有一些局限性。忽略了顺序性大多数现有的方法使用纳什均衡（NE）作为解决方案的概念，对手产生极其困难的，甚至是无法解决的问题的主角。因此，主角可能会选择过于保守的策略，甚至无法学习任何有意义的策略，因为最具对抗性的[Dennis等人，2020]提出了PAIRED来缓解这个问题，用遗憾代替目标中的回报，这与我们提出的方法关系最密切。主人公潜在的训练不稳定性除了上述两个与游戏公式相关的问题之外，RARL中的梯度下降-上升学习动态即使在简单的线性二次系统中也可能导致显著的训练不稳定性训练的不稳定主要是由于环境的非平稳性造成的. RARL的最新研究[Zhang et al.，2020年;Yu等人，2021]旨在解决这个问题，但仅适用于零和公式的线性二次系统。相比之下，我们的算法依赖于Stackel-berg学习动态[Fiez et al.，2020]可以应用于更一般的RL设置。3方法我们首先在第 3.1 节中介绍我们提出的公式，作为Stackelberg博弈的鲁棒Rein-Stack学习（RRL-Stack）。然后，我们将在3.2节中介绍我们的主要算法StackelbergPolicy Gradient（Stack-PG）。3.1Robust RL作为Stackelberg博弈虽然在大多数现有作品中被表述为同时游戏，但对抗性和鲁棒性训练实际上是顺序的（或分层的）[Jin等人，2020年]。在通过对抗训练的鲁棒RL中，主角必须选择其策略Eτπθ+v：mala2277获取更多论文Pro∼∼∈−−∼∼∈×∇∈∈×-−∼=dθ≥ψ−首先，然后对手选择最好的回应政策，鉴于主角为了形式化这种固有的顺序结构，我们将鲁棒RL公式化为Stackelberg我们修改了[Bas Mesar and Olsder，1998]的命题4.4，以形式化斯塔克尔伯格均衡和纳什均衡下的收益率之间的关系：游戏如下：最大Eτθ，θ[RPro（τ）]s. t.命题3.1考虑一个任意充分光滑的两人一般和对策（fpro，fadv），θ∈Θ∈arg maxEτ电子空间。设fpNron表示所有纳什均衡的最大值'∈其中θ和θ分别参数化主角和对手的策略。Eτθ，[Rpro（τ）]是主角的预期回报。有了层次博弈结构，我们现在的目标是解决广泛适用的零和公式所造成的局限性它可能导致一个过于保守的主角为了解决这个问题，我们引入了一个预言术语，它编码了主角在当前对抗环境中的最高可能回报。受经济学文献中的alpha-maxmin预期效用的启发[Li et al.，2019年]，我们线性聚合这个神谕术语与原始对手的目标。从形式上讲，最大Eτθ，τ[Rpro（τ）] s. t.（一）θ∈Θ最大值αEτθ，'[ Rpro（τ）]+（1α）V（τ′），（2）'∈其中，V（′）是在当前敌对环境′下，protago-nist的最高可能回报。这个术语是通过训练一个本地的Oracle RL代理来近似的。优化假设oracle代理的策略由ω，V ω（τ ′）：= sup ωE τ ω，τ ′ [ R ora（τ）]参数化。这个术语可以被看作是对手目标的正规化对手被激励去创造具有挑战性的环境解决当前主角但可解决的Oracle代理。当主角学会解决当前环境时，对手被迫寻找更难的环境以获得更高的奖励，从而自适应地增加所生成环境的难度。主角的rium回报和fpSro表示主角的任意Stackelberg均衡回报。则若R（θ）是单点的，对每个θ∈Θ，fpSro≥fpNroo.然而，由于不能期望在一般非凸-非凹目标下有效地找到Stackelberg博弈的全局解，我们使用SE的充分条件定义了以下局部均衡概念。定义3.2（微分Stackelberg平衡）（DSE）[Fiez等人，2020]联合策略（θ，θ）θ，其中θ= r（θ），其中r是由下式定义的隐式映射：adv（θ_i，θ_i）= 0，是微分Stackelberg平衡点若Dfpro（θ，r（θ））= 0且φ2fpro（θ，r（θ））是负定的（D（·）表示全导数）.为此，关键问题是如何解决RRL-Stack。我们现在解释如何利用Stackelberg学习动态来开发Stackelberg策略梯度（Stack-PG），该动态具有已知的收敛性和稳定性保证，以在足够的正则性条件下找到DSE。3.2Stackelberg策略梯度（Stack-PG）Stackelberg学习动态[Fiez等人，2020]假设存在从θ到最佳的隐式映射-响应主角基于全导数（Dfpro：= dfpro（θ，r（θ））/dθ）而不是偏导数（θfpro）更新其参数。由于追随者选择最佳对策r=r（θ），追随者因此，领导者可以其更新政策的目标的总导数dfpro（θ，r（θ））fpro（θ，） dr（θ）fpro（θ，）系数α[0，1]平衡了环境的对抗程度，并线性聚合了两种极端情况：=+个dθ θdθ（三）∂ψ• 当α= 1时，RRL-Stack最大化策略。• 当α= 0. 5、解决方案对应策略当对手最大化主角隐式微分项可以使用隐函数定理[Abraham等人，2012年]：dr（θ） .2fadv（θ，θ）2fadv（θ，∂θ∂ψ∂ψ2• 当α= 0时，解对应于Maximax策略，主角选择一种策略，在最乐观的情况下产生最好的结果。记fpro（θ，τ）：=Eτθ，τ ′[Rpro（τ）]和fadv（θ，τ）：=αEτθ，τ′[Rpro（τ）] +（1α）Vτ′（τ′）。Stackelberg博弈的解是Stackelberg均衡。我们有以下定义：定义3.1（Stackelberg均衡（SE））主角的联合策略（θ，θ）θ通过结合等式3和等式4，我们得到了主角的更新规则。Stackelberg学习动力学提供了局部收敛保证DSE正则性条件下。我们在附录B中包括一个数值示例来证明：1）为什么SE是比NE更适合于鲁棒学习的解决方案概念，以及2）Stackelberg学习动态如何收敛到DSE，而梯度下降上升算法无法收敛。Stackelberg学习动力学所需的Hessian计算复杂度为O（n2），其中n是INFθ∈R（θ∈）fpro（θ，θ）inf∈R（θ） fpro（θ，θ），θ∈Θ，政策参数的数量。当n很大时，它可能会非常慢。有一些技术可以有效地其中R（θ）={θ′∈ θ |fadv（θ，θ′）≥ fadv（θ，θ），θ∈θ}是对手的最佳对策集，且θ∈R（θ∈）计算深度神经网络的无偏海森近似，例如曲率传播[Martens等人，2012年]。（四）+v：mala2277获取更多论文←−S关于我们联系我们←←−Sǁ ǁ≤← −∂ψ∂ψ阿普罗·阿布拉−算法1：StackelbergPolicyGradient（Stack-PG）1输入：{τpro}M，{τora}M，θk−1，学习率γθ2ωS，θ←θfpro（θ，θ）+算法3：使用Stack-PG1输入：主角好吧ˆ2Σ−1ˆ20 0 0θ−fadv（θ，θ）+ λIfpro（θ，θ）3，k = 1，2，. . . ，Niterdo4{τpro}M←卷展栏（πθ，πθ）3θkθk1+γθω，θ4 输出：θk5{τ oraK}M←rollout（πω，πωk−1k−1）算法2：MultiPolicyGradient1输入：{τpro}M，{τora}M，k−1，学习率γ，自动调整∈ {True，False}，平滑因子ρ2g1<$E[−R（τ）]，g2<$Eτ<$ω，<$[R（τ）]6θkStackelbergPolicyGradient（τproM，τoraM）7μkMultiPolicyGradient（τproM，τoraM）图8在给定的环境中训练πω9端部10 输出：θNiter∂ψ3 如果自动调谐，则∂ψ4通过求解（5）找到最优αε5α←ρα+（1−ρ）α//移动平均线其中，最优d=（αg1+（1−α）g2）/λ，λ是6端部7 ωS，ωαg1+（1 α）g28 克什托克1+γω，ω9 输出：kHessian的逆的计算是另一个负担，但是可以通过近似方法（例如共轭梯度）来减轻[Shewchuk等人，1994]和最小残留量[Saad和Schultz，1986]。我们把集成有效的计算方法留到以后的工作中去。主角的更新规则基于Stackelberg学习动态，我们开发了主角的更新规则，Stackelberg策略梯度（Stack-PG），如算法1所示。类似于策略梯度算法，我们得到了无偏估计的一阶和二阶梯度信息的基础上的轨迹样本。无偏估计量的详细信息见附录A。我们还可以将状态相关基线引入梯度估计器以减少方差。正则化项λI确保Hessian估计是可逆的，其中λ是标量，I是单位矩阵。请注意，当我们增加λ的值时，主角的更新首先类似于LOLA[Foersteretal.， 2017年]，并最终成为标准的政策梯度。Advertising由于对手的目标中有两个术语，因此可以从多目标强化学习的角度来看待。我们可以使用多目标学习的多梯度下降算法（MGDA）动态更新α值，而不是手动调整α值令g1：=<$Eτ<$θ ， <$[Rpro（τ）]， g2：=<$Eτ<$ω，<$[Rora（τ）].我们希望通过求解最优化问题来找到近似最大化这两项的最小改进的α混合化问题：约束d的拉格朗日乘子1.一、在求解出α_i后，我们用指数移动平均法平滑地更新α。对手的更新算法如算法2所示。请注意，这个α自动调整不是必需的，而是一个自动超参数调整的工具。Oracle代理在实践中，我们发现在每次迭代中为Oracle代理执行多个策略优化步骤可以很好地达到目的。算法3总结了我们的主要算法。在每次迭代中，我们首先使用主角和对手的策略（第4行）展示轨迹，以及使用oracle代理和对手的策略（第5行）展示轨迹。接下来，我们使用Stack-PG来更新主角然后，我们使用基于策略梯度的方法来更新对手最后，我们在当前的对抗环境中训练oracle代理，直到达到局部收敛（第8行）。4实验我们进行实验来回答以下问题：（Q1）我们的方法是否产生具有挑战性但可解决的环境？（Q2）我们的方法是否提高了鲁棒性和训练稳定性？（Q3）α的选择如何影响主角的表现？4.1基准算法我们考虑两种游戏公式：零和RRL-Stack，以及3种现有的学习算法：服从-下降-上升（GDA）：GDA以1：1的比例在主角和对手的策略梯度更新之间交替[Zhang等人， 2021年]。1最小值αg +（1−α）g2，s.t. α∈ [0，1].（五）最大最小运算符：极大极小算子与GDA相似，α212但不同的是，对手更新多个iter，它是原始优化问题的对偶形式：最大值最小值d，gi，（6）主角的每次更新之间的关系[Tessler等人， 2019年]。在实验中，我们使用1：3的比例来交替更新主角和对手。最大值≤1i+v：mala2277获取更多论文图2：测试期间的高速公路合并策略可视化绿色的车由主角控制，黄色的车由对手控制汽车变红意味着碰撞。不透明的线表示驾驶轨迹。上一行包含接近剧集开始的时刻，下一行包含接近剧集结束的时刻。具有顺从学习意识的学习（LOLA）：LOLA [Foerster etal.，2017年]是一个开创性的工作，考虑对手，而做梯度上升。我们选择LOLA是因为它与Stackelberg学习动力学相似我们考虑了几种博弈公式和学习算法的组合：GDA、Maximin算子和LOLA的零和博弈公式; GDA、Maximin算子和Stack-PG的RRL-Stack博弈公式。零和+GDA和零和+ Maximin算子在RARL的现有工作我们还包括一个非鲁棒训练基线（No-Adv），以突出鲁棒训练基线与非鲁棒训练基线非强有力的训练。在没有具体提及的情况下，策略由具有两个隐藏层的MLP参数化。所有的代理都是使用策略梯度算法与亚当优化器和相同的学习率进行训练每个图使用从不同的随机种子生成的5个策略来计算对于每个策略，情节奖励在48个情节上进行更多的实验细节包含在附录C中，所有相关的源代码包含在补充材料中。4.2公路合并任务在高速公路合并任务中[Leurent，2018]，主角的目标是控制自我车辆（绿色）并入主车道，同时避免与其他黄色车辆碰撞或撞到坡道的尽头。在每个时间步，对手控制黄色车辆的攻击性，其加速度与攻击性成正比。黄色车辆只能在中间车道行驶，而自我车辆可以转换车道。在这个实验中，我们的目标是回答（ Q1 ）和（Q2）。我们比较我们的方法RRL-Stack + Stack-PG与α= 0。5、针对基准方法零和+ Maximin算子和非鲁棒训练（No-Adv）代理。为了评估对不同环境参数的鲁棒性，我们将黄色车辆的攻击性从0变化到10，并比较每种方法的情节奖励。为了回答（Q1）RRL-Stack + Stack-PG是否产生具有挑战性但可解决的环境并允许主角学习鲁棒的策略，我们在图2中可视化了最终策略的轨迹。对于No-Adv来说，由于黄色汽车在训练过程中没有与主角相撞，所以主角没有意识到黄色汽车的危险因此，No-Adv在不可见环境中的测试期间表现出较差的鲁棒性对于零和+最大最小算子，对手很快就找到了继续阻止的策略。主车道在自我车辆进入车道之前，这使得环境完全无法解决的主角。在这种情况下，主角无法学习任何稳健的策略，而只能到达斜坡的尽头。相反，对于α = 0的RRL-Stack + Stack-PG。5.由于对手不是完全敌对的，而是最大限度地增加了主人公的遗憾，因此所产生的环境是令人不安的，但仍然是可以解决的。主角学习鲁棒策略以切换到中间车道，并立即切换到最左边的车道以避免潜在的碰撞。因此，与基线相比，RRL-堆栈+堆栈-PG代理对未知环境表现出更强的鲁棒性为了回答（Q2）我们的方法是否提高了鲁棒性和训练稳定性，图3显示了训练过程中的奖励。奖励是在没有对手的情况下在相同的环境中进行评估的，以便进行公平的比较。非鲁棒训练（No-Adv）是稳定的，收敛速度快，因为主角是在没有对手的环境中训练和评估的（但是我们会观察到它对看不见的环境不鲁棒）。我们观察到，在大约20次迭代之后，零和+最大最小运算符的对手很快学会了使任务无法解决，因此训练进度迅速发散，并且主角相比之下，RRL-Stack + Stack-PG能够自适应地调整环境的难度，以确保任务保持可解性，并且主角不断学习鲁棒的策略。图3：高速公路合并训练曲线。x轴是主角的训练迭代。y轴是在没有对手的环境中评估阴影区域表示标准差+v：mala2277获取更多论文--联系我们图4：针对不同攻击性级别的鲁棒性。阴影区域表示标准偏差。图4示出了针对不同攻击性水平的奖励。我们观察到，使用No-Adv和零和+ Maximin算子训练的策略对不同的攻击性水平都不具有鲁棒性。相比之下，RRL-Stack+ Stack-PG代理在测试期间对看不见的环境参数更加鲁棒。RRL-Stack + Stack-PG的平均回报大幅优于基线，方差显著较小。4.3具有驱动延迟的致动延迟是机器人控制中的常见问题[Chen等人， 2021年 ] 。我们在Ope-nAI Gym中修改了 LunarLander 环境[Brockman 等人， 2016] ，以模拟致动延迟的影响。LunarLander中的主角有4个独立的动作：关闭所有引擎，打开左引擎，打开右引擎和打开主引擎。我们的目标是训练一个主角，这是强大的命令行动被延迟执行几个步骤。在对抗训练期间，在每个时间步，对手从0，1，2，.中选择一个数字， 10，代表主角动作的延迟步骤。在测试期间，延迟步长在每个事件中是图5：具有不同动作延迟步骤的在图5中，我们显示了与基线相比，不同行动延迟步骤的情景奖励。这里只显示了从0到4的动作延迟步长，因为对于所有方法来说，更多延迟步长的回报都很低，在统计上没有意义。我们发现RRL-Stack + Stack-PG的性能优于基线，特别是在延迟步长0到3处。为了回答α对RRL-Stack + Stack-PG鲁棒性的影响，我们研究了α的鲁棒性，0的情况。0，0。四，零。5、0。六，一。0以及图6中的自动调整α（Stack+Auto-α）。当α= 0. 四，零。5，当α = 0时，对不同的动作延迟步骤都保持高度的鲁棒性。0表示非稳健代理，α=0。6，α= 1。0产生过度保守的代理。使用Stack+Auto-α，主角可以获得与最佳性能α = 0相当的性能。四，零。5、不做微调。图6：不同α对情景奖励的影响。为了研究Stack-PG是否有助于稳定训练，我们使用相同的RRL-Stack游戏公式，α= 0。但是在图7中应用不同的学习算法。我们测试了GDA，Maximin和Stack-PG，并观察到Stack-PG不仅稳定了训练过程，而且与GDA和Maximin 相比显着降低了性能的方差，再次回答（Q2）。这与最近的工作是一致的，这些工作已经表明，感知感知建模提高了生成对抗网络中的训练过程稳定性[Schäfer et al.， 2019年]。图7：不同学习算法5结论在这项工作中，我们通过对抗训练问题研究了鲁棒强化学习。据我们所知，这是第一次使用Stackelberg博弈理论公式来形式化鲁棒RL代理我们使智能体能够在具有自适应正则化对手的渐进挑战性环境中学习强大的策略。我们开发了一种基于Stackelberg学习动力学的策略梯度算法。在我们的实验中，我们评估了我们的算法对多代理和单代理任务的鲁棒性，并证明了我们的算法在单代理和多代理任务中明显优于鲁棒和非鲁棒基线+v：mala2277获取更多论文引用[亚伯拉罕等人，2012] Abraham，R.，Marsden，J.E.，和Ratiu，T.（2012年）。流形，张量分析与应用，第75卷。Springer Science Business Media.[Akkaya等人，2019] Akkaya，I.，Andrychowicz，M.，Chociej，M.，Litwin，M.，McGrew，B.，Petron，A.，Paino，A.，Plappert，M.，鲍威尔，G.，里瓦斯河等（ 2019 ）。用机器手解魔方。 arXiv 预印本arXiv：1910.07113。[Bas Besar and Olsder，1998] Bas Besar，T.Olsder，G.J.（1998年）。动态非合作博弈论暹罗。[Brockman等人，2016] Brockman，G.，Cheung，V.，彼得森湖，施耐德，J.，Schulman，J.，唐，J.，和扎伦巴，W.（2016年）。开放健身房。arXiv预印本arXiv：1606.01540。[Chen 等人， 2021] Chen ， B.，徐，M. ， Li ， L. ，和Zhao，D.（2021年）。延迟感知的基于模型的强化学习连续控制。神经计算，450：119[Dennis 等人， 2020 年 ] 丹尼斯， M. ， Jacques ， N. ，Vinitsky，E.，Bayen，A.，罗素，S.，克里奇，A.，和Levine，S。（2020年）。通过无监督环境设计实现紧急复杂性和零触发传输。arXiv预印本arXiv：2012.02096。[Dézéri，2012] Dézéri，J.- A.（2012年）。多目标优化的多重梯度下降算法。Comptes Rendus Mathematique，350（5-6）：313[Ding等人，2021]丁，W.，陈伯，李，B.，恩，K。J.，和Zhao，D.（2021年）。用于决策算法评估的多模态安全关键场景IEEERobotics and Automation Letters，6（2）：1551[Fiez等人，2020] Fiez，T.，Chasnov，B.，和Ratliff，L.（2020年）。Stackelberg游戏中的内隐学习动态：均衡表征、收敛分析和实证研究。国际机器学习会议，第3133-3144页。PMLR。[Foerster等人，2017] Foerster，J. N.，陈河，巴西-地是的，Al-Shedivat，M.，Whiteson，S.，Abbeel，P.，和Mordatch，I.（2017年）。学习要有顺向学习意识。arXiv预印本arXiv：1709.04326。[Jin等人，2020] Jin，C.，Netrapalli，P.，Jordan，M.（2020年）。非凸-非凹最小最大优化中的局部最优性是什么？国际机器学习会议，第4880-4889页PMLR。[Kamalaruban等人，2020年] Kamalaruban，P.，黄玉-T. ，谢云 P. ， Rolland ， P. ，施， C. ， Cevher ， V.（2020）。基于langevin动力学对抗训练的鲁棒强化学习arXiv预印本arXiv：2002.06063。[Leurent，2018] Leurent，E.（2018年）。一个自动驾驶决策的环境。https://github.com/eleurent/highway-env.[Li等人，2019] Li，B.，Luo，P.，（1975 - 1980），中国科学院院士，和Xiong，D.（2019年）。期望效用最大化的均衡策略。 SIAM Journal on FinancialMathematics，10（2）：394-429.[Martens等人，2012] Martens，J.，萨茨克弗岛，巴西-地还有斯沃斯基K.（2012年）。用反向传播曲率估计海森函数。arXiv预印本arXiv：1206.6464。[Morimoto and Doya，2005] Morimoto，J. and Doya，K.（2005年）。强大的强化学习。Neuralcomputation，17（2）：335[Pinto等人，2017] Pinto，L.，戴维森，J.，苏克欣塔尔河，巴西-地和Gupta，A.（2017年）。强大的对抗性强化学习。国际机器学习会议，第 2817-2826 页PMLR。[Saad and Schultz，1986] Saad，Y.Schultz，M.H. （1986年）。Gmres：一个求解非对称线性方程组的广义最小残差算法。SIAM Journal onscientific and statisticalcomputing，7（3）：856[Schäfer等人，2019] Schäfer，F.，郑洪，和Anandku-mar，A.（2019年）。gans中的隐式竞争正则化arXiv预印本arXiv：1910.05852。[Shapley，1953] Shapley，L. S.（一九五三年）。随机博弈美国国家科学院院刊，39（10）：1095-1100。[Shewchuk等人，1994] Shewchuk，J. R.等（1994）中所述。介绍了共轭梯度法，没有痛苦的痛苦。[Tessler 等人， 2019] Tessler ， C. ， Efroni ， Y. ，和Mannor，S.（2019年）。动作鲁棒强化学习及其在连续控制中的应用。国际机器学习会议，第6215-6224页PMLR。[Yu 等人， 2021] Yu ， J.，格林角， Schäfer ， F. ，和Anand- kumar，A.（2021年）。鲁棒强化学习：一种约束博弈论方法。动力学与控制的学习，1242-1254页PMLR。[Zhang 等人， 2021] Zhang ， G.，王玉，莱萨德湖和Grosse ， R 。（ 2021 年）。 arXiv 预印本 arXiv ：2102.09468。[Zhang等人，2020] Zhang，K.，胡，B.，和Basar，T.（2020年）。鲁棒对抗再强化学习的稳定性和收敛性：线性二次系统的实例研究。神经信息处理系统的进展，33。[Zhang等人，2019] Zhang，K.，杨志，和Bas Pastar，T.（2019年）。多智能体强化学习：理论和算法的选择性概述。 arxiv 电子印刷品，第页。 arXiv 预印本arXiv：1911.10635。[Zhao等人，2020]赵，W.，Queralta，J.P.，还有韦斯特伦德T. （2020年）。机器人深度强化学习中的模拟到真实的转移2020年IEEE计算智能研讨会系列（SSCI），第737- 744页美国电气与电子工程师学会。

下载后可阅读完整内容，剩余1页未读，立即下载