没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报探索弱点:指导性探索对抗性鲁棒强化学习吴春阳a,朱飞a,b,刘泉aa苏州大学计算机科学与技术学院,江苏苏州215006b苏州大学应用技术学院,江苏苏州215325阿提奇莱因福奥文章历史记录:2021年12月23日收到2022年7月31日修订2022年8月1日接受2022年8月9日在线发布关键词:勘探鲁棒性内在好奇心机制A B S T R A C T虽然强化学习在许多仿真平台上被证明是有效的,但由于仿真环境与真实世界环境的差异,以及受到客观存在的无例外的攻击,它仍然可能因此,它要求提高代理的鲁棒性,以增加其稳定性。针对该问题,提出了一种基于好奇心机制的启发式探索对抗鲁棒强化学习算法(Iearrl),通过对抗学习增强了Agent的自适应能力,确保Agent在实际环境中选择更好的行为同时,为了提高探索效率和降低成本,建立了Agent能力评估模型,通过分析Agent在当前状态空间中的行为,指导内部奖励决定是否需要进一步探索在MuJoCo平台上的实验验证了该方法的有效性。©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍强化学习是一种机器学习,通过与环境交互来最大化累积奖励,从而获得最优策略。强化学习已经在很多领域得到了广泛的应用,并成为了一个热点(Zhang et al.,2020年)。在使用深度强化学习解决各个领域的挑战性问题方面取得了重大进展(Henderson et al.,2018年),展示了其潜在的力量(Kamalaruban等人,2020; Aslanpour,2018; Khorsand等人,2019; Shakarami等人, 2021年)。但是,仍然存在一些困难。首先,不确定性总是存在于现实世界的环境中。不确定性分为任意不确定性和认知不确定性。*通讯作者:苏州大学计算机科学与技术学院,江苏苏州215006。电子邮件地址:zhufei@suda.edu.cn(法国)Zhu)。本 课 题 得 到 了 国 家 自 然 科 学 基 金 ( 61303108 ) 、 江 苏 省 自 然 科 学 基 金(BK20211102)、江苏省高等学校重点学科建设项目的制作和主办:Elsevier肮脏任意不确定性表示任务固有的随机性,如类重叠和数据噪声;认知不确定性是由于缺乏模型的观测数据而产生的一般来说,在训练阶段很难考虑到所有的信息如果我们忽略这些异常,代理人实际应用受到限制,因为强化学习算法经常受到数据偏差的影响。在实际生产环境中,有多种方法可能会恶意攻击模型。在行动和批评阶段,Agent通过神经网络计算获得奖励,攻击会造成偏差。因此,必须提高模型的鲁棒性,并使智能体能够承受运行过程中的各种异常情况有一些关于鲁棒性研究的工作来解决上述问题。他们中的许多人使用梯度攻击来增加训练期间的鲁棒性(Mandlekar等人,2017年) , 并 在 训 练 期 间 干 扰 评 论 家 网 络 , 以 提 高 模 型 的 鲁 棒 性(Pattanaik等人,2018年)。在多代理领域也有与鲁棒性相关的研究,通过动态过滤来抵抗恶意代理,以确保状态被限制在约束集(Shang,2020)。然而,由于大多数功能依赖于代理为了解决这个问题,我们开发了https://doi.org/10.1016/j.jksuci.2022.08.0011319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comC. Wu,F.Zhu和Q.刘沙特国王大学学报8153不ri^2不以好奇心激发Agent为样本进行对抗性训练,通过自我评价模型动态调整内在我们将该算法称为启发式探索对抗鲁棒强化学习(Iearrl),它提高了探索效率,增强了智能体的鲁棒性。我们在本研究中的贡献如下:采用对抗性学习和好奇心机制来鼓励探索,使智能体在训练过程中适应更多的状态。通过Agent在培训过程中的表现建立自身能力模型在好奇心机制中引入了自我评价模型,解决了原有的内在奖励不能确定Agent是否学会了在特定状态下做出适当动作的问题。通过对模型的多种攻击方法以及对环境参数的修改,证明了算法在多种本文的结构如下。在第二节中,我们介绍了相关的工作;在第三节中,我们详细描述了算法;在第四节中,我们演示和分析实验结果;在第五节中,我们做了总结的工作。2. 相关工作在 本 节 中 , 我 们 将 概 述 强 化 学 习 中 的 马 尔 可 夫 决 策 过 程(MDP),它描述了完全可观察的环境,并分析了现有的鲁棒深度强化学习方法。本节还介绍了对抗学习和内在好奇心机制,这是我们算法的重要组成部分。2.1. 马尔可夫决策过程在强化学习中,智能体在训练过程中不断与环境交互。在每个时间步,代理根据从环境中获取的状态采取行动。代理收到奖励并转移到新的状态。MDP通常用于对使用约束学习算法解决的问题进行建模(Feinberg,1996)。MDP是深度强化学习的基础,具有重要的研究意义(Ying,2021; Ahluwalia,2021)。更好地理解MDP有助于开发基于强化学习的方法来解决问题。MDP定义为5元组(S;A;P;R;c),其中S是状态的集合,A是动作空间R表示报酬函数,P:S × A! S是其他领域(Zhou等人,2020),例如,AIMED-RL(Labaca-Castro等人,2021)生成对抗性示例,导致模型错误分类恶意软件文件,而不影响功能。在这项工作中,我们提出了一个强大的对抗性强化学习框架,其中有两个代理,一个用于提高代理两代理人,一个主要代理人表示为p和一个敌对代理人表示为p′,玩零和游戏,直到纳什均衡m,其中一方的更高回报意味着另一方的损失,而双方的总和始终保持为零。当最优代理达到pω时,纳什均衡满足.在这种情况下,双方都没有优化结果(Tessler等人,2019年)。这种对抗训练有助于主智能体在训练过程中探索更多的未知领域,从而使智能体适应复杂的环境。更新公式为:一个又一个主角,一个又一个主角,其中主角是主要代理人的动作,adversary是对抗代理人的动作,D是控制训练中对抗代理人的比例将对抗和主代理的动作结合起来是深度强化学习中对抗训练的方式我们还需要约束对抗代理的动作分布,以限制攻击,并实现在训练过程中提高鲁棒性的目标,而不会使奖励过低。2.3.内在好奇心机制提出了内在好奇心机制来解决稀疏奖励(Pathak等人,2017),它通过自我监督学习产生内在奖励,也用于其他领域(Burda,2019;Colas,2020)。好奇心机制的一个重要部分在预测过程中,当给定当前状态和动作项时,使用特征空间开发前向动力学模型来预测状态的特征表示该模型得到如下形式的预测,并将其与实际环境中的状态进行预测状态和后续状态之间的显著偏差会产生一个更好奇的代理,更有动力去探索。传统的好奇心机制有两个模块。第一种是基于前一轮获得后续环境轮的它通过给定a t和s t的现有策略p预测后续状态s t1。之后,传递at和/st再次传递到神经网络,以获得后续状态。的第二个模块相当于一个逆模型,基于/St和/St1对动作at进行逆推导内在奖励ri是概率转移函数,其中时间步长t处的转移概率可以写为ps0js;at<$$>Prst<$1<$s0jst <$s;at<$at。奖励函数可以定义为Rs;a;s:<$E½rtjs t<$s;at<$a;st 1<$s0]。式中,c2½0;1]为discountingfactor,st为电流状态,而ST1是下一个状态。强化学习的目标是最大化累积的奖励,可以表示为Gt¼Rt1cRt1.. . 1千美元0ckRtk1,其中Gt是贴现的Gt¼2jj/st -/st1j22其中,ri是内在奖励,g是常数,f和f是用于编码状态的两个不同^时间步长t的奖励。¼2.2. 对抗性学习对抗性训练用于通过调查对手利用来攻击代理的漏洞来对抗对代理的 对 抗 性 攻 击 ( Ilahi 等 人 , 2022 年 ) 。 它 用 于 生 成 对 抗 网 络(Goodfellow et al.,2020年)和/st1f/st;at;hF3其中f是另一个前向网络。产生好奇心驱动的内在动机的前向动机和后向动机都需要优化。 状态st用于策略p,以在利用生成的动作s tt t 1进行计算的同时开发后续动作at。尽管存在一些用于探索的自适应系统(Metzger等人, 2022年),好奇心机制具有重要意义●●●●C. Wu,F.Zhu和Q.刘沙特国王大学学报8154ðÞMðÞ损失¼m[医]甲状旁腺素不2不这些优势使其基于新状态的内在奖励驱动性质而具有更强的动力好奇心机制在鼓励智能体探索方面起着至关重要的作用,并允许智能体在训练过程中探索更多的状态,这可以显着提高模型的鲁棒性。3. 方法详细介绍了算法的实现过程,包括算法的输入和输出,以及神经网络的更新方法。本节还对主要算法的时间复杂度进行了分析。3.1. 自我能力评价我们需要对模型进行自我评估,因为探索状态并不一定意味着它已经学会了如何对状态做出适当的反应。受量化不确定性网络的随机微分方程模型的启发(Kong等人, 2020)在成像中,我们创建了一个用于评估智能体在特定状态下是否会执行准确动作的模型,称为自我能力评估模型。它用于增强智能体探索新状态的能力,使好奇心机制不仅通过状态的新颖性,而且通过模型的当前能力提供内部奖励。我们开发了一个自我能力评估模型,在正常环境中的教师网络,以实现目标,并采取行动a,状态s的代理作为输入的算法。我们通过以下损失函数更新算法,其中由教师模型输出的动作-状态对s;a与单位向量之间的距离用作根据以下公式计算的损失:教师网络输出的先前学习的成熟样本,这意味着在相同的状态下没有适当地选择动作,模型将输出较小的数字而不是较大的数字,以增强代理3.2. 对抗性学习的探索性研究对抗性鲁棒强化学习(Iearrl)算法以对抗性学习为总体框架进行了有益的探索。通过使用深度确定性策略梯度(DDPG)来更新主代理(Lillicrap等人,2016年)作为基线,对手代理人使用好奇心机制进行更新。对抗Agent生成与主Agent不兼容的动作,这有助于Agent探索更多未知区域,通过加权求和动作来增强其鲁棒性。两个代理的动作之和可以定义为:a¼a0mDωgst;st1;am5其中D是超参数,g是好奇心对抗代理的模型。此外,我们还引入了自我能力评估来评估智能体在特定状态下是否会执行准确的动作评价模型的输入为动作状态对,输出为好奇心机制内部奖励函数的权值。当前状态和前一状态之间的高值差异促使在相同状态下选择适当的动作。在这种情况下,该模型增加了状态的内部奖励,以鼓励智能体探索和学习。与传统的好奇心机制相比,我们的算法内部奖励函数可以表示为1X2rWReLufst;ajj/^s-/s吉吉ð6Þ1/1其中,Si是当前状态,Ai是当前状态下的选定动作,m是样本数。训练模型的过程如算法1所示。其中W是完全连接层。该算法的说明如下1,2其中f是状态的编码方法。该公式采用平方差的形式,它遵循了最初好奇心机制的设计,只需要相对简单的简单的平方差计算,以确保固有的算法一:自我能力评价模型训练算法无论何时,奖励都是积极的。对抗性鲁棒强化学习的指导性探索过程在算法2算法2:对抗性鲁棒强化学习的指导性探索我们使用正常环境中的动作状态对之间的距离和与动作状态对相同维数的单位向量。这个模型会很快稳定下来,因为用来产生s;a的教师网络已经收敛。在使用自我能力模型的过程中,如果输入与2ð4Þt12C. Wu,F.Zhu和Q.刘沙特国王大学学报8155ð× Þ!øð×ð þÞÞFig. 1.内在好奇心机制探索的例证。接下来,我们对模型进行收敛性分析。在模型经过几次训练后,它可以在大多数状态下采取适当的行动。此时,内部奖励系数不断变小,直到可以忽略。如果我们忽略内部奖励,干扰行为逐渐变得稳定,退化为传统的DDPG算法,可以稳定收敛。算法的时间复杂度分析如下。我们将i表示为输入层的节点数,j表示为第二层中的节点数,l表示为输出层中的节点数。由于有三层,我们需要两个矩阵来表示这些层之间的权重,标记为Wji和Wlj,其中Wji是j行i列的矩阵。假设我们有t个训练样本,第一个操作Sjt<$WjiωZit7时间复杂度为O,其中Z it是时间复杂度为O t j的激活函数。第二层的运算时间复杂度与第一层相同,训练过程需要两次前向传播操作。总的来说,前馈传播的时间复杂度是Oj×i×tl×j×t Ot×ijjl 8反向传播算法如下进行。从输出层l j开始,我们计算误差信号Elt,该矩阵包含层lElt¼f0SltZlt-Olt9其中表示逐元素乘法。请注意,Elt有l行和t列,简单地说,每一列都是错误训练示例t。那么增量权重Dlj2Rl×j可以定义为:Dlj¼EltωZtj10mm其中Ztj是Zjt的转置。然后,我们调整权重,Wlj<$Wlj-Dlj11mm为了我!因此,我们有时间复杂度Ol×tl×tl×t×jl×jOl×t×j12与传输过程中前馈传播的时间复杂度相同。总的来说,算法的时间复杂度为O nt,训练样本为t,迭代次数为n IJ JL.模型同时适当调整隐层参数的个数以避免过拟合。图二.Walker 2d-v2和HalfCheetah-v2环境的折线图,其中横轴是映射后的摩擦系数,纵轴是在多个权重系数下评估智能体C. Wu,F.Zhu和Q.刘沙特国王大学学报8156表1水平坐标是方法名称,垂直坐标是环境名称,值是从十轮评估中获得的均值和方差攻击方法耶尔尔香草关键稳健阿尔普尔步行者-V2自然奖励动作随机评论家萨尔萨2285 ± 1238342 ± **265983 ± 885302 ± 265337 ± 2481257 ± 1516121 ± 107349 ± 25183 ± 11376 ± 85868 ± 66285 ± 133255 ± 210110 ± 12862 ± 1021333 ± 474181 ± 282420 ± 308119 ± 27861 ± 66HalfCheetah-v2自然奖励动作随机评论家10832 ± 420476 ± 2903272 ± 354715 ± 48410086 ± 741-365 ±7201936 ± 745235 ± 5278371 ± 256433 ± 3641627 ± 197673 ± 1962574 ± 850354 ± 8421542 ± 853688 ± 828Humanoid-v2Sarsa自然奖励动作随机821 ± 3573193 ± 18491502 ± 8152960 ± 1280120 ± 5981083 ± 670724 ± 272839 ± 357533 ± 234412 ± 64245 ± 75390 ± 89673 ± 565422 ± 138367 ± 125323 ± 130料斗-V2评论家Sarsa自然奖励动作随机2227 ± 16092475 ± 15352655 ± 893222 ± 132469 ± 317788 ± 253620 ± 170948 ± 116203 ± 90348 ± 217121 ± 23167 ± 731039 ± 24055 + 36116 ± 82285 ± 158315 ± 146273 ± 9247 ± 67317 ± 102倒立摆-v2评论家Sarsa自然奖励动作随机评论家萨尔萨412 ± 63488 ± 3721000 ± 025 ± 6153 ± 1259 ± 1540 ± 34268 ± 70250 ± 36582 ± 2579 ± 147 ± 633 ± 2434 ± 19398 ± 185414 ± 2091000 ± 04 ± 17 ± 39 ± 919 ± 22310 ± 76249 ± 762 ± 12 ± 02 ± 02 ± 02 ± 0蚂蚁V2功德之3284 ± 1179445 ± 483-144 ±14014 ± 271行动-52 ± 21- 89 ± 68- 360 ± 921- 285 ± 484随机482 ± 81- 99 ± 139- 91 ± 71- 49 ± 114评论员-48 ± 24- 53 ± 25- 99 ± 84- 335 ± 515Sarsa- 92 ± 102- 144 ± 100- 690 ± 1227- 159 ± 172图三. Ant-v2和Humanoid-v2环境的折线图,其中横轴是映射后的摩擦系数,纵轴是在多个权重系数下评估智能体的奖励。4. 实验和分析在本节中,我们在MuJoCo平台下,在多种环境下比较了现有的几种方法有两种主要的方法来验证代理的鲁棒性。一个是测试在各种攻击方法下,代理是否能保持原有的奖励对模型和另一个是测试我们的模型在一个异常的环境下。4.1. 设置通过与其他方法的对比实验,验证了算法的有效性和鲁棒性我们在实验中选择以下函数进行比较,使用DDPG的基线定义为Vanilla;其 他 方 法 是 Adversarially Robust Policy Learning ( Arpl )(Mandlekar et al., 2017)和RobustCritic(Pattanaik等人,2018年)。 我们在MuJoCo上进行实验(Todorov等人,(2012)平台C. Wu,F.Zhu和Q.刘沙特国王大学学报8157见图4。Hopper-v2和InvertedPendulum-v2环境的折线图,其中横轴是映射后的摩擦系数,纵轴是在多个权重系数下评估智能体的奖励。表2通过Kruskal-Wallis H检验在不同环境中获得的每种方法的秩和p值Walker2d-v2HalfCheetah-v2Humanoid-v2料斗-V2蚂蚁V2倒立摆-v2Iearrl(rank)259.89274.05295.24222.21349.87300.49香草(等级)222.74261.58284.27248.55251.08200.51CriticRobust(等级)130.51215.8794.87263.7253.45250.50Arpl(等级)188.8650.507126.62117.52147.6050.50p<0.001<0.001<0.001<0.001<0.001<0.001表3下表显示了六种环境中每种算法的FLOP耶尔尔香草关键稳健阿尔普尔Walker2d-v2R6ωR1726776400258100002581000025810000HalfCheetah-v2R6ωR1726776400258100002581000025810000Humanoid-v2R17ωR37658634400553000005530000055300000料斗-v2R3ωR1126028800251200002512000025120000InvertedPendulum-v2R1ωR425271200244200002442000024420000基于健身房(Brockman等人,2016年),并确保模型的收敛性,通过培训的10 7个步骤,为每个代理。的涉及MuJoCo环境Walker2d-v2HalfCheetah-v2 、 Humanoid-v2 、 Hopper-v2 、 Ant-v2 和 InvedPendulum-v2。同时,我们在以下两种情况下评估我们的代理的鲁棒性。第一种是改变摩擦系数和各部分的权重。另一个是代理在行动中会受到强大的外部攻击或评论家阶段。4.2. 实验我们通过两组实验证明了它的鲁棒性。 第一组实验是通过用四种攻击方法攻击智能体来评估智能体的性能,所述攻击方法被定义为随机(Random),其将随机分布的数字添加到状态观测中,动作(Zhang等人, 2020),其使用正常和异常动作之间的距离来更新动作网络,Critic(Pattanaik等人, 2018),它使用梯度攻击处理状态来预测Q p_s; a_s,Sarsa(Zhang et al., 2020年:学习Qps;具有Sarsa中的TD损失和起源奖励的奖励被定义为自然奖励。第二组实验通过改变环境参数(摩擦系数,代理的各个部分的重量)和显示代理在这些异常环境中的性能来证明其鲁棒性。四种攻击方式下获得的奖励如下所示,横坐标为方法名称,纵坐标为环境名称,数值为十轮评价的均值和方差。从表1中的数据可以看出,我们的方法在几乎所有情况下都优于其他方法。在Walker 2d-v2环境下,我们的方法通过探索基本DDPG算法来提高其回报,这比其他方法在攻击下的回报更高。在在HalfCheetah-v2环境下,我们的方法可以帮助agent在Action攻击下表现得更好,尽管在正常环境下这种提升并不明显。虽然Action攻击下的奖励值略低于Hopper-v2环境下的Arpl方法,但Arpl算法不稳定,在简单环境(InvertedPendulum-v2)或易受干扰的环境(Ant-v2)中表现不佳。由于Arpl方法在训练过程中通过攻击agent的状态梯度的梯度,导致环境难以收敛,C. Wu,F.Zhu和Q.刘沙特国王大学学报8158这 也 可 以 解 释 为 过 度 攻 击 。 我 们 的 方 法 和 CriticRobust 方 法 在InvertedPendulum-v2环境中获得了最高的奖励。尽管如此,在评估过程中,我们的方法在Action,Random,Critic和SarsaCriticRobust方法的稳定性甚至低于原始方法,这表明我们的方法比其他方法限制更少,并且在各种环境中表现更好。自我能力评估模型相当于教师模型,但其目的是评估代理,从而给予内在的奖励,而不是直接指导代理学习。从并列比较的角度来看,如果一种方法只干扰动作或状态,就会导致代理无法适应其他攻击方法。CriticRoubst方法在各种环境下的Critic攻击下的回报显著高于其他攻击下的回报,例如,在Walker 2d-v2 环 境 下 , 暴 击 攻 击 获 得 的 奖 励 比 其 他 方 式 高 出 29.4% , 在HalfCheetah-v2环境下高出26%。虽然我们的方法的训练过程是通过干扰动作来提高代理的鲁棒性,但在其他攻击方法下仍然保持良好的稳定性。第二组实验是在改变参数的环境中进行的,以模拟代理在极端环境中的性能。下面的线图图3,4,显示了模型0.5到1.8为1到10,纵轴是代理的奖励我们为每个摩擦因素改变每个代理部分的权重系数重要的是要注意,并非所有代理都在摩擦下表现最好,并且身体部位系数为1;在某些环境中降低摩擦。陌生的环境会对你智能体在Walker 2d-v2环境中,传统方法在质量介于1.6和1.8之间的极端区域中改进更多并优于我们的方法,但在大多数区域中,我们的方法优于所有其他方法。其原因是我们在训练过程中通过敌对训练来模拟智能体在异常环境中受到干扰。由于使用梯度攻击训练的局限性,Arpl方法在Walker 2d-v2环境中表现不佳。在HalfCheetah-v2环境中,在质量在0.8和1.2之间的低扰动下,差异是微不足道的,但我们的方法在高扰动区域将奖励值提高了约30%。这种效果在其他环境中更为明显,有效地增强了代理人在焦虑环境中的稳定性。由于我们的方法在训练过程中引入了对抗性学习,相当于模拟了Agent在动作扰动下的性能,相比于其他的使状态扰动的方法具有更大的优势。在Hopper-v2环境中,我们的方法在低摩擦系数区域表现不佳。尽管如此,当摩擦系数增加时,它会改善,主要是因为料斗环境更可能在低摩擦系数区域中进行异常运动,并且还表明我们的方法的稳定性还有进一步改善此外,我们还介绍了(Daniel,1990)来判断实验中的数据差异是否具有统计学显著性。在不断变化的环境中通过方法获得的结果被视为每个平台上的数据集。由于数据集不满足正态分布且样本数超过2,因此我们选择了统计方法。计算Kruskal-Wallis检验统计量H值的程序首先,将数据组从最小到最大混合以编制排名,并取平均排名表4消融研究的结果如下表所示。水平坐标是方法名称,垂直坐标是环境名称,值是从十轮测试中获得的均值和方差攻击方式Iearrl香草Iearrl(original)Adv Walker-v2自然奖励2285 ± 1238 1257 ± 1516 1603 ± 11911567 ± 660活动342 ± 265 121 ± 107 215 ± 153 157 ± 178随机983 ± 885 349 ± 251 271 ± 508 385 ± 326评论员302 ± 265 83 ± 113 261 ± 117 161 ± 117萨尔萨337 ± 248 76 ± 85 191 ± 81 208 ± 143半猎豹-v2自然奖励10832 ± 420 10086 ± 741 10610 ± 2992 8650 ± 139活动476 ± 290- 365 ± 720 331 ± 301- 18 ± 310随机3272 ± 354 1936 ± 745 2048 ± 217 1129 ± 1065评论员715 ± 484 235 ± 527 650 ± 222 194 ± 331萨尔萨821 ± 357 120 ± 598 722 ± 167 210 ± 524类人-v2自然奖赏3193 ± 1849 1083 ± 670 902 ± 316 2962 ± 2174活动1502 ± 815 724 ± 272 722 ± 201 1324 ± 1527随机2960 ± 2280 839 ± 357 854 ± 224 2732 ± 2161评论员2227 ± 1609 788 ± 253 1085 ± 379 1917 ± 716萨尔萨2475 ± 1535 620 ± 170 1055 ± 523 1726 ± 876Hopper-v2自然奖励2655 ± 893 948 ± 116 1817 ± 631 2049 ± 613活动222 ± 132 203 ± 90 44 ± 26 182 ± 83随机469 ± 217 348 ± 217 507 ± 433 540 ± 391评论员412 ± 63 268 ± 70 63 ± 38 130 ± 85萨尔萨488 ± 672 250 ± 36 49 ± 25 113 ± 55倒立摆-v2自然奖赏1000 ± 0 582 ± 257 200 ± 7 1000 ± 0活动25 ± 6 9 ± 14 5 ± 3 21 ± 13随机153 ± 12 7 ± 6 4 ± 2 125 ± 187评论员59 ± 15 33 ± 24 10 ± 5 50 ± 10萨尔萨40 ± 24 34 ± 19 8 ± 6 45 ± 30Ant-v2自然奖赏3284 ± 1179 445 ± 483- 63 ± 33 2555 ± 2116行动-52 ± 21- 89 ± 68- 88 ± 53- 199 ± 251随机482 ± 81- 99 ± 139- 169 ± 141 518 ± 1022评论员-48 ± 24- 53 ± 25- 376 ± 981- 328 ± 823Sarsa- 92 ± 102- 144 ± 100- 637 ± 128- 354 ± 822C. Wu,F.Zhu和Q.刘沙特国王大学学报8159产品中心Þ我公司简介1Þðni-3N113J图五、每种环境下前10000步训练的线图横轴是训练轮数,纵轴是每十轮的平均当数据相等时,则表示每组中的病例数ni ni N,秩为Ri。以下公式计算H值12X Rþ大量的同秩数据产生的H值较小校正后的Hc值可按下列程序求得Hc^H=C;C^1-X^t3-tj^=N ^3-N^1-4^2C. Wu,F.Zhu和Q.刘沙特国王大学学报8160¼-其中,tj是当组数g= 3并且最小情况数大于5或g> 3时,相同的第jH或Hc近似服从v2分布,自由度为vg1.用v2界表进行检验,确定P值,并作出推论.每种方法的H值见表2。可以看出,我们的方法几乎在所有环境中都优于其他方法,除了在Hopper环境中稍微不那么有效。p值小于0.05,表明差异具有统计学显著性。4.3. 每秒浮点运算次数每秒浮点运算次数(FLOPs)是指计算量,用于衡量算法的复杂度。 下表3显示了每个环境中每个算法的FLOP。水平轴是算法从表3中我们可以看出,我们的算法比其他算法需要更多的然而,在几乎所有的情况下,我们的算法是更有效的比别人,它仍然是值得的,而付出一些计算成本。4.4. 消融研究在第一组实验的基础上进行了消融实验,验证了算法中各个部分的有效性,包括验证了自我能力评价模型和好奇心机制对抗学习作为在前面的实验中,每个模型训练107步,以确保模型收敛,并对均值和方差进行10次评估。我们定义了以下算法来证明我们算法的每个部分的有效性,没有自我能力评估模型的Iearrl(original),使用相同代理和相同更新算法而不是好奇心机制的算法Adv。我们还评估了四种攻击方法下的模型。模型的结果如下所示,其中水平坐标是方法名称,垂直坐标是环境名称,值是从十轮奖励中获得的均值和方差。从表4中我们可以看到,与使用原始好奇心机制作为对抗学习的对象相比,我们的算法具有显著的优势。在Walker 2d-v2环境中,我们的方法在自然奖励中提高了40%,在HalfCheetah-v2中,我们在自然奖励中提高了4%,在Humanoid-v2中,我们在自然奖励中提高了7%,在Hopper-v2中,我们在自然奖励中提高了29%。具有包含移动和接触成本的复杂奖励函数的Ant-v2使得算法Iearrl(原始)不稳定。由于环境训练的困难,智能体不能快速学习如何应对当前状态和经验,导致智能体不再新颖,能力下降去探索Adv方法将自身用作陷入局部最优的对抗对象,而使用好奇心机制是探索问题的适当解决方案。虽然Adv方法在随机攻击下的性能略好于我们的方法,在Hopper-v2、Ant-v2环境下,性能不稳定,十轮评测中容易出现较大波动。我们比较了Iearrl算法和Iearrl(原始)算法在107步的收敛速度,以评估我们算法结果已纳入下面的图5。算法可能还没有完全收敛,但从上升趋势可以看出算法的学习速度。从图5中可以看出,我们的模型的收敛速度比原始模型快得多。虽然在像InvertedPendulum-v2这样的状态空间较少的环境中性能不是很明显,但在像HalfCheetah-v2和Humanoid-v2这样的复杂环境中,性能的改善是明显的。4.5. 实验摘要从两组实验中,一组实验采用多种方式进行评价,另一组实验通过修改环境参数进行评价,可以看出算法Iearrl在鲁棒性方面有所加强。与其他方法相比,我们的方法具有更大的通用性。在实验中随机噪声对我们的方法影响很小,智能体的鲁棒性也体现在抗噪声的能力上。我们的智能体已经探索了大部分的状态空间,噪声主要通过影响正常状态观测来影响智能体,这是可以接受的我们的代理人。在面对环境的变化时,我们的算法获得了更高的回报,并保持稳定。好奇心机制帮助智能体直接探索其中的大多数自我能力评估模型评估模型这项研究的重要性和独创性在于,它在训练过程的每一步都纠正了智能体,并通过先验知识指导模型。5. 结论我们认为,Agent鲁棒性差的原因是训练过程中没有出现相遇状态,提高Agent的探索能力是解决这一问题的可行思路我们的方法在各种环境中的大多数奖励区域中表现更好,并且在对模型的多次攻击下保持高奖励通过实验,我们发现对抗学习中的好奇心机制有助于Agent更好地适应异常环境,增强其鲁棒性。适当地指导代理如何在训练期间学习将减少算法训练时间。然而,我们也发现,在某些情况下,如Hopper-v2,奖励可能会在不稳定的环境中减少,与培训教师此外,我们的方法仍然存在局限性,探索的上限只是了解当前环境的整体状态。如果我们能预测更多的可能状态空间来拓宽探索的范围,将会得到更好的结果。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用阿卢瓦利亚例如,2021.无限时域多模型马尔可夫决策过程基于策略的分枝定界。Comput.操作员第126号决议,网址://doi. org/10.1016/j.cor.2020.105108Aslanpour等人,2018.云计算应用的资源配置:一种三维的、有预见性的、灵活的方法。J. Supercomputing 74 ,6470-6501.网址:https://doi.org/10.1007/s11227-017-2156-x。C. Wu,F.Zhu和Q.刘沙特国王大学学报8161布罗克曼,G.,例如,2016.开放健身房。CoRR abs/1606.01540。arXiv:1606.01540。网址:http://arxiv.org/abs/1606.01540。Burda,Y.,例如,2019.好奇心驱动学习的大规模研究,在:第七届国际学习代表会议,ICLR 2019 , 新 奥 尔 良 , 洛 杉 矶 , 美 国 。 网 址 : https://openreview.net/forum?id=rJNwDjAqYX。科拉斯角,例如,2020.语言作为一种认知工具,在好奇心驱动的探索中想象目标,在:神经信息处理系统的进展33,神经信息处理系统2020年年会,NeurIPS 2020,2020年12月6日至12日,虚拟。网址:https://proceedings.neurips.cc/paper/2021/hash/286674e3082feb7e5afb92777e48821f-Abstract.html。丹尼尔,W.,1990.应用非参数统计。达克斯伯里统计与决策科学高级系列,PWS-KENT出版社。网址:https://books.google.com.hk/books?id=0hPvAAAAMAAJ。Feinberg,A.,1996.马尔可夫决策过程:离散随机动态规划(马丁l。puterman)。SIAM Rev. 38,689. https://doi.org/10.1137/1038137.Goodfellow 等 人 , 2020 年 。 生 成 性 对 抗 网 络 。 Commun. ACM 63 , 139 网 址 :https://doi.org/10.1145/3422622。Henderson , P. , 例 如 , 2018 年 重 要 的 深 度 强 化 学 习 , 在 : McIlraith , S.A. ,Weinberger,K.Q.(编),第32届AAAI人工智能会议论文集pp. 3207-3214.网址:www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/16669。Ilahi等人,2022.对抗性攻击对深度强化学习的挑战与对策。IEEE Transactions onArtificial Intelligence 3,90-109.网址:https://arxiv.org/abs/2001.09684。Kamalaruban,P.,例如,2020年。鲁棒强化学习通过对抗训练与langevin动力学,在:神经信息处理系统的进展33:神经信息处理系统2020年年会,NeurIPS2020,2020年12月6日至12日网址:https://proceedings.neurips.cc/paper/2020/hash/5cb0e249689cd6d8369c4885435a56c2-Abstract.html。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功