文件标题：样本高效强化学习的CCLF方法

201 浏览量更新于2024-02-04 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文CCLF：一个用于样本高效强化学习的孙晨宇1，2，钱航伟2，3 和Chunyan Miao1，2岁1南洋理工大学阿里巴巴-南洋理工大学新加坡联合研究院2南洋理工大学计算机科学与工程学院3隆德大学chenyu002@e.ntu.edu.sg，hangwei. math.lth.se，ascymiao@ntu.edu.sg摘要在强化学习（RL）中，直接从高维观测中学习是具有挑战性的，其中数据增强最近被证明可以通过对原始像素的不变性进行编码来弥补这一点。然而，我们根据经验发现，并非所有样本都同样重要，因此简单地注入更多的增强输入可能反而会导致Q学习的不稳定性。本文系统地研究了这一问题，提出了一种与模型无关的C-对比度驱动的L-学习框架（CCLF），该框架能够充分利用样本重要性，以自监督的方式提高学习在所提出的对比好奇心的促进下，CCLF能够优先考虑体验重放，选择信息量最大的增强输入，并且更重要地正则化Q函数以及编码器以更多地关注未学习的数据。此外，它鼓励代理探索基于好奇心的奖励。因此，代理可以专注于更多的信息样本和学习表示不变性更有效地，与显着减少扩增输入。我们将CCLF应用于几种基本RL算法，并在DeepMindControl Suite，Atari和MiniGrid基准测试中进行评估，与其他最先进的方法相比，我们的方法展示了卓越的样本效率和学习1引言尽管强化学习（RL）取得了成功，但仍然需要广泛的数据收集和环境交互来训练智能体[Laskinet al. ，2020b]。相比之下，人类能够快速学习新技能，并在有限的实践中很好地推广。因此，弥合机器和人类学习之间的样本效率和学习能力的差距已经成为RL社区的主要挑战[Rakellyet al. ， 2019;Schwarzeret al. ， 2020;Yaratsetal. ，2021b;Maliket al. ，2021;Sunet al. ，2022]。共同通讯作者1根据IJCAI-ECAI 2022在IJCAI 2022上接受这一挑战对于直接从原始像素中学习尤其重要最近，利用数据增强方法来合并更多的不变性，促进数据多样性，从而增强表示学习[Laskinet al. ，2020 b; Yaratsetal. ，2020; Yaratset al. ，2021a]。理想情况下，注入大量的增强样本应该会导致具有不变性的更好模型然而，一个值得注意的权衡是引入的计算复杂性更糟糕的是，简单地增加增强输入的数量可能会改变样本的语义，这已经在我们的实验结果中得到了实证性的证明。此外，用于数据扩充的样本从重放缓冲区均匀地抽取[Laskinetal. ， 2020a;Laskinetal.， 2020b;Yaratsetal. ，2020;Yaratset al. ，2021 a]，这是低效的，因为它们对于学习不是同等重要的。这些认知偏离了类人智能，人类可以通过好奇地关注新知识并不频繁地重温旧知识来因此，重放最不充分探索的经验和选择信息量最大的增强输入是提高样本效率和学习能力的关键。为了应对这些挑战，我们提出了一个C对比好奇心驱动的学习框架（CCLF），通过将对比好奇心引入到RL的四个重要组成部分，包括经验重放，训练输入选择，学习正则化和任务探索，而没有太多的计算开销。受可以被外部刺激的心理好奇心的启发，包括复杂性，新颖性和惊喜[Berlyne，1960;Spielberger和Starr，2012;Liquin和Lombrozo，2020]，我们定义了基于由主体内部信念通过重用CURL中的对比损失项来建模[Laskinet al. ，2020 a]，其可以在不引入任何附加网络架构的情况下定量地测量好奇度水平。利用所提出的对比好奇心，代理可以从重放缓冲区中采样更多未被探索的转换，并选择信息量最大的增强输入来编码不变性。这个过程可以显着减少RL中使用的数据量，而不会牺牲不变性。此后，CCLF进一步利用对比好奇心，通过更多地关注令人惊讶的输入来正则化Q函数和编码器，并内在地奖励代理探索未学习的观察。arXiv：2205.00943v1 [cs.LG] 2022年5月+v：mala2277获取更多论文不∈O∈O∈ A···B′T′不不经验向未开发状态重放[SchaulQφ不不不不不Kk=1φi不KK不∈R我们的贡献可以突出如下。1）我们实证地证明了在RL中并非所有的样本及其因此，代理人应该以自我监督的方式好奇地从最重要的人那里学习。2）在不增加网络复杂度的前提下，通过重用表征学习模块，提出了一种基于推理的好奇心类型，即3)所提出的CCLF能够提高样本效率并直接从原始像素调整学习过程，其中对比好奇心以自导航和连贯的方式在不同的RL组件中得到充分利用。4）CCLF是模型无关的，并且可以应用于无模型的离线策略和在线策略强化学习算法。5）与其他方法相比，CCLF在DeepMindControl （ DMC ）套件上获得了最先进的性能[Tunyasuvunakoolet还没有尝试提高采样效率和重新解决由数据扩充引起的不稳定性。CCFDM [Nguyenet al. ，2021]是一个并发的工作，将CURL与动作嵌入和前向动力学相结合，以制定一个内在的奖励。与CCFDM不同的是，我们的框架不需要任何额外的架构，只是重用了预测更稳定的CURL中的对比项。更重要的是，CCLF无缝地将好奇心机制集成到经验回放、训练输入选择、学习正则化和环境探索中，从而更加专注于学习不足的样本，稳定地提高样本效率。3背景在本文中，我们考虑一个马尔可夫决策过程（MDP）al. ，2020]，Atari Games [Bellemareet al. ，2013]和Mini-Grid [Chevalier-Boisvertet al. ，2018]基准。设置状态为st概率∈ S，作用at∈ A，过渡2相关作品样本高效RL中的数据增强。数据增强在计算机视觉中得到了广泛的应用，从当前状态st和操作at映射到下一个状态s′t，和（外在的）奖励re。更多详情见附录A。软演员评论家（SAC）。 SAC [Haarnojaet al. ，2018年]是一种学习随机策略的非策略无模型算法最近才在RL中引入，以包含πφ（actor）与状态-作用值函数Qφ，Qφ（crit-表征学习[Laskinet al. ，2020 b;Yaratset al. 、1 2ics）和温度α2020;Laskinet al. ，2020a]。为了进一步提高样本效率，一种方法是通过多臂强盗或元学习超参数来适应，在任何给定任务上自动应用最有效的增强方法[Raileanuetal. ，2020]。然而，底层的RL算法可能变得不稳定，并且需要花费更多的时间来收敛。另一种方法是用来自不同训练环境的观察来规范学习过程[Wanget al. ，2020]或不同步骤[Yaratset al. ，2021a]。通过从其他任务和步骤注入更大的扰动与这些作品不同，通过鼓励探索，一个γ-折扣最大政策熵项。然而，在实践中，智能体往往需要直接从高维观测中学习，而不是从状态中学习。在本文中，我们展示了我们的框架，主要使用SAC与原始像素输入作为基础算法。对比无监督强化学习（CURL）。 CURL [Laskinetal. ，2020 a]利用数据增强和对比学习以自监督方式训练图像编码器f θ（o），在相似（+）和不相似（-）编码状态之间施加实例区分。给定一批视觉观察结果o，每个观察结果都被增强两次并编码为查询q=fθ（oq）和密钥k=f<$（ok）。关键编码器f′是一个提出的CCLF主要关注扰动gener-θ θ在一个单一的任务和步骤，并选择最下学习的过渡元组和他们的扩增输入。由于并非所有样本及其增强输入都同样重要，因此我们的工作利用样本重要性来适应学习过程，更多地关注未开发的样本。最重要的是，在不引入复杂结构的情况下，可以大大减少扩增量，提高采样效率。好奇心驱动的RL。在好奇心驱动的强化学习中，智能体内在地被激励去探索环境，并通过结合好奇心来执行复杂的控制任务 [Wu 和 Miao ， 2013;Aubretet al. ，2019;Sunet al. ，2022]。在查询编码器fθ的基于动量的移动平均值，以确保一致性和稳定性，并且fθ通过强制q与k+匹配同时远离k−来学习。数据正则化Q 学习（DrQ ）基于SAC 设置，DrQ[Yarats et al. ，2020]结合了最优不变图像变换以正则化Q函数，从而改进了直接从原始像素的鲁棒学习。令g（o）表示在观测值o上的随机图像裁剪增强。它应该理想地保持Q值s.t. Q（o，a）=Q（g i（o），a），o，a，i=1，2，3，.然后DrQ对每个转换元组应用数据扩充τt=（ot，at，re，dt，o′），其从重采样均匀采样特别是，好奇心主要是作为一个复杂的内在奖励的基础上国家新颖性[Bellemareet al. ，2016]、状态预测误差[Pathaket al. ，2017]，以及结果的不确定性[Li et al.，2021]或环境动力学[Seoet播放缓冲器，其中dt是完成信号。K增广接下来的观测gk （ ot）和M 个增强的当前观测gm（ot），可以通过对来自ot的M个增强的输入进行平均来正则化评论家Qφ，al. ，2021]。同时，它也可以用来确定优先级，L（φ）=E100万美元M.Q（g（o），a）−（re+γ（1−d）T）<$2<$（1）等人，2016; Zhaoand Tresp，2019]。然而，需要额外的网络来模拟好奇心，这对于高维信息来说可能是计算效率低下和不稳定的其中t是软目标值，并且它也可以通过对来自ot的K个增广输入进行平均来正则化，持续控制。此外，这些作品Tt=1Kmini=1，2Q<$（gk（o′），a′）−αlogπ<$（a′|gk（o′））（二）τBm=1M+v：mala2277获取更多论文不不不$不我J重放缓冲器更新优先级权重内在奖励强化学习样本转换{t，t，t，Y}电流互感器下一页（M增强型双极晶体管中文（简体）K增强型货币估价选择对比电流：��我是$ ��而��i正则化改进表示学习对比学习更新内在信念��iF ��Y�� （��Y）图1：C对比-C一致性驱动的L收益函数（CCLF）：一批转换被采样为w.r.t.他们的优先权。图像增强被执行以获得M增强的ot和K增强的o′t。好奇心评估模块定量地评估对比好奇心，并为当前和下一次观察选择两个信息量最大的输入更重要的是，同时利用对比好奇心来更新优先级权重，构造内在奖励，并自适应地正则化对比学习和Q学习模块。对比学习模块改进了表示学习，更新了Agent4CCLF提案C对比-Curiosity-drivenL学习框架（CCLF）扩展了无模型RL，以进一步提高直接从原始像素学习时的样本效率。特别是，它充分利用样本的重要性，使代理有效地从最翔实的数据中学习。首先，我们重新使用了CURL中的对比术语[Laskinet al. ，2020a]，而无需额外的架构来量化对比好奇心（第4.1节）。随后，这种对比好奇心被连贯地集成到四个组件中，以最小的修改导航RL：增强输入选择（第4.2节），体验重放（第4.3节），Q函数和编码器正则化（第4.4节）以及环境探索（第 4.5节），如图1所示。在不损失慷慨的情况下，我们将CCLF应用于最先进的非策略RL算法SAC [Haarnojaetal. ，2018]，如算法1和2中所总结的。在第5.2节和附录B.2和B.3中对其他基本算法进行了扩展。4.1对比曲线好奇心可以被一个意想不到的刺激所激发，而这个刺激与行为者的内在信念不同为了量化这种由好奇心引起的好奇心，我们通过任何两个增广观测g i（o），g j（o）是否来自同一观测o的预测误差来定义智能体cij=1−IB（gi（o），gj（o））∈[0，1]（3）其中IB表示智能体g i（o），g j（o）是增广的（例如，随机裁剪）从具有相似表示的相同O由于对比损失可以被视为基于softmax的分类器的对数损失，将查询q与来自相同观察的键k匹配，对比好奇心不需要任何额外的架构或辅助损失，因为IB以自我监督的方式通过表示学习直接更新。较高的对比好奇心值表明智能体不相信q与k+相似，或者智能体错误地将q与某个k-匹配，最终以自我监督的方式产生惊喜。它进一步意味着采样的转换元组包含代理尚未学习的新信息，并且编码器fθ是对于从原始像素提取有意义的状态表示不是最佳的。有了所提出的对比好奇心，我们可以在所提出的CCLF中集成不同的好奇心驱动机制，以实现样本高效的RL，这将在以下小节中讨论。4.2基于好奇心的增强输入选择虽然DrQ [Yaratset al. 2020年1月20日，《易经》出版，《易经》出版。通过正则化Q-学习，分别对下一个和当前观测值的增广输入量，可以潜在地提高代理关键的折衷是引入了更高的计算复杂性。此外，更多的增强数据并不一定会带来更好的性能，因为数据转换可能会改变语义并导致适得其反的性能。为了应对这些挑战，我们的目标是为后续学习选择最具信息性的输入。在不失一般性的情况下，我们假设从Maug中选择两个输入本文从K增广的下一个观测值o′t中选取两个当前观测值o ′t和两个类似的当前观测值应该注意的是，有各种方式来选择最具信息量的增强输入，其中一种直接的方式是通过像素中的最少重叠来选择，i，j=argmin Overlap（g（o），g（o））i，j，i j.（4）一批，它成为一个自然的选择，测量代理内部信念IB（g（o），g（o））=exp（qTWk+），基于好奇水平概念化的感觉输入，ijexp（qTWk+）+B−1exp（qTWk−）l=1L其中B是批量大小，q是查询编码器q=内在的信念而不是简单的视觉重叠。在那里-因此，我们建议选择导致fθ （ gi （ o））。此外，如果key编码器 k=fθ<$（ gj（o））的输入与查询编码器q中的输入相同，则将其表示为k +;否则，将其表示为k−。一个直接的优点是，最高的对比好奇心，如Eq. （3）、i，j= arg max c iji，j，ij.（五）2我们的代码可以在www.example.com上找到https://github.com/csun001/CCLF。通过这种方式，最具挑战性的增强输入匹配可以奇怪地识别，因为它们可能第4.1节第4.2节第4.3节第4.4节第4.5不不iF$ F+v：mala2277获取更多论文·∈Σn=1∗∗ijclog（8）TTij+b=1不τ2不不WNI jwni'j'（1−ci<$j<$）Ei<$+ci<$j<$Ej<$、Lf（θ）=−exp（qWk）+B−1exp（qWk−）22B包含尚未学习的新知识;同时，这种选择机制可以帮助编码更多的复制，算法1CCLF在SAC输入：MDPτt=（ot，at，re，dt，o′），扩增的数目从选定的输入代表性的状态信息，而输入[K，M]不，重放缓冲器B不，训练步骤T，批量大小B智能体的内部信念可以被联合更新。因此，可以用更少的输入来训练对观察的不同视图鲁棒的改进的编码器，从而潜在地产生样本效率的改进。4.3基于好奇心的体验回放在传统的非策略强化学习中，智能体统一采样参数：观测编码器网络θ、作用器网络φi、评价器网络φi、温度系数α和双线性乘积权重W输出：最佳策略对于t=1到T，atπ（·|g（ot））′从重放缓冲区转换到学习策略。阿尔-B（ot，at，re，dt，o）→ B，其中wt=1样本a小批量{（ol，al，re，dl，o′）}B 样本l B类烧结尽管它们最终可以通过重新执行复杂的任务L关于优先权wl l=1通过反复尝试，我们假设一种更有效的样本和更普遍的方法是对于每个样品L小批量中的τl更频繁地重新审视相对较新或不同的过渡。因此，我们通过将不同的优先级权重w∈[0，1]分配给存储在重放缓冲器B中的所有转换。特别是通过g（）增加ol和o′l以获得M和K个输入通过等式评估对比好奇心cij。（3）从M增广的ol中选择gi（ol），gj（ol），并从K增广的o′l中选择gi '（o′l），gj'（o′l）（五）优先级权重被初始化为w =1对于任何新的r l= r e+ r i，其中r i来自等式（九）0l l l添加了transition tuple。此后，我们建议在每个训练步骤s用整体对比好奇心更新转换的权重，根据等式更新wl（六）端通过等式更新评论家Qφi（七）更新因子πθ和温度系数α1w= βw+（1− β）（c+ c′）（6）通过等式更新编码器f θ和W。（八）s s−12i ji'j'ot+1=o′t其中β[0，1]是动量系数，cij，c′i'j'分别是对o和o′的对比好奇心。动量更新的直觉是保持稳定的更新，使得引起低好奇心的转换将逐渐降低学习的优先级。从数学上讲，端在没有对比ivecuriositycij=c′i'j'=0的情况下，仅用一个输入更新Q函数就足够了;当智能体未能编码任何相似性并且变得非常τi被重放的概率为p（τ i）=wi，好奇心c= c′=1，它应该完全集中在只有当τi被多次采样时才变小新的输入。这两种情况都可以重现RAD的工作[Laskinetal. ，2020b]。最重要的是，我们的建议因此，最近和令人惊讶的转变引起了高好奇心可以更频繁地被采样来学习。4.4基于好奇心的正则化虽然智能体可以从学习所选择的复杂输入中受益，但它也给智能体带来了挑战，这可能导致不稳定和较差的性能。因此，调整学习过程，更多地关注学习不足的知识至关重要。为了实现这一点，我们提出了一个自适应正则化的Q函数和观测编码器，由对比好奇心，以指导，Q函数正则化使智能体能够以一种自我监督的方式适应学习过程，这种方式完全由概念化的对比好奇心控制，以利用样本的重要性并稳定学习过程。同样，我们也以一种奇怪的方式正则化表示学习为了处理包含代表性不足的类的训练集，一种实用的方法是根据每个类的大小反向加权每个类的损失我们遵循这一动机，将对比cu-从激发高度好奇心的选定输入中了解更多信息当前观测值的随机性cb 作为特别是，我们修改Eq。（2）Eq. （1）作为每个对数损失类b更新编码器fθ，朝鲜族Bb我J不exp（qTWk+）Bl=1BLTt=（1−c′′）Ti′+c′′Tj′，在那里，引起高度对比好奇心的样本将被其中Em=Qφ（gm（ot），at）−（re+γ（1−dt）Tt），m=i，j，且Tk=minQ<$（gk（o′），a′）−αlogπ<$（a′|gk（o′）），k=i′，j′.L被认为是代表性不足的类，因此代理需要自适应地在代表过程中给予更多的关注tφt kl=1，2K t（七）通过优化fθ来学习。与此同时，通过更新W来联合地重新校准适当的内部信念。值得注意的是，这种正则化的Q函数是相当一般的，可以将其他最先进的作品作为特例来恢复。当所有的增广输入都恰好引起中等水平的好奇心cij=c′i′j′=1时，所提出的正则化等价于具有[K，M]=[2，2]的DrQ。此外，当智能体可以完美地匹配两个增强输入时，4.5基于好奇心的探索内在奖励可以激励代理人积极探索[Sunet al. ，2022]，提高了常规RL中的采样效率。虽然SAC单独可以被视为熵LQ（φ）=EτB+v：mala2277获取更多论文不MaxMax不不×100 K步长分数SAC-像素卷曲DrQ卷曲+卷曲+选择选择+手指，旋转230± 194 686± 113 784± 173 780± 96 735±120 699± 138768± 90上摆237± 49 524± 179 675± 174 694± 87 665± 122 624± 182 561± 181Reacher，Easy 239± 183 566± 226 682± 86 541± 190 479± 216 646± 171 616± 284猎豹，跑步118± 13 286± 65332±36302± 50 264± 53 251± 26 265± 69步行95± 19 482± 237 492± 267 484± 61 504± 142 453± 91 408± 170球在杯中，接球85± 130 667± 197 828± 131 687± 260 728± 143 732± 223 739± 132500 K步长分数SAC-像素卷曲DrQ卷曲+卷曲+选择选择+手指，旋转346± 95 783± 192 803± 198 855± 164 838±164 803± 167879± 153上摆330± 73 847± 28 858± 19 853± 22 852± 17 855± 26 837± 38Reacher，Easy 307± 65956±40939± 44 933± 62 937± 40 939± 78 906± 80猎豹，跑步85± 51 440± 144 536± 115 518± 24 495± 97 417± 59 470± 78步行71± 52 928± 26 887± 126 916± 27 914± 24 921± 27 850± 64球在杯中，接球162± 122956±14 956±14951± 19956±8949± 21 949± 24CCLF944± 42799± 61738± 99317± 38648± 110914± 20CCLF974± 6869± 9941± 48588± 22936± 23961± 9表1：在100K和500K环境步长下评价的DMC性能评分（平均标准差）在6个随机种子中，CCLF在样本效率（100K）和渐近性能（500K）方面都优于其他方法最大化代理• CURL和DrQ的混合：CURL+和CURL++，其中对比表征学习分别集成到[K，M]=[2，2]和[5，5]的ri=λexp（−ηt）emaxImaxcij+c′i'j'2（九）• 增强的输入选择模型：每个样本的5个输入中的2个通过像素重叠（Select）经由等式（1）选择。（4）和对比好奇心（选择+）通过方程。（五）其中λ是温度系数，η是衰减权重，t是环境步长，re和ri分别是没有其他好奇心的成分。超参数的详细设置在Ap中提供最大的外在和内在的奖励超过步骤t。用建议的ri来补充等式中的re。（7）、代理商B.第一部分对于我们提出的CCLF，我们将其初始化为t t[K，M]=[5，5]以生成足够大量的可以被鼓励去探索那些能激发强烈对比好奇心的令人惊讶的状态。特别是，较高的r i奖励代理探索时，相同的观察产生不一致的表示不同的意见。同时，相对于环境步长t，ri衰减以确保策略的收敛由于外在奖励re在不同任务之间不同，因此执行归一化以平衡re和ri。该公式类似于CCFDM中的内在奖励[Nguyen et al. ，2021]，但所提出的CCLF不需要增加模型复杂度的前向动态模型或动作嵌入。5实验和结果5.1实验装置我们根据 DMC 套件中的 6 个连续控制任务[Tunyasuvunakoolet al. ，2020]，来自Atari Games的26个离散控制任务[Belle-mareet al. ，2013]和3个导航任务，具有来自MiniGrid的稀疏外部奖励[Chevalier-Boisvertetal. ，2018]。在本节中，我们主要介绍DMC套件中的实验结果，SAC是基本算法，而Atari Games和Min- iGrid中的详细设置和结果包含在附录B.2、B.3、C.2和C.3中。为了在DMC套件中进行全面评估，我们包括以下基线进行比较：• 基于像素的 SAC （ SAC-Pixel ） [Haarnojaet al. ，2018年]• CURL [Laskinet al. ，2020a]。• DrQ [Yarats et al. ，2020]，其中[K，M]=[2，2]，以及用于一致性的修改的增强方法。增强输入。为了简单起见，我们随机地固定i，并且仅通过等式选择j（5）用于增强输入选择。5.2结果和讨论并非所有样本都同等重要。在CURL+中，每个采样转换应用两次数据增强，而在CURL++中应用5次。由于CURL++注入的输入量比CURL+多2.5倍，其计算复杂性急剧增加。表1显示，CURL++在10万步的4个任务中比CURL+执行得更差，在50万步的任务中仅在2个任务中略优于CURL+。在图2和附录图5中，CURL++的学习曲线最初明显低于CURL+，并逐渐接近与CURL+相同的水平由于更多的增强输入可能无法保证语义的一致性，因此通常需要额外的训练来实现收敛。因此，我们可以凭经验验证以下假设：并非所有增强输入都同样重要，并且简单地增加增强的数量反而是低效的。类似的结果可以在DrQ附录F中找到[Yaratset al. ，2020]。DMC套件表1分别显示了100K和500K环境步长下的平均采样效率和渐近性能。同时，图2展示了代理将SAC-Pixel与图2中的其他模型进行比较，即使在500 K步之前，其性能在所有6个任务中也没有因此，传统的SAC直接从原始像素学习是具有挑战性的，需要一种样本高效的RL方法来帮助实现这一点。RR+v：mala2277获取更多论文× ×××10008006004002000杯内接球0 100 200 300 400500环境步骤（K）6004002000猎豹快跑0 100 200 300 400500环境步骤（K）120010008006004002000步行道0 100 200 300 400500环境步骤（K）10008006004002000Cartpole摇摆0 100 200 300 400 500环境步骤（K）SAC-Pixel CURL DrQ CURL+ CURL++ Select Select+ CCLF图2：DMC套件中连续控制任务的学习性能（选定）。SAC上的CCLF在样本效率方面优于其他基线方法，并且收敛速度更快，平均6次随机运行。空-16 x16门钥匙-6x6门钥匙-8x81.01.01.00.80.80.80.60.60.60.40.40.40.20.00.20.00.20.00 50 100 150 200 250 300 350400环境步骤（K）0 50 100 150 200 250 300 350400环境步骤（K）0 500 1000 1500 2000 2500环境步骤（K）图3：MiniGrid导航任务的学习性能所提出的CCLF可以应用于A2C和A2C+ RE 3。它在样本效率方面明显优于其他基线，并且收敛速度更快，平均5次随机运行。根据表1，Select在100K时的3个任务和500K时的4个任务上的表现优于Select+，学习曲线更稳定，如图2所示。实际上，Select中的输入可以包含一些不变性，以提高样本效率和学习能力。然而，在Select+中存在更多未学习的输入，这些输入具有更丰富的不变性，并且智能体不能适应该模型中的学习过程，从而导致Select+中的不稳定性问题。为了解决这个问题，所提出的CCLF协作地调整学习过程与所选择的输入和对比好奇心，因此学习曲线变得比图2中的其他曲线更平滑。特别是，CCLF在表1中的100K和500K制度下的5项任务中优于所有基线。此外，根据10万步的结果，它的收敛速度比Select+快得多。事实上，建议的CCLF只需要约50%的环境步骤，以con-verge在3个任务（球在杯，沃克，和Cartpole）作为其他基线的理想性能。此外，它甚至以50万步的速度对Cheetah-Run和Finger-Spin任务进行基准测试。因此，我们可以得出结论，我们提出的CCLF可以提高样本效率和学习能力的RL代理，与更少的环境交互和60%的减少增广输入。我们还在附录C.1中通过模型大小和训练时间分析了Cartpole任务的计算复杂度，其中CCLF可以避免大幅增加训练成本。在Atari Games中的其他实验。除了连续控制任务，CCLF还可以并入Rainbow DQN [Hesselet al. ，2018]以执行离散控制任务。如附录C.2所示，拟议的CCLF在26个Atari游戏中的8个中达到了100K步的最先进性能特别是，CCLF在11场比赛中优于CURL，在18场比赛中优于DrQ，这有利地表明了提高样本效率的有效性。对MiniGrid的进一步研究。除了非策略算法外，我们还研究了对策略算法的兼容性。更具体地，我们将所提出的CCLF应用于A2C [Mnihet al. ，2016]和RE3 [Seoetal. ，2021]在MiniGrid中使用备用奖励执行导航任务。我们首先通过删除经验重放组件来使CCLF适应策略算法。请注意，来自MiniGrid的输入已经是一个紧凑而高效的773嵌入部分可观察的7 7网格，因此即使是轻微增加也会导致高度不一致学习的特点。因此，我们直接重复嵌入而不进行随机扩增，以获得正则化和内在奖励的对比好奇心。图3显示了CCLF在所有三个任务中表现出卓越的样本效率和学习能力，甚至与最先进的好奇心驱动方法RE 3的模型无关。在空-16 16任务中，我们的CCLF可以达到最佳水平，约50%的RE3和A2C的训练步骤，分别为55%。通过比较最终的性能得分，建议的CCLF获得了1.63倍的平均性能比DoorKey-6×6中的RE 3和DoorKey-8×8中的1.3倍。建议的RL组件的有效性。有人可能会问，拟议的CCLF在实践中是否主要受益于一个或几个基于好奇心的组成部分因此，我们从经验上检验了DMC套件中四个好奇心驱动组件在推车杆任务上的所有可能组合的有效性。结果包含在附录C.4中，其中可以得出结论，所有四个组件对于获得最新性能都是必要的和重要的。我们提出的CCLF可以一起导航所有四个RL组件，以提高样本效率并重新解决不稳定性，这表明了有效的协作。六、结论在本文中，我们提出了CCLF，对比好奇心驱动的学习框架RL与视觉观察，它可以显着提高样本效率和学习能力的代理。由于我们根据经验发现，并非所有样本及其增强输入对RL都同样重要，因此CCLF鼓励代理以一种好奇的方式学习，系统地利用样本的复杂性和重要性A A2C+RE3A2C+CCLFA2C+RE3+CCLF2C评价得分评价得分评价得分评价得分评价得分评价得分评价得分+v：mala2277获取更多论文引用[Aubret et al. 2019年]亚瑟·奥布里特，莱蒂西亚·马蒂格农和萨利玛·哈萨斯。强化学习中的内在动机研究综述。arXiv：1908.06976，2019。[Bellemare et al. Marc G Bellemare ， Yavar Naddaf，Joel Ve-ness，and Michael Bowling.街机学习环境：总代理商的评估平台。JAIR，47，2013.[Bellemare et al. Marc Bellemare ， Sriram Srinivasan ， GeorgOstrovski，Tom Schaul，David Saxton，and Remi Munos.将基于计数的探索和内在动机相统一。NeurIPS，29：1471[Berlyne，1960] Daniel E Berlyne. 冲突、兴奋和好奇心。1960.[Burda et al. Yuri Burda，Harrison Edwards，Amos Storkey和Oleg Klimov。用随机网络蒸馏法进行探索。arXiv预印本arXiv：1810.12894，2018。[Chevalier-Boisvert et al. Maxime Chevalier-Boisvert ， Lu- casWillems，and Suman J.极简主义的网格世界开放式健身房设备。https://github.com/maximecb/gym-minigrid，2018.[Cobbe et al. 2019年]Karl Cobbe，Oleg Klimov，Chris Hesse，Tae-hoon Kim和John Schulman。再强化学习中的量化泛化ICML，第1282-1289页。PMLR，2019年。[Kazato et al. Meire Rumanato，Mohammad Gheshlaghi Azar，Bilal Piot，Jacob Menick，Ian Osband，Alex Graves，VladMnih，Remi Munos，Demis Hassabis，Olivier Pietquin，etal. Noisy networks for exploration. arXiv 预印本 arXiv ：1706.10295，2017。[Haarnoja et al. Tuomas Haarnoja ， Aurick Zhou ， KristianHartikainen，George Tucker，Sehoon Ha，Jie Tan，VikashKumar，Henry Zhu，Abhishek Gupta，Pieter Abbeel，et al.软行动者 - 批评者算法及应用。 arXiv 预印本 arXiv ：1812.05905，2018。[Hafner et al. Danijar Hafner，Timothy Lillicrap，Jimmy Ba，and Mohammad Norouzi.控制梦想：通过潜在的想象力来学习。在2019年国际学习代表会议上[Hafner et al. Danijar Hafner，Timothy Lillicrap，Ian Fischer，Ruben Villegas，David Ha，Honglak Lee，and James David-son.从像素中学习潜在的动态规划ICML，第2555-2565页。PMLR，2019年。[He et al. 何开明，范浩奇，吴宇新，谢赛宁，和罗斯Girshick。无监督视觉表征学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729- 9738页[Hessel et al. Matteo Hessel，Joseph莫达伊尔，Hado VanHasselt、Tom Schaul、Georg Ostrovski、Will Dabney、DanHorgan、Bilal Piot、Mohammad Azar和David Silver。Rain-bow：结合深度强化学习的改进。在AAAI，2018年。[Kaiser et al. Lukasz Kaiser，Mohammad Babaeizadeh，Pi- otrMilos ， Blazej Osinski ， Roy H Campbell ， KonradCzechowski ， DumitruErhan ， ChelseaFinn ， PiotrKozakowski，Sergey Levine等。基于模型的Atari强化学习。arXiv预印本arXiv：1903.00374，2019。[Kielak，2019] Kacper Piotr Kielak.基于模型的深度强化学习的最新进展真的能提高数据效率吗？2019年。[Kingma and Ba ， 2014] Diederik P Kingma and Jimmy Ba.Adam ：随机最佳化的方法。 arXiv 预印本 arXiv ：1412.6980，2014年。[Laskin et al. 2020年a]迈克尔·拉斯金，Aravind Srinivas和彼得·阿比尔。Curl：用于再学习的对比无监督表示。ICML，第5639-5650页。PMLR，2020年。[Laskin et al. ，2020 b] Misha Laskin，K. L

下载后可阅读完整内容，剩余1页未读，立即下载