部分可观测强化学习：新的序列模型学习结构及其在部分可观测环境下的显著优势

137 浏览量更新于2023-12-01 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文部分可观测强化学习Giseung Park，Sungho Choi，Youngchul Sung韩国KAIST电气工程学院{gs.park，sungho.choi，ycsung} @ kaist.ac.kr摘要本文提出了一种新的序列模型学习结构来解决部分可观测马尔可夫决策问题。不同于传统的基于递归神经网络的方法在每个时间步压缩序列信息，所提出的架构生成一个潜在变量1=��-1;��1L2=��-1;��;=L+12L�� 3 = ��−1;�� −1;��=2L+13L......并将最相关的信息传递到下一个块以进行策略优化。所提出的分块顺序模型是基于自注意实现的，使得该模型能够在部分可观察设置下进行详细的顺序学习。该模型建立了一个额外的学习网络，有效地实现梯度估计，MLP1h0自我注意MLPH12BENGERRNN自我注意H1MLPH23BENGERRNN自我注意……h2自归一化重要性采样，不需要在模型学习中进行复杂的分块输入数据重构数值结果表明，所提出的方法显着优于以往的方法在各种部分可观测的环境。1介绍部分可观测环境中的强化学习（RL）强化学习求解POMDPs是一个具有挑战性的问题，因为马尔可夫假设被打破。过去的信息应该在学习阶段被提取和利用，以补偿由于部分可观测性而导致的信息损失。部分可观察的情况在现实世界的问题中很普遍，例如当观察结果有噪声时，控制任务，一些潜在的状态信息被删除，或者需要估计长期信息（Han，Doya和Tani2020 b;Meng，Gorbet和Kulic2021）。虽然已经设计了许多RL算法，并且最先进的算法在完全可观察的环境中提供了出色的性能，但是已经提出了相对较少的方法来解决POMDPs。先前的POMDP方法使用递归神经网络（RNN）以无模型的方式压缩来自过去的信息（ Hausknecht 和 Stone2015;Zhu ， Li 和Poupart2017;Goyal等人。2021）或估计底层状态信息并将估计结果用作RL代理的输入（Iglet al. 2018;Han，Doya和Tani 2020 b）。这些方法Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.图1：所提出的模型的整体架构：自注意力和RNN用于处理每个顺序数据块Bn，而不是在每个时间步进行处理。在时间上以逐步的顺序次序压缩观察，这在观察的重复性高时可能是低效的，并且在时间间隔内提取上下文信息时效率较低我们推测，在给定的时间间隔内，特定时间步的观测包含了更多关于决策的信息我们提出了一种新的架构，通过将这种直觉形式化为数学框架来解决部分可观察的RL问题。我们的贡献如下：• 如图1所示，我们提出了一种新的学习架构，该架构基于一组顺序输入，而不是通过联合使用自我注意力（Vaswani et al.2017）和RNN并利用每个结构的优势来估计每个时间步的潜在变量。• 为了学习所提出的架构，我们提出了一种基于使用自归一化重要性采样的直接梯度估计的分块顺序模型学习（Bornschein和Bengio2015;Le等人2019），与POMDP的常用变分方法相比，它不需要输入数据重建（ Chung 等人 2019 ）。 2015;Han ， Doya 和Tani2020 b）。• 使用所提出的块表示的拟议模型和喂养学习块变量的RL代理，我们显着提高了性能，在几个POMDP环境中的现有方法环境使用RNN的Agent使用RNN的Agent环境使用RNN的Agent环境arXiv：2112.05343v1 [cs.LG] 2021年12+v：mala2255获取更多论文ΣS × A × O →∈O∈.Σ∈√L∈OS × A × SS × A × SS A O SA1→2M12M12MLLL2相关工作在部分可观测强化学习中，应适当利用过去信息来补偿部分观测中的信息损失。RNN及其变体（Hochreiter和Schmidhuber1997;Cho et al. 2014年）已被用于处理过去的信息。最简单的方法是，由样本序列驱动的RNN的输出直接馈送到RL代理中，作为捕获过去信息的输入，而无需进一步处理，如以前的工作所考虑的那样（Hausknecht和Stone2015;Zhu，Li和Poupart2017）。这些端到端方法的主要缺点是，它需要大量的数据来训练RNN，并且在一些复杂的环境中是次优的（Iglet al.2018年;韩，分别与通常的MDP设置不同，智能体不能在POMDP中观察到时间步t处的状态s t，但是接收由观察概率R+生成的观察o t。我们的目标是优化策略π以最大化预期贴现收益Eπ[∞t=0γtrt]通过使用适当设计的输入学习π变量为π除了ot代替未知的真在每个时间步长t处状态st。Self-attentionSelf-attention（Vaswani et al.2017）是一种架构，它可以通过考虑时间间隔内顺序输入数据中的上下文信息，在时间间隔内执行详细的过程。考虑一个序列-长度为L的初始输入数据，表示为B=x1：L=ΔDoya和Tani2020 b）。Goyal等（2021）提出了RNN的一个变体，其中[x1，x2，···，xL]T∈RL×d，其中xi∈Rd（列vec-tor），1≤i≤L，并且（·）T表示矩阵转置。（The隐藏变量被分成多个等长的段首先，选择固定数量的段符号Am1：m2=Δ[Am ，Am1+ 1，···，Am2[对于任何一个使用注意力（Vaswaniet al. 2017年）。然后，只有选定的片段使用独立的RNN进行更新，然后进行自我注意，其余片段不会改变。我们的方法与这种方法有很大的不同，因为我们在一段时间内使用注意力，而Goyal等人的结构。（2021）通过使用在相同时间步长处的段上的注意力来逐步更新。其他方法通过学习逐步潜变量的序列模型来估计状态信息或信念状态。在本文的其余部分中将使用tityASelf-attention架构将B中的每个输入数据xi变换为yi，使得变换后的表示yi不仅包含xi中的信息，而且包含所有其他xjB中的信息，反映与目标任务的相关性。（结构见附录A。）为了提高学习的鲁棒性，自注意通常采用m（>1）个多头变换来实现。令查询、键和值的d×d变换矩阵为MQ= [MQ，MQ，· · ·，M Q]，MK =[M Q，MQ，· · ·，M Q]，然后将推断的潜在变量用作RL的输入[MK， MK，···，MK]，MV=[MV，MV，···，MV]，re-剂 Igl等人（2018）提出了估计信念状态，其中d=mh头，使得MQ，MK，MV∈应用粒子滤波器（Maddisonet al. 2017;Leet al. 二〇一八年;Rd×h头为每个. 的l l lNaesseth等人2018年，学习变分。Han、Doya和1≤l≤m第l个查询、键和Tani（2020 b）提出了一个软演员批评（Haarnojaet al.值定义为BMQ、BMK、BMV∈RL×h头，re-2018）的方法（VRM），专注于解决部分可观察的连续动作控制任务。 VRM添加动作序列作为额外输入，并使用来自重播缓冲区的样本来最大化变分下限（Chung等人，2015）。然后，生成潜在变量作为RL代理的输入。为了解决稳定性问题，VRM- 是的使用附加的变换矩阵MORmhhead×d=Rd×d，多头自注意MHA（B）∈RL×d的输出由下式给出：MHA（B）=[A1，A2，···，Am]MO，其中（BMQ）（BMK）T连接（i）预训练和冻结的变量dfreeze，以及(ii)- 来自不同模型的学习变量dkeep，因为仅使用dkeep作为RL代理的输入不会产生每-Al=fL lh扬程（BMV）∈RL×h头（一）改进了。相比之下，我们的方法只使用一个块模型进行学习，效率更高。虽然以前的方法在部分可观察的环境中提高了性能，但它们大多使用RNN。RNN架构在观测中的重复性很高时会遇到两个问题：（i）遗忘问题和（ii）逐步压缩所有过去样本的效率低下，包括不必要的信息，如噪声。我们的工作通过将最相关的信息传递到下一个块来逐块学习我们的模型，从而解决了这些问题。3背景我们考虑由（，，P，r，γ，其中，和分别是状态和动作空间，P：R+是状态转移概率分布，r：R是奖励函数，γ[0，1]是折扣因子，和γ是观测空间和观测概率，f是一个行式softmax函数（在某些情况下可以使用其他池化方法（Richter和Wattenhofer 2020））。在实践中，残差连接，层归一化（Ba，Kiros和Hinton 2016）和前馈神经网络g用于产生最终的L × d表示Y =[y1，y2，···，yL]T：Y=LayerNormalize（g（U）+U），其中U= LayerNormalize（MHA（B）+B）。（二更）注意，B Y的自注意力架构可以进一步堆叠多次以进行更深的表示。然而，与RNN不同的是，在自注意中，每个数据块的处理都不考虑前面的块，因此每个变换后的块数据都是断开的。因此，来自过去的信息不用于处理当前块。相反，RNN通过逐步累积来使用过去的信息，但是当数据序列变长时，RNN会遇到遗忘1+v：mala2255获取更多论文YY−Σt=1��−1RL输入的RNN（逐步）日本+1��…��−1 L+1��−1 L+2…��比利时L−1公司简介…��−1,�� −1你好…��…��∼��⋅ |��−1 L�� −1 L+1��−1��L− 1��1升L+ 1………��L−2��L−1�� ∼ ��⋅ |��、��公司简介��…��1：0- 1第n块变量2000年-2年100-1公司简介……��…��−11L+1��Self-attention��1 L+2��比利时L−1公司简介��1000L+1日本+1选定的元素模型零件RL零件操作环境…ℎ��−1ℎ��…模型的RNN（分块）��−�� 1 L+1��−1 L+2��1000L+1图2：所提出的模型的详细架构：可以得出与滤波器理论的类比。RNN对应于自回归（AR）滤波，其仅执行递归滤波，注意力对应于移动平均（MA）滤波，其执行块处理，并且所提出的新架构对应于4建议方法我们提出了一种新的POMDP架构，通过联合使用自注意力和RNN来建模逐块潜变量，并利用每种结构的优势所提出的架构包括（i）用于RL输入的逐步RNN，(ii)块模型如果只使用逐步RNN，则其对应于-生成模型pθ（B1：N，b1：N）和推理模型qφ（b1：N|B1：N）作为Np θ（B1：N，b1：N）= p θ（Bn，bn|B1：n−1），n=1N简单的RNN方法。如图1和2、分块模型由自注意和分块RNN组成。自注意压缩块信息后qφ（b1：N|B1:N ）=qφn=1（bn|Bn，B1：n−1），（4）分块RNN将信息传递到下一个块。我们在第4.1节中描述了块模型结构，包括块模型如何用于轨迹生成以及块信息如何压缩。部分4.2解释了如何有效地学习块模型以帮助RL更新。4.1建议的体系结构我们考虑长度为{x，t= 1，···，T}的样本序列其中bn是包含第n个块Bn的信息的潜在变量。对于每个块索引n，我们希望从中的摊销后验分布qφ推断第n个块变量bn。（4）通过使用（i）当前块Bn的信息和（ii）来自Bn之前的过去块B1 ：n1的信息。在第n个块处推断出bn之后，bn的信息是用于生成输入变量Zn=Δz（n−1）L+1：nL至不T=NL，其中样本xt∈Rd在给定时间步t时，RL特工然后，RL代理基于以下内容学习策略π：{（zt，ot，at，rt），t= 1，2，3，···}，其中zt从由行为a t− 1、奖励r t− 1和部分观测o t的列级连接xt=[at−1;rt−1;ot]。我们将样本序列{xt，t = 1，···，T}划分为N个块 B1， ···， BN，其中第n个块 Bn∈RL×d（1 ≤n ≤ N）由下式给出：Bn=x （ n− 1 ） L +1 ： nL= [x （ n− 1 ） L +1，x （ n− 1 ） L+2，· · ·，xnL]T.然后，我们将模型学习目标分解为Nlogp θ（x1：T）= logp θ（Bn|B1：n−1），（3）n=1代替传统逐样本分解zn含有zt。代理基于部分观测值t和根据tπ（·）补偿观测值t中的干扰的附加输入z t来采取动作a t|zt，ot）。轨迹生成图2显示了建议的架构与第n块处理作为参考。下半部分的蓝色箭头表示块变量推理网络qφ，上半部分的实心黑色箭头表示RL学习的处理网络。直到块索引n-1（即，时间步长t=（n-1）L），来自先前块B1：n-1的信息是com-1。把它代入变量hn−1。第（n-1）个区块logp θ（x1：T）=Tlogp θ（xt|x1：t−1）。请注意，条件-- -潜变量bn−1是根据bn−1生成的，2（3）中的定项是B1：n1，而不是Bn1，因为全Marko-Vian假设在部分可观测环境中被打破的部分。基于这种基于块的分解，我们定义qφ（·|B1：n−1）=N（µn−1，dia g（σn−1）），其中µn−1和σn−1是两个神经网络的输出，hn−1。总结了随机bn−1的信息+v：mala2255获取更多论文−−−−- − −−-− −∼·|−−−--∫−−|∇|−|−∇|−JnL−nN|∼L∇|−、|−|−具有直到第n个块B1 ：n的压缩信息。自注意力网络和分块RNN的影响在6.1节中进行了分析。θnWl=fLl（一）LMl=1Σnn在µ n−1和σ n−1中，因此这两个变量与样本B n=x（n1）L+1：nL一起被送入RL输入生成RNN，以在第n个块周期内顺序生成RL输入变量Z n= z （n1）L+1 ：nL。（注意，µ n1和σ n1捕获h n 1中的信息。逐步RL处理如下：输入z（n−1）L和来自Bn1的最后一个时间步t =（n1）L的观测值o（n − 1）L，RL代理选择动作a（n1）Lπ（z（n1）L，o（n1）L）（参见黑色虚线箭头）。然后，环境返回奖励r（n−1）L和n ext观测值o（n−1）L+1。然后，在时间步长t =（n1）L+1处的样本x（n − 1）L+1= [a（n−1）L;r（n−1）L;o（n−1）L+1]与µ n1和σ n1一起被馈送到逐步RNN以产生下一个RL输入z（n1）L+1。在每个时间步重复该执行，直到t = nL以产生Z n= z（n-1）L+1：nL，并且每个样本x t被存储在当前批次（on-policy）或重放存储器（off-policy）中。在第n个块的最后时间步t=nL，第n个块数据Bn=x（n-1）L+1：nL被馈送到自注意网络以产生输出Yn=Δy（n1）L+1：nL捕获B n中的上下文信息。从Bn中提取Y n的过程遵循标准的自我注意处理。然而，为了数据压缩和效率，我们选择Y n中的k（0。否则，代理接收零重-每一集，代理再次开始导航代理病房当R（<0R15）增大时，三个目标之间的距离变大，任务变得更有挑战性。代理人必须记住并正确使用过去的信息，以获得充分的奖励。图如图5（c）和5（d）所示，可以看出，所提出的方法明显优于基线。请注意，所提出的方法和基线之间的性能差距变得越来越大，因为任务变得更加困难，增加R= 10到R= 15。韦尔奇必须学会用部分观察和稀疏的奖励来穿越狭窄的道路。(See更多详情见附录E图从图6（b）和6（d）可以看出，即使当地图的大小增加并且难度变得更高时，所提出的方法也优于所考虑的基线。根据Welch分别为93%、98%和94%图6（d）中LSTM的p值为0.159。提出轮辋VRMLSTMSAC剂213平均回报建议的RIMs VRMLSTMSAC平均回报平均回报R>r>r00VRM68.815.6LSTM33.84.8+v：mala2255获取更多论文nn−n∈n·n··i=（n1）L+1在Yn中选择k个元素，∈穿越S9N3目标达成任务和钟摆。在《钟摆》中，自我注意力的作用对成绩的提高至关重要。0.80.60.40.2（一）0.00 1 23时间步长（M）（b）第（1）款交叉S11N5表1：消融对组件的影响：R= 15（中）和摆（右）的顺序6.2压缩方法0.80.60.40.2（c）第（1）款0.00 5 10 15 20 2530时间步长（M）（d）其他事项表2：在所考虑的Pendulum环境检查拟议压缩的有效性图 6 ：（ a ） Minigrid CrossingS9N3 任务的示例图和（ b ） CrossingS9N3 中的性能比较。 (c) 小网格交叉S11N5任务的示例图和（d）交叉S11N5中的性能比较y轴表示方法，在Pendulum环境下与其它压缩方法进行了性能比较。而不是使用Yk作为输入对于所提出的方法中的分块RNN，考虑-最近200年收益的平均值在五个种子上迭代（i）合并（Pooling），（ii）平均6消融研究（iii）按平均数计算的相应捐款（前k名平均数），[Mcompy（n−1）L+1;···;McompynL]具有可训练矩阵KD回想一下，所提出的块模型由块组成-智能RNN和自我关注。在第6.1节中，我们研究了M组分 ∈RL×d（Linear），或（iv）k随机选取e-分块RNN和自注意对性能改善的贡献。在第6.2节中，我们用其他方法替换了所提出的压缩方法，同时使用相同的自注意。（超参数L和k的影响见附录F。）6.1组件的作用我们包括仅使用自注意而不使用分块RNN的方法（用“仅自注意”表示）。YkRk·d，一个来自k个选定元素的级联的单个向量，被馈送到RL代理中，而不是µn和σn。自我注意力是用RL代理端到端训练的。我们还通过用前馈神经网络（FNN）代替自注意力，添加了仅使用块式RNN而不使用自注意力（“仅BNN RNN”）的方法被替换的FNN映射每个d维输入xt，B n转换为一个SFNN维向量。代替Yk，（L SFNN）维变换块用于分块RNN输入。为了公平比较，我们设置SFNN，使得L SFNN等于Yk（=k d）的维数。在Tab。1，我们观察到，分块RNN在两个顺序的性能改善中起着重要的作用Yn中的元素（随机）。比较结果如表10所示。2. 在Pendulum中，自注意力具有有效的压缩能力，因为所有考虑的使用自注意力的压缩方法都优于“仅使用BERRY RNN”的-467.7）。在所考虑的压缩方法与自我注意，所提出的方法诱导最少的相关信息损失。7结论在本文中，我们提出了一种新的分块序列模型学习POMDPs。该模型对每个数据块使用自注意压缩输入样本序列，并使用RNN将压缩后的信息传递给下一个块将来自块模型的压缩信息与相应的数据块一起馈送到RL代理中，以提高POMDPs中的RL性能所提出的架构是学习的基础上直接梯度估计使用自归一化的重要性采样，使学习效率。通过利用自注意和RNN的优点，所提出的方法优于以前的方法POMDPs在所考虑的部分可观测环境。拟议的RIMLSTMPPO平均回报RIMsLSTMPPO平均回报老化超过方法成功率R= 15（%）平均回报关于Pendulum提出91.4- 三百2只关注自己21.4-342.9仅限BERNINGRNN90.8-467.7方法平均回报p值提出- 三百2-池化-354.10.001前k平均值-352.00.011线性-346.50.007随机-349.60.024+v：mala2255获取更多论文致谢本研究得到了基础科学研究计划的支持，该计划通过韩国国家研究基金会（NRF）由科学部ICT未来规划（NRF-2021 R1 A2 C2009143）资助。引用Arjovsky ， M.;Chintala ， S.; 和 Bottou ， L.2017 年。Wasserstein生成对抗网络In Precup，D.;和Teh，Y. W. ，编辑， Proceedings of the 34th InternationalConference on Machine Learning，ICML 2017，Sydney，NSW ， Australia ， 6-11 August 2017 ， Volume 70ofProceedings of Machine Learning Research ， 214-223.PMLR。巴湖J.道：Kiros，J. R.;和Hinton，G. E. 2016.层归一化。CoRR，绝对值/1607.06450。Bornschein，J.;和Bengio，Y.2015年。重新加权唤醒-睡眠。In Bengio，Y.;和LeCun，Y.，编辑，第三届国际学习表征会议，ICLR 2015，美国加利福尼亚州圣地亚哥，2015年5月7日至9日，会议跟踪会议记录。Brockman，G.; Cheung，V.; Pettersson，L.;施耐德，J.;Schulman，J.;唐，J.;和Zaremba，W. 2016. OpenAI Gym.Chevalier-Boisvert ， M.; 威廉斯湖 ; 和 S. 2018. OpenAIGym的最小化Gridworld环境http：//github.com/maximecb/gym-minigrid的网站。周，K.; vanMerrienboe r，B.; Gu？lc？？ ehre，C？？Bahdanau，D.; Bougares，F.; Schwenk，H.;和Bengio，Y. 2014.使用RNN编码器-解码器学习短语表示用于统计机器翻译。In Moschitti，A.;庞，B.;和Daelemans，W.，编辑，Proceedings of the 2014 Conference on EmpiricalMethods in Natural Language Processing ， EMNLP2014，October 25-29，2014，Doha，Qatar，A meetingof SIGDAT，a Special Interest Group of the ACL，1724访问控制列表。Chung ， J.; Kastner ， K.; Dinh ， L.; Goel ， K.;Courville，A. C.的;和Bengio，Y.2015年。序列数据的递归潜变量模型In Cortes，C.;Lawrence，N.D.的; Lee，D.D.的; Sugiyama，

下载后可阅读完整内容，剩余1页未读，立即下载