强化学习中基于政策激励的泛化能力和样本效率提高方法

35 浏览量更新于2024-02-03 收藏 716KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2277获取更多论文适用的强化学习：利用政策激励提高泛化能力和样本效率杨正宇1人，任侃2人，罗旭芳2人，刘明焕1人，刘伟清2人，姜边2张伟南1李东升21上海交通大学2微软研究院{yzydestiny，minghuanliu，wnzhang} @ sjtu.edu.cn，{kan.ren，xufluo，weiqing.liu，jiang.bian，dongsli} @ microsoft.com摘要强化学习（Reinforcement Learning，RL）算法在实际应用中，如金融交易和物流系统，由于训练和评估之间的噪声观测和环境变化，其成功是具有挑战性的。因此，它需要高的采样效率和泛化能力来解决现实世界的任务。然而，直接应用典型的强化学习算法可能会导致在这种情况下的性能差。考虑到集成方法在有监督学习（SL）中在准确性和泛化能力方面值得注意的是，EPPO将每个策略和策略集合有机地结合起来，并同时优化两者。此外，EPPO在策略空间上采用了多样性增强正则化，这有助于推广到不可见的状态并促进探索。从理论上证明了EPPO提高了探测效率，并通过对各种任务的综合实验评估，证明了EPPO与vanilla策略优化算法和其他集成方法相比，具有更高的效率和更强的鲁棒性. 代码和补充材料可在https://seqml.github.io/eppo上获得。1介绍与简单的模拟任务相比，强化学习算法在实际应用中取得成功首先，在实际应用中，观测值包含大量噪声，采样成本更高。其次，由于现实世界的复杂性，环境在培训和评估之间转移。例如，在金融交易中，不完全市场信息中的噪声对样本效率提出了很高的要求这项工作是在Zhengyu Yang在微软研究院实习期间进行的。通讯作者是阚仁。和波动的市场要求算法不过度适应训练环境，并保留在评估期间推广到不可见状态的能力。然而，典型的强化学习算法在这些应用中不能达到满意的性能。由于集成方法在提高SL的精度和泛化能力方面的优越性能，特别是对于小数据集，我们采用集成方法来满足上述要求。在我们的工作中，我们专注于策略集成，这是一组子策略的集成，而不是价值函数集成，原因如下所示。i）基于值的方法在诸如MOBA游戏的噪声应用中比基于策略的方法表现更差[Ye et al. ，2020]，纸牌游戏[Yang etal. ，2022; Li et al. ，2020]和金融交易[Fang et al. ，2021]。ii）先前的RL集成技术主要应用于SL组件，如环境动态建模 [Kurutach et al. ， 2018] 和值函数近似[Anschelet al. ，2017]。3）RL算法中的策略学习是关键的，这与SL更不同。但是，它并没有得到很好的研究，因此值得探索。注意，在许多现实世界的应用中，例如上面提到的那些，邻近策略优化（PPO）[Schulman et al. ，2017]一直是底层RL算法的首选，因为它具有优异和稳定的性能。因此，为了得到一个适用的RL算法，在本文中，我们以PPO为骨干，并提出了一个简单而有效的策略集成方法命名为包围邻近策略优化（EPPO）。EPPO严格地将集成策略学习作为第一类问题来明确解决：i）深度RL中合理而有效的策略集成策略是什么？ii）它如何帮助提高策略学习的性能。一些现有的政策集成工作旨在通过单独培训各种政策并简单地将其事后因素汇总来实现一套多样化的政策[Wiering 和 Van Hasselt ， 2008; Duell 和 Udluft ， 2013;Saphal等人，2014]。，2020]，由于忽略了不同子策略之间的协作，难以保证整体性能的提高。其他作品结合分治原则来划分状态空间，并相应地导出一组不同的子策略 [Ghosh et al. ， 2017; Goyal et al. ， 2019; Ren etal. ，2021]。但困难在于，arXiv：2205.09284v1 [cs.LG] 2022年5月+v：mala2277获取更多论文不不可见状态空间和对整个状态空间上的子策略的不知道可能显著地损害性能，特别是在深度RL中。此外，集成方法是否以及如何有利于政策优化仍然没有解决，需要额外的关注。EPPO从两个方面解决了集成策略学习问题。一方面，我们认为集成学习和策略学习应该作为一个有机的整体来考虑，因此，EPPO将子策略训练和决策聚合作为一个整体进行组合，并在统一的集成感知损失下对其进行优化。为了充分利用数据和提高样本效率，子策略也通过集成策略收集的数据进行优化，该集成策略聚合所有协同训练子策略以用于最终决策。此外，我们从理论上证明了协同训练子策略的决策聚集有助于有效的探索，从而提高样本效率。另一方面，考虑到集成方法受益于子策略之间的多样性，难以合理划分状态空间来训练多样性策略，EPPO在策略空间内引入了多样性增强正则化，以保证多样性，进一步提高集成性能.我们根据经验发现，它可以提高现实世界应用中的策略泛化能力，因为多样性增强正则化可以防止子策略崩溃为奇异模式或过度拟合训练环境，从而保留了集成策略泛化到不可见状态的能力。概括地说，这项工作的主要贡献有三方面：• 本文提出了一种简单有效的集成策略，证明了集成协同训练子策略可以促进策略探索，提高样本效率。• 据我们所知，EPPO是第一个采用多样性增强规则化来实现政策集成的多样性的工作。• 在网格环境、Atari基准测试和实际应用中的实验表明，EPPO算法具有更好的采样效率，并且多样性增强正则化也为策略泛化提供了很好的改进。2背景2.1预赛顺序决策过程可以用马尔可夫决策过程（MDP）来表示，由元组M=S，A，p，p0，r0表示。S={s}是环境状态的空间。A={a}是智能体的动作空间。p（st+1|s t，a t）：S× A<$→ S（S）是动力学模型，其中S（S）是S上的分布集。环境的初始状态s0遵循分布p0：S<$→R。r（s，a）：S× A<$→R是奖励函数。目标-以π采样的历史。在本文中，我们考虑离散控制任务，其中A是有限的和离散的。2.2相关作品集成方法在强化学习中的应用目前主要集中在环境动力学建模和价值函数逼近两个方面。对于环境动力学建模，使用几种环境模型来减少模型方差[Chua et al. ，2018]并稳定基于模型的策略学习 [Kurutach et al. ，2018]。至于值函数逼近，Q函数增强在减轻过度估计方面是流行的[Anschelet al. ， 2017] ，鼓励探索 [Lee etal. ，2021]和在离线强化学习中实现保守策略学习[Wuet al. ，2021]。然而，环境动力学背后的机制-ICS建模和价值函数近似是相似的它与RL中的策略学习有着巨大的差距。在集成策略学习的现有作品中，一些作品遵循SL中使用的技术，并且事后简单地对单独训练的策略进行聚合。为了生成一组不同的子策略，不同的权重初始化[Faußer和Schwenker， 2015 年; Duell 和Udluft，2013年]，训练时期[Saphal等人，2013年]。，2020]，或使用RL算法[Wier ing和Van Hasselt，2008]。与SL任务相比，RL代理必须采取一系列决策而不是一步预测，这使得子策略之间的合作对于获得良好的集成更加重要。如果不将策略集成和策略学习作为一个整体优化问题来考虑，就可能忽略子策略之间的协作，从而难以保证整体性能的其他工作结合分治原则来划分状态空间并相应地导出一组专用策略，然后将这些策略聚合以解决原始任务，这与专家混合（MoE）的思想一致[Jacobs et al. ，1991]。MoE的本质是如何提供数据并获得一套专注于状态空间不同区域的专门政策（即专家）。EPPO算法是MoE范式下的一个特例，它提出了一种新的方法（即多样性增强正则化）来获得专家集合，并在实验中表现出更好的为了划分状态空间，DnC[Ghosh et al. ，2017]基于初始状态的聚类将整个任务抽象地划分为若干子任务，而ComEns [Goyal et al. ，2019]和PMOE [Ren et al. ，2021]分别学习基于信息论和高斯混合模型的除法原理。然而，在许多环境下，状态空间很难划分，不合理的划分会损害系统的性能。此外，由划分引起的对子策略的整个状态空间的不知道可能会显著地损害性能，特别是在深度RL场景中，并且导致较差的集成有效性。Diversity EnhancementDiversity Enhancement 主要用于基于种群的强化学习，其目的是导出一组不同的策略。为了提高多样性，吉隆坡潜水员-tive是学习策略π以最大化累积re-[][wardη（π）=E联系我们r（s，a）τ，其中τ是trajec，gence Hong等人，2018年，最大平均差异妈-τ∼πt=0时Sood和Doshi-Velez，2019]和行列式点Pro-+v：mala2277获取更多论文≤≤Σk=1Lk（πk）=E'∼·|ππ′（·|st），πk（·|st）−K不不A"（t）12K不不 ˆ-ππ′（a|s）Aππ′（t）前馈反向传播3.2政策优化SL中以前的集成工作也激发了一个事实，即更好的子模型会导致更好的经验结果[Zhang etal. ，2020]，因此我们应用PPO来最大化期望的返回（即，η（π k），1KK）的子策略和损失被定义为：环境ΣΣTΣπ（a |s）πˆ子策略......πˆt=0时ππ′（at|（st）（二）图1：EPPO的框架工作。只有集合策略用于与环境交互，而所有子策略基于相同的收集数据同时更新。cess [Parker-Holder et al. ，2020年]作为培训过程中的奖金。在策略集成中，子策略之间的多样性因此，我们在策略空间上施加多样性增强正则化3推进近端政策学习在本节中，我们首先在子策略的训练和数据收集方面激励我们在EPPO中的设计，然后介绍学习方法的细节。该架构的概述如图1所示。3.1政策包围作为广泛使用的集成方法的文献[周等人。，2002;Anschel et al. ，2017]，近似函数由一组基本组件聚合，每个基本组件可以被优化并在目标任务中单独工作。此后，我们考虑维持K个子策略其中ππ′是总体策略，μ是约束策略更新的大小的自适应惩罚参数，并且Aππ′（t）=Aππ′（st，at）是由广义优势估计器（GAE）估计的优势函数[Schulman et al. ，2015年]，它描述了平均而言该动作比其他动作好多少。值得注意的是，用于优化的数据是由集合策略收集的，并且我们只通过策略梯度来优化子策略的参数，这并没有增加任何额外的样本成本。环境是一个单一的政策。虽然简单地聚合集成中子模型的预测已经显示出提高监督任务性能的有效性[Zhou et al. ，2018]，很少有证据表明子策略的聚合可以改善决策制定，因为RL和SL的本质之间存在很大的差距，例如：i）在RL中的当前状态下可能存在不止一个最佳动作，而SL只有一个基本事实;ii）一些表现良好的子策略的聚合可能会导出不期望的动作分布并导致不良状态，特别是当有许多不同的方式来处理任务并且子策略被单独优化时。因此，有必要考虑子策略之间的合作，并在一致的学习范式中优化它们。在EPPO中，我们加入了一个集成感知的损失，以鼓励子策略之间的合作，并确保一个行为良好的集成策略。通过PPO优化系综策略的系综损失定义为：{π θ，π θ，. . .，π θ}。为了简洁起见，我们用πk表示子策略由θk参数化。然后，全体警察--ΣΣTΣπ|s）可以通过子区域上的平均聚集来确定施政纲要而形式上，对于一个给定的国家，t=0时t t（三）ππ（·|s）被计算为子策略的算术平均值：K以EQ。（1）Eq.（3）通过在同一目标下以统一的行为更新所有子策略来更新集成策略。在某种程度上，1ππ（·|s）=Kπ k（·|s）。（一）k=1作为可以以子策略的性能为代价来促进总体性能的正则化然而，在极化中存在模式崩溃的潜在风险。请注意，集合策略的参数是所有子策略都对应于单个策略的集合将子策略{θ k}K的整个参数集. 在冰冷的，这使得政策合奏无用。在我们的方法中，RL任务，采样效率是一个关键问题，我们希望所设计的增强方法的性能改进来自算法本身，而不是更多的子策略采样的更多轨迹。因此，在EPPO中，只有集合策略被全部用于数据收集，并且代理对动作进行采样，当与元件相互作用时，来自集成策略的π（s）。然后，由集合策略采样的轨迹将进一步用于更新子策略。由于所有子策略共享类似的训练范例，这使得这些子策略倾向于类似地表现，此外，EPPO 在每一步随机（1）），子政策的多样性应促进总体政策的探索为此，我们提出了一个多样性增强正则化，以防止所有的子政策崩溃成一个单一的模式，并确保多样化的子政策，以进一步提高集成性能。直觉，在µKL′Le（π）=Eπ'µKL ππ（·|st），π（·|（st）.+v：mala2277获取更多论文{ 联系我们Kk=1一当量（1）分别。我们将这两种方法表示为简称PEMV和PEMA。ΣK为了增强多样性，正则化应使不同子策略提出的动作分布相互正交。具体地，对于离散动作空间，EPPO中采用的分集增强正则化被定义为：• PE（策略Encyclopedia）基于传统的策略Encyclopedia方法[Duell和Udluft，2013]，其通过PPO单独训练K个策略，然后将它们聚合。在我们的论文中，我们考虑两个聚集操作，即，多数表决和平均聚合，这是定义ΣΣasπˆ(a|s）=1K1≤i j≤K一I（（arg max 'π k（a'|s））== a）和我们注意到，有许多可选的指标来鼓励子策略之间的多样性，例如KL分歧[Hong etal. ，2018]和MMD [Masood和Doshi-Velez ， 2019]在 RL 文献中，但我们采用Eq.（4）在EPPO中，由于其计算效率[Li et al. ，2012]。总之，要最小化的总损失定义为：L=Lk（πk）+αLe（πk）+βLd，（5）k=1• DnC[Ghosh et al. ，2017]划分初始状态空间划分为K个切片，并对每个切片上的一组策略进行在培训过程中，这些策略会定期提炼成一个用于评估的中心策略。• ComEns[Goyal et al. ，2019]使用信息理论机制将策略分解为原语的集合，每个原语可以自己决定是否应该在当前状态下采取行动。• PMOE[Ren et al. ，2021]应用路由功能来聚集子策略并将数据递送到不同的其中α和β是超参数。3.3理论分析定理1（平均聚合鼓励探索）。假设π和πi1iK是从P（π）中抽样得到的，则集合策略πii的熵不小于单个策略i的期望熵. 例如， Eπ1，π2，...，πK[H（ππ）]≥Eπ[H（π）]。证据可参见附录A中的基本材料。定理1说明在策略学习过程中，集成策略比单一策略具有更好的探索性因此，在训练期间聚合子实验中我们也观察到了相应的现象，这反映了我们的方法对策略集成的平均聚集操作的有效性。4实验在我们的论文中，我们只考虑离散控制任务，因为它通常被采用在现实世界的场景应用和连续控制任务可以离散化，以便于优化。为了评估EPPO的性能，我们对Minigrid进行了实验[Chevalier-Boisvert et al. ，2018]，雅达利游戏[Bellemare et al. ，2013]和金融交易[Fang etal. ，2021]，其跨越模拟任务和真实世界应用。本节中的实验和分析是由以下两个研究问题（RQ）引导的。RQ1：我们的方法是否通过策略集成实现了更高的样本效率？RQ2：我们的方法的泛化性能是否优于其他比较方法？4.1比较方法我们将EPPO与以下基线进行比较，包括EPPO的两种变体。• PPO[Schulman et al. ，2017]是一种最先进的策略优化方法，其已广泛用于现实世界的应用[Fang et al. ，2021; Ye et al. ，2020]。优化期间的子策略• SEERL[Saphal等人，，2020]使用学习速率调度来在一轮中获得多个策略，并根据性能和多样性选择用于集成的一组策略。• EPPO是我们提出的上述方法，其具有用于消融研究的两个其他变体：EPPO-Div是没有在等式中定义的多样性增强正则化的方法。 EPPO-Ens 是在 Eq.（三）、由于我们专注于策略集成，因此我们省略了Q函数集成方法，如日出[Lee et al. ，2021]。在所有计算基线中，我们将PPO作为公平的基本策略优化方法;此外，它们具有大致相同数量的参数（即，K乘以PPO的参数大小，并且我们将K= 4设置为所有实验的默认值）以及在一个训练时期中收集的相同数量的样本。4.2提高Minigrid的效率我们首先研究了EPPO是否能提高样品效率。在这一部分中，我们考虑了Minigrid中具有稀疏奖励的两个部分可观察环境[Chevalier-Boisvertet al. ，2018年]：分布转移和多房间，如图2所示，其中代理旨在达到给定的目标位置，并且只有在达到目标位置时才提供非零奖励。具体而言，在Distributional-Shift中熔岩的第二条线的位置被重置，并且在重置过程中重新生成Multi-Room的形状。由于结构更复杂，起始位置和目标之间的距离更长，多房间更难。如图2所示，EPPO在两种环境（RQ 1）中均具有最佳采样效率。我们注意到 PEMA 和 PEMV 失败（即，return= 0），而PPO可以获得更好的性能。我们从两个方面总结了首先，考虑到PPO获得正奖励所需的样本数量很大，PEMA和PEMV可能需要K倍样本才能获得正奖励，因为它们单独训练K个PPO策略。第二，由于PE方法的子策略之间的重叠，有用的知识可能会被淹没，从而被忽视，2Ld=K（K−1）πi（a|s）πj（a|s）。+v：mala2277获取更多论文分布移位1.00.80.60.40.20.0与基线的PSEERLEPPO一PEMDNCPMOEEMVComEnsPPO0 50 100 150200历元0.80.60.40.2消融研究EPPO部门EPPO-EnsEPPO0 50 100 150200历元1.00.80.60.40.20.0K的影响2480 50 100 150200历元多房间0.60.40.20.0与基线的0 100 200 300 400500历元0.60.40.20.0消融研究0 100 200 300 400500历元0.60.40.20.0K的影响0 100 200 300 400500历元图2：第一列给出了环境的快照，其中红色三角形和绿色正方形分别表示代理Minigrid上的学习结果使用5个随机种子进行顶行和底行分别显示有关Distributional-Shift和Multi-Room的信息第一列：环境的快照，其中红色三角形和绿色正方形分别表示智能体的位置和目标。第二列：所有比较方法的学习曲线。第三列：EPPO及其变体的学习曲线。最后一列：当K设置为不同值时，EPPO的学习曲线。无价值知识的聚合操作。它们的失败暗示了集合感知损失的必要性，并说明了集合策略抽样的合理性。对于SEERL，其最终性能甚至比上一个时期的性能更差，因为事后选择不能保证性能的改善，这进一步强调了子策略联合优化的必要性。此外，DnC、ComEns和PMOE在Multi-Room环境中的失效可归因于对状态空间的划分操作，这种操作不仅会不合理地划分空间，而且会阻碍对整个环境的探索能力。通过比较基于状态空间划分的方法和基于EPPO的方法的性能，发现基于EPPO的方法具有更好的性能，这表明在策略集成中，多样性增强正则化方法是一种更好的多样性增强方法图2中的消融研究表明，EPPO优于其两种变体，因此多样性增强正则化和集合感知损失似乎对EPPO的优异性能至关重要。此外，EPPO及其变体的收益率在开始时都提高很快，这证实了定理1中的结果，即平均聚集鼓励探索。在图2的最后一列中，我们分析了在EPPO中使用不同数量的子策略的效果结果表明，极小的K值并不能带来良好的性能，大幅度增加K值也不能进一步提高当K值较小时，如2，子策略在动作空间中的重叠较少，平均聚集操作无法从子策略中提取有价值的信息，导致性能变差。4.3Atari Games比较在看到EPPO在稀疏奖励环境中的卓越性能后，我们还想评估EPPO在更困难和广泛使用的基准。我们在《易经》中，也是这样说的。，2020年]，并选择了四个环境中的雅达利游戏作为测试床。如表1所示，EPPO仍然可以在10M环境步骤中始终实现最佳性能，表明更好的样品效率（RQ1）。外星阿米达尔PongSeaQuestPPO1174.6283.820.81110.2PEMV678.074.36.9364.2Pema815.2113.87.6563.4DNC158.041.5-21.0185.0ComEns351.651.0-20.7504.2PMOE1488.2247.33.01800.5SEERL1127.8155.020.0928.4EPPO部门1173.2304.619.41580.8EPPO-Ens1651.2311.820.81816.6EPPO1984.0439.720.91881.2表1：Atari游戏在10M交互时的性能。所有结果代表了5次随机训练运行的100多集的平均值。粗体表示最佳效果。4.4可推广的应用：一个金融交易实例为了评估泛化能力，我们进行了订单执行的实验[Fang etal. ，2021]这是金融交易中一个基本而又具有挑战性的问题。在订单执行中，环境建立在历史交易数据上，并且代理旨在实现指定日期、股票ID和需要买卖的股票数量的交易特别是，环境通常被制定为训练，验证和测试阶段，每个阶段对应于一个特定的时间范围。具体而言，培训环境和验证环境返回返回+v：mala2277获取更多论文联系我们相数据集1801-1908#订单时间段培训2018年1月1日至12月31日验证132，098 01/01/2019 - 28/02/2019测试2019年3月1日-2019年8月31日相数据集1807-2002#订单时间段培训2018年7月1日至2019年6月30日验证163，140 01/07/2019 - 31/08/2019测试2019年9月1日-2020年2月29日表2：财务订单执行任务的数据集统计分别用于策略优化和策略选择。培训期间测试环境不可用。由于不同时期宏观调控的变化或其他因素的影响，测试环境与培训验证环境可能有很大的不同。因此，在测试过程中，所选择的策略必须在不熟悉的状态下进行决策，测试环境中的性能是泛化能力的一个很好的替代评估。[1] Fang et al. ，2021]，奖励由价格优势（PA）和市场影响惩罚组成，PA鼓励政策获得比基线策略更好的利润。具体来说，我们将TWAP作为基线策略，它将订单平均分割为T个部分，并在整个时间范围内的每个时间步均匀执行相同数量的份额。PA每增加1.0，可以带来0.5%的年回报率和20%的日周转率。的表3：订单执行任务的测试性能;指标值越高，性能越好。结果是十次随机训练运行的所有测试顺序的平均值。K248PA7.498.828.64奖励4.425.995.83表4：不同K.4.5政策多样性在展示了多样性增强正则化在提高样本效率和策略生成方面的性能[1]洪等人。，2018]，我们利用行动分歧（AD）来衡量子政策之间的分歧，定义为测试环境中订单的平均PA和奖励最大值πi（a）|s）/= arg max πj（a|（s））作为订单执行的评价指标。我们在两个大数据集1801-1908和1807-2002上进行了实验。，2021年]，数据集的统计数据见表2。不同方法的结果见表3。正如预期的那样，EPPO在两个数据集中的PA和奖励方面都取得了最佳性能，这表明我们提出的方法在推广到不可见状态（RQ 2）方面具有很大的潜力。我们发现PEMV在1801-1908年的回报比PPO差，这意味着单独训练子策略对集成性能没有保证，因此存在集成感知损失，即，在Eq.（3）鼓励子政策之间的协调。此外，EPPO-Ens的性能下降也说明了集成感知损失的重要性。此外，通过EPPO和EPPO-Div的比较，我们发现多样性增强正则化进一步提高了EPPO的泛化性能。这种现象与SL中的观察结果一致[Zhou etal. 2002]认为，子模型间的差异性可以减小方差，缓解过拟合问题，提高集成方法的泛化性能。为了评估K的效果，我们进行实验，当K2、4、8中的数据，并且结果示于表4中。与Minigrid中的实验结果类似，K= 2导致性能较差，这仍然可以归因于当K较小时在聚合期间难以获得共识此外，更大的K并不总是导致更好的性能。i，js∈Maa，（6）|K（K −1）|K (K −1)其中M是一组状态。在数据集1801-1908中，EPPO和EPPO-Div的AD值分别为15.9%和14.3%，这表明多样性增强正则化在提高多样性方面的能力。5结论和未来工作在本文中，我们专注于集成策略学习，并提出了一个端到端的集成策略优化框架称为EPPO，它结合了子策略训练和策略增强作为一个整体。特别地，EPPO在具有多样性增强正则化的集合感知损失下同时更新所有子策略。本文还从理论上分析了EPPO在提高策略熵方面的作用，为更好地探索EPPO策略提供了理论依据。对各种任务的大量实验表明，EPPO在样本效率和策略泛化性能方面都大大优于基线未来，我们计划整合更灵活的子策略集成机制，并深入研究集成策略学习背后的机制。引用[Anschel et al. 2017] Oron Anschel，Nir Baram和NahumShimkin。Averaged-dqn：用于深度强化学习的方差减少和稳定化在ICML中，第176- 178185. PMLR，2017年。数据集1801-19081807-2002度量PA奖励PA奖励PPO7.434.575.302.75PEMV7.474.416.033.44Pema7.875.005.983.42DNC7.995.475.362.75ComEns7.704.794.591.32PMOE3.12-0.033.091.43SEERL7.035.045.523.51EPPO部门8.385.516.213.30EPPO-Ens6.383.875.513.51EPPO8.825.996.313.57+v：mala2277获取更多论文[Bellemare et al. Marc G Bellemare，Yavar Naddaf，JoelVeness，and Michael Bowling.街机学习环境：总代理商的评估平台。JAIR，47：253[Chevalier-Boisvert et al. MaximeChevalier- Boisvert ，Lucas Willems，and Suman J. 开放式体育馆的最小化网格环境。https://github.com/maximecb/gym-minigrid，2018年。[Chua et al. Kurtland Chua ， Roberto Calandra ， RowanMcAllister和Sergey Levine。使用概率动力学模型在少数试验中进行深度强化学习。在NeurIPS，第4759-4770页[Duell and Udluft，2013] Siegmund Duell and Steffen Ud-luft. 强化学习中的连续动作集成。在 ESAN 。Citeseer，2013.[Fang et al. ，2021]方宇晨，任侃，刘维清，周东，张伟南，江边，俞勇，刘铁岩.通用的交易订单执行与oral-cle 政策蒸馏。 arXiv 预印本 arXiv ： 2103.10860 ，2021。[FaußerandSchwenker ， 2015]StefanFaußerandFriedhelm Schwenker.强化学习中的神经网络集成。Neural Processing Letters，41（1）：55[Ghosh et al. Dibya Ghosh ， Avi Singh ， Aravind Ra-jeswaran，Vikash Kumar和Sergey Levine。分而治之强化学习。arXiv预印本arXiv：1711.09874，2017。[Goyal et al. Anirudh Goyal，Shagun Sodhani，JonathanBinas ， Xue Bin Peng ， Sergey Levine ， and YoonneBengio.强化学习与信息约束基元竞争集成。arXiv预印本arXiv：1906.10667，2019。[Hong et al. Zhang-Wei Hong ， Tzu-Yun Shann ， Shih-Yang Su，Yi-Hsiang Chang，and Chun-Yi Lee.多样性驱动的深度强化学习探索策略。arXiv预印本arXiv：1802.04564，2018。[Jacobs et al. Robert A Jacobs，Michael I Jordan，Steven JNowlan，and Geoffrey E Hinton.当地专家的适应性组合。神经计算，3（1）：79-87，1991年。[Kurutach et al. Thanard Kurutach ， Mr. Clavera ， YanDuan，Aviv Tamar，and Pieter Abbeel.模型集成信赖域策略优化。 arXiv 预印本 arXiv ： 1802.10592 ，2018。[Lee et al. Kimin Lee ， Michael Laskin ， AravindSrinivas，and Pieter Abbeel.日出：一个用于深度强化学习中集成学习的简单统一框架。在ICML中，第6131-6141页。PMLR，2021年。[Li et al. ，2012] Nan Li，Yang Yu，and Zhi-Hua Zhou.多样性正则化集成剪枝。见ECMLPKDD，第330-345页Springer，2012.[Li et al. ，2020]李俊杰，小山田哲，叶奇伟，刘国庆，王超，杨瑞涵，赵力，陶Qin ， Tie-Yan Liu ， and Hsiao-Wuen Hon. Suphx ：Mastering mahjong with deep reinforcement learning.arXiv预印本arXiv：2003.13590，2020。[Masood and Doshi-Velez，2019] Muhammad A Masoodand Finale Doshi-Velez.多样性诱导策略梯度：使用最大平均差异来找到一组多样性策略。arXiv预印本arXiv：1906.00088，2019。[Parker-Holder et al. Jack Parker-Holder ， Aldo Pac-chiano ， Krzysztof M Choromanski ， and Stephen JRoberts. 基于种群的强化学习中的有效多样性。NeurIPS，33：18050[Ren et al. Jie Ren，Yewen Li，Zihan Ding，Wei Pan，and Hao Dong. 概率混合专家，实现高效的深度强化学习。arXiv预印本arXiv：2104.09122，2021。[Saphal et al. Rohan Saphal ， Balaraman Ravindran ，Dheevatsa Mudigere ， Sasikanth Avancha 和 BharatKaul。Seerl：高效集成强化学习样本。arXiv预印本arXiv：2001.05209，2020。[Schulman et al. John Schulman，Philipp Moritz，SergeyLevine，Michael Jordan，and Pieter Abbeel.基于广义优势估计的高维连续控制。arXiv 预印本 arXiv ：1506.02438，2015年。[Schulman et al. John Schulman，Filip Wolski，Pra- fullaDhariwal，Alec Radford，and Oleg Klimov.代理策略优化算法. arXiv预印本arXiv：1707.06347，2017。[Wiering and Van Hasselt ， 2008] Marco A Wiering andHado Van Hasselt. 强化学习中的包围算法。 IEEETransactions on Systems，Man，and Cybernetics，PartB（Cybernetics），38（4）：930[Wu et al. Yue Wu，Shuangfei Zhai，Nitish Srivastava，Joshua Susskind，Jian Zhang，Ruslan Salakhutdinov，and Hanlin Goh.离线强化学习的不确定性加权行动者-批评者。arXiv预印本arXiv：2105.08140，2021。[Yang et al. Guan Yang，Minghuan Liu，Weijun Hong，Weinan Zhang，Fei Fang，Guangjun Zeng，and YueLin.完美豆：完美信息蒸馏，主宰豆地煮. arXiv预印本arXiv：2203.16406，2022。[Ye et al. Deheng Ye，Zhao Liu，Mingfei Sun，Bei Shi，Peilin Zhao ， Hao Wu ， Hongsheng Yu ， ShaojieYang ， Xipeng Wu ， Qingwei Guo ， et al. Masteringcomplex control in moba games with deep reinforcementlearning. AAAI，34，2020年。[Zhang et al. ，2020] Shaofeng Zhang，Meng Liu和JunchiYan。多样化集成神经网络。NeurIPS，33，2020.[Zhou et al. Zhi-Hua Zhou，Jianxin Wu，and Wei Tang.集成神经网络：多个可能比所有更好。人工智能，137（1-2）：239[Zhou et al. ，2018] Tianyi Zhou，Shengjie Wang，andJeff A Bilmes.多样的合奏演变：课程数据-模型的婚姻。在NeurIPS，第5909-5920页+v：mala2277获取更多论文KKK|KΣΣKΣΣKKKk'=1kK-log（π k（a|（s））k'=1kKπ k（a|个）日志π（a s）k'=1kKπ k（a|个）Σk=1一定理1定理1（平均聚合鼓励探索）。假设π和{π i}1≤i≤K是从P（π）中抽样的，则集合策略πi的熵不小于单个策略的熵i.例如， Eπ1，π2，...，πK[H（ππ）]≥Eπ[H（π）]。证据1Σ克雷蒂安π（a|个）. Kπ'（α|s）H（π）−Kk=1H（πk）=−一k=1 klogKKk'=1 kK+1π（a|s）log（π（a|（s））1Σ ΣK k=1一.. Kπ k（a|个）日志π'（α|s）电子邮件1Σ ΣKk=1一. Kπ '（α|s）1美元。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

强化学习中基于政策激励的泛化能力和样本效率提高方法

基于样本效率优化的深度强化学习方法综述.pdf

基于加权密集连接卷积的深度强化学习方法总结.pdf

机器学习基础知识

推荐系统中的强化学习方法综述

基于仿真的强化学习与现实世界应用的转化

资源管理效率提升：强化学习应用与节约策略

强化学习：机器学习的下一步

能源管理智能策略：强化学习在可持续发展中的应用

强化学习简介及基础概念解析

【深度学习与强化学习】：Python框架在智能决策系统中的五大角色

多智能体与协作学习：强化学习进阶之路

深度强化学习：理论到实践，案例详解

推荐系统革新者：强化学习算法如何引领变革

【强化学习算法概述】：从马尔可夫决策过程到Q学习的全解析

【Python解决复杂决策问题：强化学习案例全解析】：专家级案例分析

【强化学习的稳定性与收敛性分析】：从理论到实践的挑战与解决方案

【Hadoop智能选择】：运用机器学习优化DataNode选择的先进方法

最新资源