约束采样强化学习：加速学习通过整合领域知识

71 浏览量更新于2023-12-01 收藏 1.82MB PDF 举报

专业知识

算法评估

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文约束采样强化学习：增强专业知识以加快学习速度Tong Mu1，Georgios Theocharous2，David Arbor2，Emma Brunskill11斯坦福大学，{tongm，ebrun} @ cs.stanford.edu2Adobe Research，{theochar，artists} @ adobe.com摘要在线强化学习（RL）算法通常难以部署在复杂的面向人类的应用程序中，因为它们可能学习缓慢且早期性能较差。为了解决这一问题，我们引入了一个实用的算法，用于整合人类的洞察力来加速学习。我们的算法，约束采样强化学习（CSRL），incorpo，率先验领域的知识作为约束/限制的RL政策。它需要多个潜在的策略约束，以保持对单个约束的错误指定的鲁棒性，同时利用有用的约束来快速学习给定一个基本的RL学习算法（例如，UCRL，DQN，Rainbow），我们提出了一个具有消除方案的上置信度，该方案利用约束之间的关系及其观察到的性能，以自适应地在它们之间切换。我们实例化我们的算法与DQN型算法和UCRL作为基础算法，并评估我们的算法在四个环境中，包括三个模拟器的基础上，真实的数据：建议，教育活动排序，艾滋病治疗排序。在所有情况下，CSRL都比基线更快地学习好的1引言在线强化学习（RL）算法具有很大的潜力，可用于改善具有顺序决策的现实世界系统，例如推荐系统（Theocharous et al. 2020）或智能辅导系统（Bassen等人，2020）。这些域通常具有大的或无限的状态空间，并且可以扩展到这些设置的现有RL方法通常需要大量的交互数据来学习好的策略。学习人类专家知识可以加速学习，例如通过专家演示（ Wuet al.2019;AroraandDoshi2021;Husseinetal.2017;Taylor，Suay，and Chernova2011），或者让它们提供最优策略保证满足的属性，例如特定的函数类约束（Ijspeert，Nakanishi，andSchaal2002;Tamosiunaiteetal.2011;Buchlietal.2011;Kober ， Bagnell ， andPeters2013）。然而，当所提供的信息是误导性的或次优的时，这样的方法也有降低系统性能的风险。例如，在推荐系统中，现有的人机交互（HCI）文献已经发现，跨时间很重要（ Nilashietal.2016;BradleyandSmyth2001;KomiakandBenbasat2006;Chenetal.2019）。但是，自信地得出结论，这一发现将推广到一个新的系统，并将这种高层次的知识转化为具体的政策类约束是微妙的（“多样性”是否意味着3或4个不同的在过去的5或10个建议？）。选择错误的配方可能会严重影响最终的奖励。一种替代方法是允许人类领域专家提供许多不同的公式，并使用模型或算法选择来自动学习选择最有效的公式（例如（ Leeetal.2021;Laroche 和Feraud2018）。然而，关于选择的大部分工作都集中在理论结果上，并且不能与流行的深度RL算法一起使用，这些算法可能具有更实际的用途（Lee et al. 2021年）。也许与我们的工作最密切相关的是Laroche和Feraud（2018）的工作，它使用了一种上置信界的强盗方法来学习在一组强化学习器中进行选择。这项工作是为了优化学习超参数（如学习率或模型大小）而构建的，并且与许多置信上限方法一样，依赖于调整所使用的乐观参数，这通常很难在部署之前完成。在这项工作中，我们专注于利用人类在领域中的洞察力，通过策略上的弱标签来加速RL。我们提出了一种算法，约束采样强化学习（CSRL）1，它执行自适应选择和消除一组不同的政策约束。我们的选择算法选择性地使用这些约束来快速学习，并将其与安全RL中使用的安全约束区分开来，我们也将其称为策略约束。策略约束或限制限制了状态中的可用动作，并且可以通过潜在地减少对次优动作的探索来加速学习我们的方法在一组RL学习者上执行算法选择，每个学习者使用不同的策略限制。例如，在推荐系统中，一个限制可能指定3个项目应该来自所示的过去5个项目中的唯一类别，而另一个限制可能要求过去10个项目中至少有2个唯一项目，但仅适用于使用系统超过6个月的用户第三个RL学习者可以使用不受限制的策略类，它不限制可用的访问权限。版权所有© 2022，美国人工智能情报（www.aaai.org）。All rights reserved.1代码：https://github.com/StanfordAI4HI/CSRLarXiv：2112.15221v1 [cs.AI] 2021年12+v：mala2255获取更多论文||一|| |S ASCγγt=0γt=0∼ Σ|在任何国家的。请注意，机器学习的其他领域通过允许人们通过可能不完美的标签功能提供弱监督来显着降低成本（例如（Ratner et al.2017））。在高层次上，我们将类似的想法应用于强化学习，允许人们提供弱的，可能不完美的策略限制，供不同的RL学习者使用然后，我们的算法在RL学习器的潜在性能的不确定性下使用乐观对集合进行自适应选择，每个RL学习器都使用不同的限制集进行操作第二个技术创新来自于注意到提前调整选择机制的乐观参数可能是不可行的，并且过高或过低的参数可能会减慢学习。相反，我们引入了一个简单的启发式算法，它使用模型变化的量来估计每个RL学习器的收敛性，并使用它来消除性能低下的RL学习器。这使我们能够比单独通过乐观自适应选择更快地实现良好的性能。这些简单的想法在我们考虑的各种设置中产生了大量的经验改进，其中包括在电影推荐、辅导系统问题选择和HIV治疗中使用真实数据创建的模拟器，我们进行了仔细的实验分析，以说明我们的额外的变化为基础的学习者消除和鲁棒性列入不良约束的好处。我们的方法很简单，可以用于各种各样的基础强化学习器，并可能使RL更适用于更广泛的重要领域。2设置马尔可夫决策过程（MDP）（Bellman1957）被描述为一个元组（，，P，R），其中是状态集，是动作集。转移动力学P（s′s，a）定义了在状态s中采取行动a后下一个状态s′的概率分布，R（rs，a）定义了回报r的分布。我们假设动作空间是离散的（然而，状态空间可以是离散的或连续的），奖励是有界的r Rmax。我们考虑的情节，有限的地平线设置，其中每个情节的长度小于或等于最大地平线长度H。表示为π的策略是从状态到动作的潜在随机映射，其中π（a s）定义在状态s中采取动作a的概率。轨迹τ：=（s0，a0，r0，s1，a1，r1，. ），被定义为一个情节中的状态、动作和奖励的序列。策略的状态-动作值Qπ（s，a），3算法我们首先简要介绍了我们的算法，约束采样强化学习（CSRL）的目的和概述，然后再详细介绍我们工作的目标是提供一种简单的方法，利用（潜在的薄弱）人类领域的知识，在不牺牲最终性能的情况下更快地学习。CSRL将一组不同的候选策略约束作为输入（我们也称之为约束，以将我们的目标与使用约束的安全RL工作的目标区分开来），其中每个约束都用于定义在学习时必须遵循限制的RL学习器所提供的限制中的一些或全部可能不允许（未知的）最优策略，并且可以包括无限制选项作为候选。CSRL然后使用上置信度强盗（UCB）（Auer2002）的方法，该方法考虑了学习者的先前表现，以自适应地选择下一个学习者来为事件做出决策。在实践中，这种基于乐观的方法往往需要仔细调整，以实现良好的性能，这可能是不可行的，在新的领域缺乏先前的数据。为了提高这种超参数和速度学习的鲁棒性，我们的CSRL方法引入了一个简单的启发式算法，该算法跟踪RL学习器中的模型参数变化，以便在学习器收敛时进行假设，并消除那些可能被错误指定或性能低下的参数。现在我们介绍一些符号。在本文中，我们使用以下约束/限制的定义：定义3.1（约束/限制）约束（或限制）C是将每个状态映射到一组允许的动作的函数，C（s）={ai，ak，. . . }中。2给定一组K个约束，设Ck表示第k个约束.我们说一个策略π满足一个限制Ck，如果对于每个状态，π只采取Ck允许的行动：π（a|s）>0，当a∈ Ck（s）时.定义3.2（受限策略集）我们将限制C k的策略集表示为Ck，并将其定义为所有满足Ck的策略π：k={π：|s）> 0 → a ∈ C k（s）}定义3.3（受限RL学习器）给定约束C k和可以在约束（诸如DQN）下学习的基本RL学习算法，我们实例化受限强化学习器，表示为l k。 l k仅限于执行和优化策略中的策略我们假设集合中的每个约束都是唯一的，并且我们定义了约束之间的子集属性：定义3.4（子集/更多限制）限制Ck是γ是期望的折现回报，限制Cj的子集，如果Ck中允许的每个动作都是a状态s，采取行动a，然后遵循政策：在Cj中也允许：sCk（s）∈Cj（s）。在这种情况下，我们将Q π（s，a）：=Eτπ[hγtrt|s0=s，a0=a]），其中∈也指Ck比Cj更受限制，并定义<运算符：Ck Cj。我们也用这个符号来描述γ[0，1]是折现因子。价值函数是前-从状态s开始获得的奖励的预期折扣总和对应的策略集和RL学习器。并且遵循策略π：Vπ（s）：=Eτπ[hγt rt s0=s]最优策略，记作π，是使V：π= arg maxπV π。2注意，这与约束MDP（CMDP）框架（Altman1999）形成对比，后者对成本和预算有不同的关注。+v：mala2255获取更多论文一个CA∈ CKKLLL{|C|}KLKL为了更新学习器11以及所有相关的其他学习器：共享数据加速了所有RL学习器之间的学习。LKKK不不关于指定限制的注意：注意，虽然策略限制是由允许的状态-动作对定义的，但是它们通常不需要由人类在该粒度级别上指定。例如，一个人类专家可能会指定学生只应该得到最多涉及一种新技能的练习问题只要状态和动作空间具有表示所涉及的技能的特征，就很容易以编程方式将这种高级规范转换为所需的约束，而不需要人类专家枚举所有状态-动作对。我们的算法，CSRL（算法1），作为输入的基础RL算法，lg，一组潜在的限制和置信界限函数B（h，n）。CSRL通过初始化|C|RL学习者，每个都使用输入基础算法-在使用所选择的RL学习器收集数据之后，该数据被提供给所有RL学习器以可选地更新其算法3。然后第三步是消除与所选约束相关联的潜在学习者。排除试探法检查RL学习者li我们现在更正式地说明这一点。当RL学习器lk被使用第n次，并且生成轨迹τn时，令δn表示值函数的变化。例如，在表格域中，我们可以测量状态-动作值||Q n−1−Q n||1里瑟姆 lg，以及限制条件之一Ci。学习者l我只会选择行动和学习，而不是政策，δn=K K|一||A|、（二）Ci. 让表示主动学习者的集合，= 1，. . .，。每集分为三个步骤。首先，CSRL选择活动集中的RL学习器11来选择该片段中的第二，CSRL使用l收集状态、动作和奖励的轨迹。该数据用于其中，Qn表示使用刚收集的数据更新后的状态-动作值函数在基于值的深度RL中，我们可以使用观察到的轨迹上的损失函数作为对变化量的近似估计4iδn=π（r+MaxQn（s，a））−Q n（s，a）. （三）第三，使用启发式来潜在地从中消除li。下一集开始了。我们现在描述步骤1，RL学习者选择。我们使用UCB来选择RL学习器，其在活动集中的潜在回报的最大估计上界。UCB机制使用在RL学习者l的过去执行期间观察到的平均先验返回值（表示为μl）和输入置信界限函数。k=argmax（µl+B（h，nl））（1）l∈L关于这种学习者选择策略，有两件重要的事情需要注意。首先，CSRL不使用任何RL学习者这允许我们利用非常通用的基本算法Alg，而不需要它们准确地估计它们自己的值函数。相反，CSRL只依赖于执行每个学习者所观察到的回报，将它们视为多臂强盗中的一只手臂。其次，注意，等式1中给定学习者l的估计上限通常不是RL算法性能的真实置信上限。这是因为UCB多臂强盗算法假设各个臂的随机收益是未知的，但是是固定的。相比之下，在我们的环境中，手臂是RL学习者，他们的政策正在积极变化。幸运的是，之前的相关工作已经成功地使用UCB以有效的方式选择具有非平稳回报的臂：这是有影响力的上置信树的基础，这是一种蒙特卡洛树搜索方法，根据下游行动决策的非平稳回报的上限对树中的行动扩展进行优先级排序（Shah，Xie和Xu2020）。它也被用于在线强化学习的相关工作（Larocheand Feraud2018），我们将证明它在我们的环境中既可以在经验上有效，又可以在温和的假设下保证良好的渐近性能。对于可能被消除的RL学习器，对于至少Tn个连续步骤，变化δn必须低于阈值T1如果对于RL学习器Ii满足该条件，则元学习器首先检查是否存在约束较少的学习器Ik。如果存在这样一个l k，并且至少有一个其他学习器l jin具有更高的平均性能：µi<µj，则li被移除。参见算法1和2的伪代码。我们在下面的第3节中给出了使用UCRL和DDQN的基础学习器实例化CSRL的示例，我们将在Github上发布所有代码。消除机制直觉：回想一下，CSRL应该尝试选择与最优策略兼容的最受限制的学习器，因为使用减少的动作空间进行学习通常会加快学习和性能。为了提高鲁棒性，RL学习者选择UCB策略依赖于关于内部算法的最小信息。然而，UCB通常在选择高性能武器（在我们的情况下，RL学习者）而不是低回报武器（在我们的情况下，具有与最优策略不兼容的限制的学习者）的速度上是保守的考虑是否可以识别学习器li何时收敛，并且可以通过运行平均值µi正确评估其性能。如果存在具有更高平均回报μ j的l j，则限制C i可能不包括最优策略，并且可以从潜在RL学习者的集合中移除li。我们的方法使用代理启发式收敛，3读者可能想知道提供这种非政策数据是否总是有用的，或者如何最好地将其纳入其中。在我们使用的特定基础RL算法中，将观察到的轨迹纳入经验重放或动态和奖励模型的估计中是很简单的，但更复杂的重要性采样方法可以用于基于策略梯度的方法。4注意，可以使用RL学习器中变化的其他度量，包括神经网络参数的差异，或状态值预测的变化。τn不a∈Ck（st+1）电话+1+v：mala2255获取更多论文n ∈ CACZL ←C←←hkCnη←←L∈L∈{−}MM0H2(i)z（h）是非递减的，和（ii）O（z（h）1/n）T1，则返回False（如果函数li，lj：Ci>Ck且μπj>μπk，则返回True（删除）返回False样本估计的回报可能是嘈杂的。因此，它可能不正确地得出学习器11已经收敛和/或具有次优收益的结论。为了确保我们保留一个接受最优策略的学习器，我们只删除一个学习器li，以及它的约束Ci，如果它是至少一个其它约束的子集，在H集被选中。那么对于至少一个k，∈K，当h→∞时，对于所有k∈/K∈，Tk∈（h）>Tk（h）定理1的证明在附录中给出。当基本算法具有收敛保证时，例如UCRL，我们还可以保证收敛速度我们在附录中提供了这些速率和对UCRL案例的讨论：我们的分析基于Shah等人（Shah，Xie和Xu2020）对Monte Carlo树搜索的收敛速率的分析。算法实例化我们讨论了CSRL与各种基础RL算法的具体实例CSRL-UCRL 。 UCRL （ Auer ， Jaksch ， andOrtner2009）是一种有影响力的策略强化学习算法，具有良好的遗憾边界，这是基于表格设置不确定性下的乐观。在价值迭代步骤中合并操作约束很简单Vt+1（s）<$max（R（s，a）+P（s′|s，a）γVt（s′）主动约束Cj。因此，满足Ci的条件将继续存在于活动集中，即使当Ci被消除。我们现在提供一些基本的合理性，这个建议的方法，在描述CSRL的实例与特定的基础学习，并证明其性能的经验。简要理论探讨我们简要地提供了一个保证，至少有一个学习者的政策集包含最优的政策将采取比所有其他学习者在温和的假设。假设1（模型参数收敛）设M k，n表示学习器的模型参数l k在n后面更新. 在每运行的 CSRL，每个学习器的模型参数收敛：limn→∞Mk，n→Mk，对所有Ck∈ C.设π表示对应于收敛模型参数的策略k的RL学习器lk。让Es[VπMk（s0）]=µk，µk=maxkµk和πk表示达到µk的策略。请注意，π被定义为在集合中所有学习者中具有最高回报的策略。为了不失一般性，假设ππ是唯一的.我们将与ππ相容的约束集称为最优约束集，并将此集合表示为Cπ，并具有对应指数集K∈.然后要求：所有观察到的（s，a，r）元组用于更新所有RL学习者共享的转换和奖励的估计模型。等式1用于跟踪估计值函数的收敛。CSRL-DQN、CSRL-DDQN和CSRL-Rainbow深度强化学习在各种复杂领域都显示出强大的结果。我们的CSRL-DQN、CSRL-DDQN和CSRL-Rainbow实现针对每个限制使用单独的DQN（Mnih等人，2015）、DDQN（van Hasselt，Guez和Silver2016）或Rainbow（Hessel等人，2018）学习器。我们使用了带衰减的贪婪探索。经验以共享重放缓冲区的形式UpdateLearners函数将最近轨迹中的元组放入共享重放缓冲区。然后，仅使用来自满足相关联的限制Ck的缓冲器的样本来更新每个学习器Ik。使用约束Q损失更新学习器lk（Kalweit等人，2020）（参见等式3）。4实验我们简要介绍了评估环境和使用的约束条件，然后讨论我们的结果。由于篇幅限制，我们将环境和约束结构的详细描述推迟到附录中。5我们探索了共享一些模型权重，但发现这会导致性能Rh=RtS'+v：mala2255获取更多论文|S||一||一|s1/2(a)(b)（c）第（1）款图1：（a）推荐系统环境（RS env.）（b）塞尔维亚环境政策空间的形象化例如，在至少2个可变性（“l2 "）约束下也允许在ex-t2约束（”e2"）下允许的每个策略(c)教育领域的一个曲线图示例。每个有向边指示源节点是汇聚节点的先决条件。环境和限制推荐系统环境电影推荐（参见图1a）环境是对先前工作（War-lop，Lazaric和Mary2018）的轻微修改环境，适合 Movielens100K 数据集（ Harper 和Konstan2015），该数据集包含1000个用户的100 K用户电影评级，= 5和= 625。每个动作是一个电影类型和状态空间编码最近看过的电影。奖励对应于推荐电影的评级。情节长度是随机的，每个状态-动作对都有一定的概率导致最终状态。根据先前的工作表明多样性与系统使用相关（Nilashiet al. 2016），我们使用可变性因子设计了一组12个约束，我们将其定义为最近历史中唯一动作的数量。我们的限制要求政策保持一定程度的可变性。图1b中给出了集合中某些约束之间的结构的部分可视化。由于我们的状态空间包含了过去的行动的历史，这些高层次的约束规范很容易翻译programmati- cally。教育：深度知识追踪学生。我们新的教育活动排序环境使用流行的学生学习模型，即深度知识跟踪（DKT）模型（Piech et al.2015）来模拟学生。该模型使用 ASSISTment 2009-2010 （ Feng ， Hongnan 和Koedinger2009）代数学习数据集进行训练，该数据集包含来自3274名学生超过407 K的学生-问题交互的数据。每个动作（= 51）对应于向学生呈现不同的问题地平线的长度为H= 100。状态空间是一个连续的R58和编码的当前熟练度（预测概率掌握的DKT模型）对每个问题和二元编码的时间步长。奖励对应于一个信号知识可能很难。我们创建了一个由不同图组成的约束集：图1c显示了一个使用自动课程生成方法的示例，该方法需要手动指定超参数来调整边的数量（Piech等人，2015）。我们构造了一个包含13个不同图的约束集。给定一个图，我们只允许选择那些已经掌握了所有先决条件的未掌握的问题（这些信息被编码在状态空间中）HIV 治疗模拟器 HIV 治疗模拟器（ Adams etal.2004;Ernst et al.2006）模拟患者对不同类型治疗的反应。动作空间是离散的，大小为4，代表各种治疗动作。状态空间是连续的R6，其中每个维度代表患者健康的标记。每集是200个时间步，奖励鼓励患者过渡到并保持健康状态，同时惩罚与药物相关的行为。我们通过扰动 Killian ， Konidaris 和 Doshi-Velez（2017）之后系统的内部隐藏参数，为多个异构患者组创建了一个模拟器。我们学习3个不同群体的最优决策策略，然后使用已知的最优策略作为约束，在一个新的群体中学习，这个群体可能与具有已知策略的群体相似，也可能不相似。我们创建一个约束7约束集。Lunar Lander 来自 Open AI Gym （ Brockman etal.2016）的Lunar Lander环境模拟了飞机着陆。动作空间是离散的，有4个动作对应于激发不同的致动器。状态空间是连续的R8，给出了位置和速度信息.对安全着陆给予正奖励，对触发作动器和坠毁给予负奖励。我们生成具有不同性能水平的不同策略我们创建一个约束集的10个约束，其中每个限制的可用操作的政策之一，过去的政策或它们的混合。结果和讨论我们将CSRL与4个基线进行比较：不受限制的强化学习，具有最佳约束（但在实际情况中未知）的Oracle约束的强化学习，非Oracle约束下的强化学习，以及SSBAS（Laroche和Feraud2018），SSBAS是一种先验算法，用于选择具有不同超参数或模型的学习者，使用UCB选择方法但不会消除学习者。我们使用UCRL作为推荐系统实验的基础学习者在每个实验中，所有算法使用相同的基本学习模型参数（模型架构、学习速率、探索速率调度等）：详见附录。对于CSRL和SSBAS，将总事件返回缩放至范围[0，1]对于自适应学习算法的选择，我们使用了当对某一问题的熟练程度第一时，超过阈值m t= 0。85和0，否则。置信限B（h，s）= clog（t）。该边界满足在教育中，课程或先决条件图是COM-但是，将正确的粒度设置为模型B（h，s）满足定理1成立的条件我们我没有调优c，CSRL和SSBAS都使用c= 1+v：mala2255获取更多论文(a) 培训回报(b) Lunar：最佳速率（c）Lunar：c扫描（d）教育：Tl扫描图2：我们绘制了95%置信区间的所有值。顶行我们在教育、月球着陆器和HIV域的训练期间绘制事件返回。我们绘制了我们的算法CSRL，以及SSBAS（Laroche和Feraud2018）和无约束（标记为No-Const）基线。在教育领域，一个错误指定的约束，标记过常数，也显示。Oracle-Const在事先不知道的集合中绘制遵循Oracle最佳约束的性能。在最下面一行，我们提供了进一步的实验和可视化，用于说明我们的算法的各种属性，以供讨论（第4节）。附录中提供了其他图，包括其他环境中的参数扫描和较长发作的图最大值的97% SSBAS UnconstSSBASUnconst移动1.0± 0.07 1.5± 0.1教育3.0± 0.3 20+4.54± 0.6 20+艾滋病毒27± 0.8 5.5± 2.41.7± 0.3 2.1± 0.220+LL 5.2± 0.6 2.7± 0.5 3.4± 0.7 1.6± 0.315.3± 0.7表一：CSRL的样本复杂度加速超过基线，在基线更需要的事件因子方面，与CSRL相比，达到最大观察值的90%和97%。所有的实验。我们稍后将讨论对不同c值的敏感性。对于CSRL，Tn被设置为20并且Tl被设置为0。05所有实验我们没有调整任何一个参数，并且我们稍后提出了对T1的不同值的鲁棒性的讨论。对于每个实验，结果在多个随机种子上进行平均，其中200，20，20和40个种子分别用于推荐，教育，HIV治疗和月球着陆器实验。结果在所有域中，CSRL比非Oracle基线更快地学习到一个好的策略，而且通常要快得多。在表1中，我们列出了CSRL在SS-BAS和无约束（Unconst）基线上的加速，与基线所需的CSRL相比，CSRL的事件因子更多，以实现平均收益的90%和97%。最大限度的回报。在大多数情况下，我们观察到CSRL可以比基线更快地实现高水平的性能，通常至少是基线的1.5倍，有时甚至更快。在附录中，我们给出了一个表，列出了在每个环境下达到这些性能所需的原始集数。在图2a中，我们绘制了教育、HIV治疗和月球着陆器域的训练回报率以及95%置信区间。其他领域的这些图见附录。我们观察到CSRL是能够利用的约束，以避免扩展的初始性能差相比，无约束条件。此外，消除机制允许算法消除次优学习器，以快速实现接近预言机的性能。我们在讨论中深入研究了适应性选择和消除讨论自适应选择的重要性预期遵循单个良好约束可以通过减少需要探索的策略空间来导致快速学习我们看到这确实是真的，因为oracle-constraint在大多数情况下表现最好。然而，最佳约束事先并不知道，并且遵循错误指定的单个约束可能导致次优性能。我们在教育领域中证明了这一点，如图2a所示，我们还绘制了集合中最严格的限制，标记为“超过”。+v：mala2255获取更多论文|一||一|Const（代表过度约束）。Over-Const也会快速收敛，但收益远低于最优值。我们看到CSRL和SS-BAS在集合上的自适应选择机制可以利用约束来比不受限制的基线更快地学习，同时避免这种潜在的错误指定。此外，自适应选择的好处超过了标准的无限制RL随着动作空间的大小而增加，因为更大的动作空间更难探索。这可以通过比较我们教育中不受限制的学习速度来说明（= 51）和月球着陆器（= 4）环境（图2a）。消除的重要性在我们的设置中，我们预期一些约束会被错误指定，我们发现消除次优学习器对于防止由于指定错误而导致的性能下降的鲁棒性非常重要。这在图2a所示的HIV实验中得到了说明。在这种情况下，所有约束都是次优的，无约束选项是最优的。我们注意到，CSRL是能够快速使用消除接近unconstrained性能相比，SSBAS。在图2b中，我们通过学习绘制了CSRL和SSBAS在月球着陆器实验中选择最佳约束的速度。我们看到，消除允许算法更快地实现什么时候淘汰不重要？我们希望消除不重要时，最佳和次优约束之间的性能差距很大。直觉上，较大的差异更容易使UCB机制区分最佳项目，因此CSRL和SSBAS基线快速学习选择最佳项目并实现几乎相同的性能。我们在附录中演示了一个案例在图2c中，我们绘制了不同c值的性能，c是月球着陆器环境中UCB约束选择机制置信度界限的乘数。对于这两种算法，我们看到一个较低的值，c= 0。05，导致更高的初始性能，但学习速度慢得多，这两种算法的结果都很差。另一方面，c= 3的值越高，SSBAS的性能越差，而CSRL的消除机制则保护性能不受当最大回报未知时，乘数值的不确定性自然会出现。低估最大奖励是不可取的，因为它可能导致学习速度缓慢。在这些情况下，CSRL以及max的高估计值最高奖励可以带来良好的表现。损失阈值T1的影响：在图2d中，我们绘制了教育环境中T1的各种值的性能，T1是消除机制的模型变化阈值。我们证明，即使对于设置为大的值（T1= 0。25，比初始使用值大5倍），性能不会降低（事实上，由于更快的消除，性能会提高）。这表明我们的鲁棒消除过程能够保持性能时，算法错误地假设一个约束为次优。当T1被设置为低值（T1= 0. 00125，比初始的少40倍），限制的消除缓慢，我们接近SSBAS基线的性能。总结总的来说，当有一个良好的约束，集合，我们证明了我们的算法（1）能够快速实现一个好的策略，通常比基线快得多(2)这种性能改进是由于CSRL5相关工作我们将讨论一些未详细提及的其他相关工作领域。约束强化学习我们的工作与约束强化学习中的工作有关。大多数先前的工作考虑在总是强制执行的单一约束下学习。约束RL已经在模型组件（约束，奖励和过渡动态）的已知和未知的各种组合下进行它已经在所有组件都已知的情况下进行了研究（Altman1999），以及其中一个或多个组件需要在线学习的情况下（Efroni，Mannor和Pirotta2020;Zheng和Ratliff2020;Achiam et al.2017;Wachi和Sui2020;Bhatnagar和Lakshmanan2012）。这项工作涵盖了各种不同的算法，包括表格（Efroni，Man-nor和Pirotta2020），策略搜索（Achiam et al.2017）和行动者-评论家（Bhatnagar和Lakshmanan2012）RL al-出租。相反，这项工作的重点是学习，以满足一个单一的约束，我们考虑了一组弱约束，这可能是或可能不是兼容的行动选择的未知的最优政策。另外，我们注意到，我们的方法与近似使用线性规划求解无约束动态规划问题的约束采样算法（De Farias and Van Roy2004）是分开的。推断约束/规则先前已经有关于从演示中推断约束或规则的工作（Taylor、Suay和Chernova2011）。在两篇论文（ Noothigattuet al.2019;Balakrishnan et al.2019 ）中，从演示中推断出一个约束，双臂强盗学习是否应该遵循推断的约束。我们的工作diff- fers在我们考虑利用领域知识，而不是示范，我们认为多个潜在的约束，而不是一个单一的约束。此外，我们在考虑RL学习者消除的方法方面存在差异。6结论现实世界的系统通常存在领域专业知识，可以在RL算法中利用这些知识来加速学习。在这项工作中，我们提出了一种方法，CSRL，将这些知识的形式的约束。由于通常很难创建算法设计者确信正确的单个约束，因此我们的工作将算法设计者假设的一组潜在约束作为输入我们提供了一个简短的理论讨论，我们的上置信度与淘汰选择算法，并重点展示强有力的实证结果。我们证明了这种简单的方法与深度RL方法兼容，CSRL可以比最先进的基线更快地学习一个好的策略，这表明它通过利用不完美的人类指导来增加RL应用范围的潜力+v：mala2255获取更多论文7确认本材料基于斯坦福大学以人为本的AI Hoffman Yee赠款和STEM多样性研究生奖学金支持的工作。引用Achiam，J.;Held，D.;Tamar，A.;和Abbeel，P.2017年。约束策略优化.在机器学习国际会议上，22PMLR。亚当斯湾M.;班克斯，H。T.; Kwon，H.- D.的;和Tran，H. T. 2004. HIV的动态多药疗法：最佳和STI控制方法。Mathematical Biosciences Engi-neering，1（2）：223.Altman，E. 1999. 约束马尔可夫决策过程，第7卷。Press.Arora，S.;和Doshi，P.2021年逆向强化学习研究人工智能，103500。Auer，P. 2002年。使用置信界限进行开发-探索权衡。Journal of Machine Learning Research，3（Nov）：397Auer，P.; Jaksch，T.;和Ortner，R. 2009.强化学习的近似最优回归边界神经信息处理系统进展，89Balakrishnan，A.; Bouneffouf，D.; Mattei，N.; Rossi，F.2019.使用多武装匪徒学习在线人工智能系统的道德优先级。IBM Journal of Research and Development，63（4/5）：1Bassen ， J.;Balaji ， B.;Schaarschlaughs ， M.;Thille ，C.;Painter，J.; Zimmaro，D.; Games，A.; Fast，E.;和Mitchell，J.C. 2020.强化学习用于教育活动的自适应调度。在2020年CHI计算机系统人为因素集，1贝尔曼河1957.马尔可夫决策过程数学与力学杂志，6（5）：679Bhatnagar，S.;和Lakshmanan，K. 2012.带约束马尔可夫决策过程函数逼近的在线ActorJournal of OptimizationTheory and Applications，153（3）：688Bradley，K.;和Smyth，B. 2001.提高业务多样性。在第十二届爱尔兰人工智能和认知科学会议上，第85卷，141Citeseer。Brockman，G.; Cheung，V.; Pettersson，L.;施耐德，J.;Schulman，J.;唐，J.;和Zaremba，W.2016年。开放健身房。arXiv预印本arXiv：1606.01540。Buchli，J.; Stulp，F.; Theodorou，E.;和Schaal，S. 2011.学习变阻抗控制。The International Journal of RoboticsResearch，30（7）：820陈， L.; 杨 ; 王， N.; 杨， K.; 和 Yuan ， Q.2019 年。Serendipity如何提高用户对推荐的满意度大规模用户评价。在万维网会议上，240De Farias，D. P的;和Van Roy，B. 2004.关于线性规划中的约束抽样逼近动态规划.运筹学研究，29（3）：462Efroni，Y.; Mannor，S.;和Pirotta，M. 2020.在受约束的MDP中的探索-开发。arXiv预印本arXiv：2003.02189。Ernst ， D.; 斯坦， G 。 - B. 人 ; Goncalves ， J.; 和Wehenkel，L. 2006. 基于临床数据的艾滋病毒最佳STI策略：强化学习方法。第45届IEEE决策与控制会议论文集，667-672。美国电气与电子工程师协会。冯，M.;Hongnan，N.;Koedinger，K.2009年通过在线系统解决评估挑战，并在评估时进行辅导。 Usermodeling and user-adapted interaction，19（3）：243Harper，F. M.;和Konstan，J. A. 2015.电影镜头数据集：历史和背景。交互式智能系统学报，5（4）：1Hessel，M.; Modayil，J.; Van Hasselt，H.; Schaul，T.;Os-trovski ， G.;Dabney ， W.;Horgan ， D.;Piot ，B

下载后可阅读完整内容，剩余1页未读，立即下载