没有合适的资源?快使用搜索试试~ 我知道了~
符号状态空间问题中的强化学习方法
+v:mala2277获取更多论文符号问题鲁尚·卡利亚,西达斯·斯里瓦斯塔瓦亚利桑那州立大学计算机与增强智能学院{鲁尚.卡里亚,西达斯}@ asu.edu摘要符号状态空间问题中的强化学习本文提出了一种新方法,该方法利用关系抽象与深度学习相结合来学习此类问题的可推广Q函数。学习的Q函数可以有效地转移到具有不同对象名称和对象数量的相关问题,从而具有完全不同的状态空间。我们表明,学习的一般化Q函数可以用来加快学习相关问题,没有一个明确的,手编码的课程。对一系列问题的实证评估表明,我们的方法有助于有效地将学到的知识转移到包含许多对象的更大的问题实例中,通常会将对更大问题的采样要求降低几个数量级。1介绍深度强化学习(DRL)已成功用于使用基于图像的状态表示的任务中的顺序决策[Mnihet al. ,2013]。然而,现实世界中的许多问题不能轻易地表达为这样,并且可以通过使用符号表示语言(如PDDL或Rounds)中的因子化表示来自然地描述[Long和Fox,2003;Sanner,2010]。例如,在物流问题中,目标包括使用卡车将包裹运送到目的地。诸如一阶逻辑(FOL)之类的符号描述语言可以使用诸如卡车内(p)之类的谓词来容易地捕获该场景的状态和目标,其中p是可以用于表示任何包裹的参数。这些问题的符号表示已经以数据库的形式可用,并且将它们转换为基于图像的表示将需要大量的人力。由于它们的实际用途,符号描述和利用它们的算法是研究界的浓厚兴趣将RL应用于以这种表示形式表达的问题的一个关键困难是,它们的状态空间通常随着状态变量或对象的数量增加而呈指数增长。然而,这些问题的解决方案往往是不可能的。由紧凑的、易于计算的“通用策略”所描述运行示例我们说明了使用已在许多规划竞赛中使用的Sysadmin(n)域计算广义策略的好处。 在这个领域中的一个问题是由一组相互连接的n台计算机在任意配置。在任何时候,计算机可能以取决于网络连通性的未知概率分布关闭代理还被授予与启动的计算机总数成比例的正奖励。类似地,在每个时间步,代理可以重新启动n台计算机中的任何一台,并获得较小的负奖励,或者干脆什么也不做。在我们的问题设置中,动作动力学不能作为封闭形式的概率分布,这使得RL成为解决此类问题的自然选择。这个问题中的一个状态是通过一个带有布尔状态变量(命题)的因子化表示来描述的,该状态变量描述了哪些计算机正在运行及其连接性。很容易看出,状态空间随着n的增加而呈指数增长。然而,这个问题有一个非常简单的策略,可以提供非常高的奖励;重新启动任何没有运行的计算机即使这样一个问题的一般策略很容易表达,传统的RL方法,如Q学习,不能转移学到的知识,并有困难的规模更大的问题与更多的计算机。我们在本文中的主要贡献是学习一个通用的关系Q函数,它可以表达这样的策略,并使用它来有效地将策略转移到更大的实例中,降低学习的样本复杂性。许多计算广义策略的现有技术都是通过使用人工引导或自动特征工程来找到有助于有效传输的相关特征(见第2节)。(5)对相关工作进行详细讨论。例如,Ng和Petrick[2021]使用外部特征描述模块来学习Q函数近似的一阶特征API [Fernet al. ,2006]使用具有波束搜索的分类语言来形成基于规则的策略。在本文中,我们从Q-函数逼近的角度来探讨学习一般化策略的问题。我们利用深度学习和自动生成的特征列表来学习arXiv:2204.12665v1 [cs.LG] 2022年4月+v:mala2277获取更多论文一|∈ P→⟨⟩∈A×→--P A你好Σπ−≈∗ΣΣQ函数。我们的方法学习一个可推广的,相对的Q函数,促进知识转移到更大的实例在命题水平。我们的实证结果表明,我们的方法可以优于现有的方法转移(第二节。4).本文的其余部分组织如下。下一节介绍所需的背景。秒3描述了我们的转移方法,然后描述了使用我们的算法进行广义强化学习(第2节)。3.3)。秒4提出了一个广泛的实证评估,以及我们的方法的一些局限性的讨论。然后,我们提供了一个帐户的相关工作在该地区(第二。5),并总结我们的贡献(节。6)。2正式框架我们在马尔可夫决策过程(MDP)的强化学习的背景下建立我们的问题。适应Fern等人。[2006],我们表示关系MDP如下:设D=,是一个问题域,其中是一组不大于2的谓词,是一组参数,操作名称。域D的MDP是元组M=0,D,S,A,T,R,γ,s0,其中0是对象的集合。 事实是谓词p的实例化,带有来自O的适当数量的对象。状态s是一组真事实,状态空间S是由所有可能的一系列真实的事实类似地,动作空间A由动作名a与来自O的对象的所有可能的实例化组成。T是一个转换系统,由模拟器实现,根据某个固定但未知的参数返回状态s概率分布P(s′s,a),当在国家S。 我们假设w.l.o.g. 模拟器只会返回在给定状态下可执行的动作,并且总是存在一个这样的动作(其可以使用NOP容易地建模)。R:S AR是一个奖励函数,也由模拟器实现。γ是折扣因子,s0是初始状态。示例在前面的ing节可以用谓词running(cx)和link(cx,cy)来描述。可能的操作是reboot(cx)和nop()。Cx和cy是可以根据特定问题的观测结果的参数。从Sysadmin(2)中得出的问题M的状态,其连接性为K2,使用com-计 算 机 名 c0 和 c1 , 其 中 只 有 c0 是 up 可 以 描 述 为seg=running(c0),link(c0,c1),link(c1,c0)。Meg的动作空间将由动作nop()、reboot(c0)和reboot(c1)组成,它们的动态由模拟器实现MDP的解决方案表示为确定性策略π:SA,它是从状态到动作的映射。 设t为任意时间步,则给定策略π,在状态s中采取行动a的价值被定义为从s开始,执行a,观察奖励r,然后遵循策略的预期回报[Sutton和Barto,1998]。每个s∈S和每个a∈A; q∈(s,a)=maxq π(s,a). 很容易证明最优Q函数满足贝尔曼方程(以作用值形式表示):q(s,a)=Es'Trt+1+γmaxq(s′,a′)st=s,at=aa'∈A强化学习算法通过将Bellman方程转换为更新规则来迭代地改进Q函数估计Q(s,a)q(s,a)。给定一个观测序列(st,at,rt+1,st+1),Q学习[Watkins,1989]估计Q(st,at)的更新规则由下式给出Q(st,at)= Q(st,at)+ αδt其中δt=rt+1+γmaxQ(st+1,a′)Q(st,at)是a'∈A时间差,TD(0),误差,α是学习率。Q-学习已经被证明在某些条件下收敛到最优Q-函数[Sutton和Barto,1998]。Q学习是一种非策略算法,通常使用贪婪探索策略,选择概率为1的随机动作,否则遵循贪婪策略π(s)=argmaxaQ(s,a)。设f是一个特征,我们定义一个特征核φf(s)为:将状态s映射到一组对象的函数我们利用德-基于Bonet等人最近的工作,推导和表达特征内核的书写逻辑。[2019年]。 这在SEC中描述。3.1.3我们的方法我们的目标是计算近似Q函数,其导出的策略以允许RL方法以最小的学习找到好的策略的方式推广到具有不同对象计数的问题实例。 为此,我们使用一个小问题的采样状态空间来自动生成特定于领域的关系抽象,这些抽象提升了特定于问题的特征,如对象名称和编号(第二节)。3.1)。 秒3.2描述了我们将这些抽象表示为深度神经网络的输入特征的方法最后,SEC。3.3扩展了我们的算法,广义强化学习(GRL),如何利用深度神经网络来学习抽象状态的近似Q值,并将其用于迁移学习。3.1关系抽象Q函数近似的一个挑战是使用一种表示语言,从中可以提取可以为决策过程提供有用信息的特征。现在,我们提供了一个正式的描述,我们在本文中使用的基于抽象的,独立于域的特征合成算法的一般类描述逻辑(DL)是在知识表示中广泛使用的表示语言家族[Baaderet al. ,2017]。建立在许多不同的qπ( s,a)=Eπ∞γi ri=0时t+i+1。St=s,at=a学 习 和 概 括 计 划 的 研 究 思 路 [Mart 'ın and Geffner ,2004;Fernet al. ,2006;Bonetetal. ,2019;Fran ce`setal. ,2021],我们选择DL是因为最优行动价值函数(或Q函数)被定义为所有政策的最大预期回报,它们可以表示的特性的多样性,同时在可表达性和可处理性之间提供良好的平衡。+v:mala2277获取更多论文⊆一∈- -≡||∈∈|{1}|}||∀ ∈∈联系我们|∃∧}⟨||||⟩{|PP| ||× ||一||A|∗≈−/−⟨ ⟩−⟨|⟩⟨|⟩在关系MDP范式中,一元谓词P1∈ P和二元谓词P2∈ P的域D可以被视为网络架构3 ReLU激活,每个层有64个神经元作为DL中的基本概念C和角色R。DL包括用于从原始概念和角色生成复合概念和角色以形成表达性语言的构造器。我们的功能集F DL由概念和角色组成,通过使用一组减少的语法从Bonet等人。[2019年]:C,C ′→ P1| C |C H C ′|公司简介|公司简介|R =R ′R,R ′→ P2|R −1其中1和2表示基本概念和角色,R-1表示逆。R. C=xy R(x,y)C(y)和R. C=Xy R(x,y)C(y)。R=R′表示xy R(x,y)=R′(x,y)。我们还使用距离(c1 ,r,c2 )特征[Fran ce`setal. ,2021],其计算分别满足概念C1和C2的两个对象之间的最小r步数。我们控制的要素总数仅考虑达到特定复杂度k(可调超参数)的特征,该复杂度k被定义为生成特征所需的文法规则的总数。示例:系统管理域的基本概念和角色分别是running(cx)和link(cx,cy)。对于正在运行的示例M eg ,running(cx)求值为满足它的对象集合,即,φfup(seg)=c0.此功能可以被解释为跟踪正在运行(或上升)。很容易看出,DL功能(如fup)捕获状态的关系属性,并可应用于具有不同对象名称和数量的问题。很明显,当使用上面定义的DL特征时,φ f(s)计算为满足f的一组对象。因此,φ f(s)和oφ f(s)是定义明确的。唯一的例外是直接返回数值的距离要素我们简单地定义φ f(s)=φ f(s),噢,噢 对于这种基于距离的特征,φ f(s)=0。我们使用D2L系统[Franc e`setal. 2021年],使用这种基于DL的特征。我们在第二节中更详细地描述了D2L系统的使用。4.2.3.2Q值近似的深度学习给定一组DL特征F,另一个关键挑战是识别可以学习Q函数的良好近似的特征子集F′F我们使用深度学习,利用整个特征集F进行Q值估计。给定一个特征集F和一个域D,我们网络的输入是一个大小为F+ +N F的向量,其中是域中操作的总数,N是中任何操作的最大参数数。给定一个具体状态s,抽象状态特征向量定义为s=φ f1(s),. . .,φ fn(s)。类似地,给定参数化动作a(o1,. . . ,o n),抽象动作特征向量被定义为向量a =|F o1|. . . |其中A名称是长度为的独热向量|一|对动作名称a进行编码,F oi是长度为|F|用值1[oi∈φfj(s)]编码,对于ev-ery特征f jF,并且表示向量级联。s和a一起构成网络的输入例如,让fup运行(cx),并且对于图1:我们估计Q值的过程。系统管理程序域。然后,运行示例的具体状态seg的抽象状态向量seg将为1,并且它表示一台计算机运行的抽象状态。如果计算机c1而不是C0。 假设操作在按照字母顺序,nop()将被编码为1,0 0。类似地,reboot(c0)将被编码为0,11。图1说明了我们估计Q值的过程给定一个具体的状态s和动作a,我们的网络(我们称之为QGRL)预测估计的Q值QGRL(s,a)q(s,a)通过将s和a转换为抽象状态s和动作a基于特征集F的特征向量。 从迪门开始-由于抽象状态和动作向量的理想性是固定的,并且不依赖于特定的问题实例,因此可以使用相同的网络来预测跨问题实例的状态和动作的Q值。这是对我们转移方法的关键见解。抽象状态捕获关于状态结构的高级信息,而抽象动作捕获状态中实例化对象的优先级,允许我们的网络学习可以在不同问题实例之间传输的广义关系Q函数3.3广义强化学习因图什岛1提出了我们的广义再激励学习(GRL)的方法。对于给定的MDPM,初始QGRL网络和一组特征F,GRL的工作原理如下:第1 - 5行通过将每个具体的状态s和动作a转换为抽象的,从QGRL状态s和抽象动作a向量使用的方法在节。3.2. 接下来,用预测值QGRL(s,a)初始化每个具体Q表条目Q(s,a)。注意,不同问题M′=M的Q表是不同的,因为它们的状态和动作空间是不同的,然而,s和a是这些问题中任何状态和动作的固定大小的向量表示。这允许QGRL将知识转移到具有任意数量对象的任何问题M第9行和第12行对问题M进行Q学习,以进一步改进自举策略。第13和16行通过合并在M上进行Q学习时观察到的任何策略变化,进一步提高了QGRL的泛化能力。GRL返回任务特定策略Q和更新的广义策略QGRL。优化第2 - 5行对于大的概率可能是难以处理的。关系抽象转换具体状态和行动到抽象状态和行动向量使用抽象FCNFCNFCN+v:mala2277获取更多论文←←←←←←∈∈−十二:←←算法1广义强化学习(GRL)要求:MDPM,GRL网络QGRL,特征F,学习率α1:QinitializeEmptyTable()2:对于s S,a Ado3: s,抽象(F,s,a)4: Q(s,a)=QGRL(s,a)5:结束6:B初始化重放缓冲区7:s s08:whilestopping criteria notmetdo9:agetEpsilonGreedyAction(s)10:s′,rexecuteAction(s,a)图11:δ=r+γmaxQ(s′,a′)Q(s,a)a'∈AQ(s,a)=Q(s,a)+αδ13:s,aab牵引(F,s,a)14:将(s,a,Q(s,a))加到B15:从B中取样小批次B16:使用B训练QGRL17: s′s第18章:结束十九日: returnQ,QGRLlems。我们优化了传输,只初始化条目在一个懒惰的评估方式。一个额外的好处是,当遇到映射到相同抽象状态的新状态时,可以很容易地反映任何抽象状态的QGRL定理3.1 使用GRL解决问题M在Q学习的标准收敛条件下收敛。草图(Sketch) 这个证明是基于下面的直觉。QGRL用于将M的每个Q(s,a)条目初始化一次,之后Q学习正常操作。 其余的证明来自Q-学习的收敛性证明[Sutton andBarto,1998]。3.4扩大Q学习和迁移如果培训策略使用的课程以难度递增的顺序组织呈现给学习者的任务,迁移能力通常可以得到提高[Bengioetal. ,2009]。然而,按照难度顺序分离任务的负担往往落在领域专家身上。我 们 采 用 蛙 跳 [Groshevet al. , 2018 年 ;Karia 和Srivastava,2021年],一种通过使用问题生成器自动创建学习课程来遵循“从小示例中学习”范式的方法。蛙跳是一种迭代过程,当与迁移学习算法(如GRL)结合使用时,可以加速学习。蛙跳类似于松散的课程,与不支持自动自我训练的课程学习相比,它支持自我监督训练。Leapfroging通过最初生成一个小问题Msmall来运行,该问题可以通过普通Q学习轻松解决再次调用GRL。上一代QGRL网络允许GRL利用知识转移相对快速地解决这个新问题,同时还提高了下一代QGRL网络的通用化能力。4实证评价我们对四个不同的任务进行了实证评估我们还表明,GRL是有竞争力的方法接收额外的信息,如封闭形式的动作模型。我们现在描述用于评估这些假设的我们在Intel Xeon E5-2680 v4 CPU(包含28个内核和128 GiB RAM)上使用单核和16 GiB内存运行了我们的实验。我们使用了图1中的网络架构1、我们所有的我们的系统是用Python实现的,我们使用PyTorch [Paszkeet al. ,2019年],默认实现均方误差(MSE)作为损失函数,Adam [Kingma和Ba,2015年]作为用于训练每个特定于域的Q GRL网络的优化算法。我们的系统使用RDDLsim作为模拟器,因此,接受以关系动态影响定义语言(Relational Dynamic InfluenceDefinition Language , RISK ) 的 子 集 编 写 的 问 题[Sanner,2010]。4.1基线作为我们的基线,我们将我们的方法与基于一阶Q函数近 似 的 转 移 方 法 进 行 比 较 ; MBRRL[Ng 和 Petrick ,2021]。我们还将我们的方法与SymNet [Garget al. ,2020],一种需要封闭形式的行动模型的方法,在我们的环境中MBRRL和GRL无法获得的信息。1MBRRL计算一阶抽象使用conjunc- tive集的功能,并学习一个线性一阶近似的Q-函数在这些功能。它们采用政策的行动SymNet使用图形神经网络(GNN)表示解析的动态贝叶斯网络(DBN)来解决问题。因此,SymNet可以以封闭形式的动作模型的形式访问额外的领域尽管如此,它可以作为一个很好的指标的GRL的传输能力,不需要这样的封闭形式的动作模型的表示 我们还尝试修改TraP-SNet [Garget al. ,2019年],SymNet的前身,不需要动作模型,但由于对我们考虑的域的支持有限,无法运行它。4.2任务、培训和测试设置我们考虑了国际概率规划竞赛(IPPC)[Sanner,2014]中使用的任务,SymNet和MBRRL已将其用作评估传输性能的基准。没有任何转移。它适用于GRL(Alg。(1)针对这个问题使用未初始化的QGRL网络。一旦这个问题得到解决,蛙跳会产生一个稍微大一点的问题,1我们感谢SymNet和MBRRL的作者在设置和使用其源代码方面提供的帮助。+v:mala2277获取更多论文××−SymNet MBRRL Ours(GRL)700系统管理员#5100学术报告#5300人生游戏#5野火#506001502501000500200200200040025015030003007000 2 4 6 8系统管理员#63001000 2 4 6 8学术报告#71003000 2 4 68人生游戏#6400000 2 4 6 8野火#66001502501000500200200200040025015030003007000 2 4 6 8系统管理程序#103001000 2 4 6 8学术报告#91003000 2 4 68人生游戏#10400000 2 4 6 8野火#106001502501000500200200200040025015030003000 2 4 6 83000 2 4 6 81000 2 4 6840000 2 4 6 8Epoch(1 epoch = 10 episodes x 40 timesteps)图2:GRL的零发射传输性能(值越高越好)与MBRRL相比。问题编号是指IPPC问题集合中的实例编号。我们在任意两个时期之间插入数据。我们还比较了SymNet,这种方法需要封闭形式的动作模型,因此,不适用于我们的设置。因此,我们将SymNet结果绘制为灰色。我们假设当Q值被设置为NaN时获得最小奖励,就像MBRRL学术咨询中的一些问题一样。对于学术建议,我们报告实例5、7和9,因为实例6和10包含与我们的系统不兼容的设置Sysadmin:Sysadmin(n)是本文前面描述的Sysadmin域。学术建议:AA(l,c,p)是一个领域,其目标是通过一定数量的l级,其中包含c课程,每个课程都需要先 通 过 p 预 科 。 Game of Life : GoL ( x , y ) 是 JohnConway在一个大小为x y的网格上的Game of Life环境[ Izhikevich etal. ,2015]。Wildfire:WF(x,y)是在大小为x y的网格中设置的环境。细胞有机会燃烧,这也影响了它们邻居Game of Life和Wildfire的原始版本包含4元谓词,我们通过转换邻居(x1,y1,x1,y2)等谓词将其转换为等效的二进制到邻居(l11,l12)以用于我们的评估。对于SymNet,我们使用与作者发布的相同的问题(IPPC实例1,2和3)进行训练。我们为每个问题训练了1250集。对于MBRRL,我们使用与作者相同的训练过程,其中我们使用IPPC实例#3进行训练。我们使用Q学习对每个问题进行了3750集的训练,初始值为1,衰减率为0。九九七对于GRL的蛙跳方法,我们使用问题生成器来生成用于训练的问题。我们使用了m(3), (4),(6);AA(2,2,2), AA(3,3,3),AA(4,4,4); GoL(2,2),GoL(3,3),GoL(4,4)和WF(2,2),WF(3,3)、WF(4,4)分别用于训练系统管理员、学术顾问、生命游戏和野火我们使用GRL训练了1250集的每个问题。测试我们使用与SymNet相同的问题集;实例5 10来自IPPC问题集。这些问题的状态空间比GRL使用的训练问题大得多。例如,n(n)的状态空间大小为2n。对于训练,GRL使用的最大问题是(6),而测试问题,IPPC的实例10(Sysad- min #10)是(50)。由于篇幅限制,我们报告了实例5、6和10获得的结果,并将其他结果纳入补充信息。超参数我们使用了40个时步的IPPC水平H,之后模拟器被重置为初始状态。对于GRL,我们使用了Q学习,其中k=0。1.一、为了训练QGRL网络,我们使用了大小为20000的重放缓冲区,大小为32的小批量,以及32个时间步的训练间隔,每间隔25步优化 对于MBRRL和GRL,我们使用γ =0。9,α = 0。05为系统管理和游戏的生活领域,因为他们提供积极的奖励。 对于学术咨询和野火,我们使用γ = 1。0,α = 0。3 .第三章。对于MBRRL和SymNet,我们使用了作者发布的所有其他设置的默认值,如网络架构,功能发现阈值等。为了展示迁移学习的有效性,我们的评估指标比较了MBRRL和我们的方法在零次迁移后的性能。我们在训练后冻结策略,将其转移到测试实例中,并将其运行100集。我们报告我们的结果使用- ing平均值和标准差指标计算使用10Avg. 奖励+v:mala2277获取更多论文∈单独的训练和测试。Featur eGenerationWe 使 用 D2L 系 统 [Fran ce`setal. ,2021],其需要采样状态空间作为输入,用于生成描述逻辑特征。我们修改了他们的代码,使其不需要动作模型,并为特征生成设置了k=5我们从GRL用于每个域训练的第一个问题中采样状态空间,并将其提供给D2L用于生成特征集FDL。4.3结果分析我们的结果如图2所示。从结果中很容易看出,GRL具有出色的零发射传输能力,可以轻松超越MBRRL和SymNet或保持竞争力。我们现在提出我们的分析,然后简要讨论一些限制和未来的工作。与MBRRL的比较我们的方法是能够超越MBRRL显着的系统管理员,学术广告和野火。GRL特征所使用的DL抽象比MBRRL所使用的合取一阶特征更具表达性,从而允许GRL学习更具表达性的策略。此外,与使用固定实例进行训练相比,蛙跳允许在相同数量的事件中扩大训练和学习更好的策略与SymNet相比,SymNet利用了重要的领域知识.如果操作影响两个节点,则会在它们之间添加边。当只观察作为谓词集合的状态时,此信息不可用。令人印象深刻的是,尽管没有使用这些知识,GRL能够在大多数问题上与SymNet保持竞争力。4.4局限性和未来工作在系统管理程序域中,计算机关闭的概率取决于它连接到多少台计算机。 我们表示动作向量的oφf(s)表示无法捕获这种依赖关系。然而,这是相当容易缓解的一个新的功能,计算一台特定计算机连接到多少台计算机。我们计划在未来的工作中研究自动生成和使用蛙跳需要一个对象计数的输入列表,用于我们在实验中手工编写的问题生成器。然而,我们相信,我们的方法是一个进步,在课程设计中,解除了设计师从知道固有的细节领域,这往往是一个先决条件,评估任务的难度问题生成器的缺乏可以通过将蛙跳与对“子目标”进行采 样 的 技 术 相 结 合 来 缓 解 [Fern etal. ,2006;Andrychowiczet al. ,2017]并利用GRL来解决问题和任何后续问题。5相关工作我们的工作增加了在关系领域学习的大量文献。其中几种 方 法 [Khardon , 1999;Guestrinet al. , 2003;Wu andGivan,2007;Gargetal. ,2020]假设动作模型以分析形式可 用 , 因 此 不 能 直 接 应 用 于 RL 设 置 。 例 如 ,FOALP[Sanner and Boutilier,2005]通过在动作模型上进行回归来学习近似值函数的特征。D2L [Bonetet al. ,2019年;Franc e`setal. ,2021]学习抽象策略,假设动作模型,其中动作可以增加或减少特征。我们的讨论集中在关系RL(参见Tadepalliet al.[2004]的概述)。Q-估计方法Q-RRL [Dzeroskiet al. ,2001]通过使用逻辑回归树来学习Q函数的近似。GBQL [Daset al. ,2020]学习Q函数的梯度提升树表示。他们在相对简单和确定性的任务上评估了他们的方法,证明了使用基于树的方法转移的困难我们的评估包括更难和随机的任务,并表明GRL可以学习良好的政策。RePReL [Kokelet al. ,2021]使用高级规划器来学习迁移学习的抽象概念。 Rosenfeld等人[2017]使用手工制作的特征和相似性函数来加速Q学习。MBRRL[Ng和Petrick,2021]使用手工编码的上下文信息学习用于Q函数近似的合取一阶特征,GRL不需要任何手工编码的知识。基于政策的方法Fernet al. [2006]使用分类语法与波束搜索和近似策略迭代来学习决策列表策略。他们的方法使用rollout来估计Q值,因此不能应用于 Janisch等人[2020]使用状态的图形神经网络(GNN)表示来计算策略。GNN依赖于网络TraPSNet [Garget al. ,2019]也使用GNN,并且仅限于具有单个二元谓词的域和具有一个参数。GRL可以用于具有任意数量的动作参数和二元谓词的域。自动课程生成Fernet al. [2006]从一个单一的问题随机游走样本目标。他们的方法依赖于目标问题,以充分代表目标分布的泛化。在Ferberet al. [2020]Andrychowiczetal. [2017年]。这些技术是实例内的,从相同的状态空间采样不同的目标,并且与GRL正交,这解决了实例间的传输。我们的蛙跳方法与Groshevet al.[2018]和WuandGivan [2007]的小样本学习方法最相似。我们将他们的想法扩展到RL设置,并证明其在传输中的有效性。Narvekar和Stone[2019]使用手工制作的功能自动生成任务课程,因此不适用于我们的设置。6结论我们提出了一种在关系域中进行强化学习的方法,该方法可以学习具有有效零触发传输能力的良好策略。我们的研究结果表明,描述逻辑(DL)的基础上获得的功能,简单地通过状态轨迹序列可以起到分析(封闭形式)模型的作用,或弥补一些性能差距,在他们的缺席。在未来,我们计划研究改进的功能,使抽象的行动也可以考虑到实例化的参数和抽象状态之间的关系。+v:mala2277获取更多论文引用[Andrychowicz et al. ,2017] M.安德里乔维奇,D. 乌鸦,A. Ray,J.施奈德河,巴西-地Fong,P.韦林德湾麦格鲁,J. Tobin,P. Abbeel,and W.扎伦巴后见之明经验回放。在NeurIPS,2017年。[Baader et al. ,2017] F.巴德尔岛霍罗克斯角卢茨,以及联合萨特勒描述逻辑导论。剑桥大学出版社,2017年。[Bengio et al. , 2009] Y. Bengio , J. Louradour , R.Collobert和J. Weston。课程学习。ICML,2009年。[Bonetetal. ,2019]B. Bonet,G. Fran c e和H. 盖夫夫内河学习特征和抽象动作以计算通用计划。在AAAI,2019年。[Das et al. ,2020] S.达斯,S。Natarajan,K.罗伊河,巴西-地帕尔,以及K. 克斯汀适合关系域的q学习。arXiv,abs/2006.05595,2020。[Dzeroski et al. ,2001] S. 泽罗斯基L. D. Raedt,以及K.德瑞森关系强化学习。马赫学习. ,43(1/2):7[Ferber et al. ,2020] P.Ferber,M.Helmert和J.霍夫曼强化学习在规划物流中的应用。在ICAPS PRL研讨会,2020年。[Fern et al. ,2006] A. Fern,S. W. Yoon和R.吉万带有策略语言偏差的近似策略迭代:求解关系马尔可夫决策过程. J. Artif.在-告诉。Res. ,25:75[Fran ce`setal. ,202 1]G. 法郎,B。Bonet和H. 盖夫夫内河在没有监督的情况下,从小例子中学习一般的规划政策。在AAAI,2021年。[Garg et al. ,2019] S.加格A。Bajpai和Mausam神经元的大小依赖性转移。在ICAPS,2019年。[Garg et al. ,2020] S.加格A。Bajpai和Mausam符号网络:关系MDPs的广义神经策略。2020年,《国际反洗钱法》[Groshev et al. ,2018] E.格罗舍夫,M.戈尔茨坦,A. 塔玛,S. Srivastava和P.阿比尔使用深度神经网络学习广义在ICAPS,2018年。[Guestrin et al. ,2003] C. Guestrin,D.科勒角Gearhart和N.卡诺迪亚将计划推广到关系型mdp中的新环境。载于IJCAI,2003年。[Izhikevich et al. ,2015] E.M. Izhikevich,J.H. 康威,A. 塞斯生命的游戏Scholarpedia,10(6):1816,2015.[Janischetal. ,202 0]J. Janisch,T. P e v ny'和V. Li sy'. 基于图神经网络的符号关系深度强化学习。arXiv,abs/2009.12462,2020。[Karia and Srivastava,2021] R. Karia和S.斯利瓦斯塔瓦学习广义关系启发式网络用于模型无关规划。在AAAI,2021年。[Khardon,1999] R.卡顿规划领域的学习行动策略。第内特尔,113(1-2):125[Kingma and Ba,2015] D. P. Kingma和J. Ba。Adam:随机最佳化的方法。2015年,国际会议+v:mala2277获取更多论文[Kokel et al. ,2021] H. Kokel,A. Manoharan,S. 纳塔拉詹,B. Ravindran和P. Tadepalli。Reprel:集成关系规划和强化学习以实现有效的抽象。在ICAPS,2021年。[Long and Fox,2003] D.长和M。狐狸.第三届国际城市规划竞赛结果与分析。J. 第内特尔Res. ,20:1[Mart 'ın and Geffner,2004] M. Mart 'ın和H.格夫纳使用概念语言从规划实例中学习广义策略应用程序接口,20(1):9[Mnih等人,,2013] V. Mnih,K. 卡武克库奥卢D. 西尔弗A.格雷夫斯岛Antonoglou,D. Wierstra和M. A.里德-米 勒 。 用 深 度 强 化 学 习 玩 雅 达 利 。 arXiv ,abs/1312.5602,2013年。[Narvekar和Stone,2019] S。Narvekar和P. Stone。强化学习的学习课程政策。在AAMAS,2019年。[Ng和Petrick,2021] J.H. A. Ng和R.彼得里克一阶函数逼近在关系型mdps迁移学习中的应用。在ICAPSPRL研讨会,2021年。[Paszke et al. ,2019] A.帕斯克河格罗斯,F。Massa,A.勒勒,J. Bradbury , G.Chanan , T. 基 林 , Z.Lin ,N.Gimelshein,L. Antiga,A. Desmaison,A. Kopf,E.杨,Z. DeVito,M.Raison,A.Tejani,S.奇拉姆库尔蒂湾斯坦纳,L. Fang,J. Bai,and S. Chintala Pytorch:一个命令式风格的高性能深度学习库。2019年在NeurIPS[Rosenfeld et al. ,2017] A. 罗森菲尔德,M. E. 泰勒和S.克劳斯使用状态-动作相似性加速表格强化学习。在AAMAS,2017年。[Sanner and Boutilier,2005] S. Sanner和C.布提利耶一阶多目标规划的近似线性规划。在UAI,2005年。[Sanner,2010] S. 桑纳 关系动态影响图语言:语言描述。http://users.cecs.anu.edu.au/http://www.example.com/www.example.com/www.example.com/www.example.com/[Sanner , 2014] S.桑 纳国 际 概 率 规 划 竞 赛 。http://users.cecs.anu.edu.au/Lossanner/IPPC 2014/index.html,2014年。[Srivastava et al. Siddharth Srivastava , Shlomo Zil-berstein,Neil Immerman,and Hector Geffner.定性数值规划。InAAAI,2011.[Srivastava et al. Siddharth Srivastava , Neil Immer-man,and Shlomo Zilberstein.循环计划的适用条件第内特尔,191-192:1[Srivastava et al. Siddharth Srivastava , Shlomo Zil-berstein,Abhishek Gupta,Pieter Abbeel,and StuartRus-sell.循环规划的可追溯性。InAAAI,2015.[Sutton and Barto,1998] R. S. Sutton和A. G.巴托再强化学习-导论。MIT Press,1998.+v:mala2277获取更多论文[Tadepalli et al. ,2004] P.塔迪帕利,R.Givan和K.德瑞森关系强化学习:综述。ICML RRL讲习班,2004年。[Watkins,1989] C. J. C. H. Watkins 学习延迟奖励。博士论文,英国剑桥国王学院,1989年。[Wu和Givan,2007] J. Wu和R.吉万发现概率规划的相关域特征。载于ICAPS,2007年。+v:mala2277获取更多论文−一扩展结果在IPPC的每个域的实例5和10上获得的结果的完整集合可以在图3中找到。对于学术咨询,实例6、8和10使用了一种设置,在每个时间
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功