没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文通过剩余策略梯度方法NiklasH?pner1岁,IlariaTiddi2岁,Herk evanHoof1岁,阿姆斯特丹2阿姆斯特丹自由大学{n.r.hopner,h.c.vanhoof} @ uva.nl,i. vu.nl,摘要使强化学习(RL)代理能够利用知识库,同时从经验中学习,有望在知识密集型领域推进RL。然而,事实证明,很难利用不是针对环境手动定制的知识我们建议使用开源知识图中存在的子类关系来抽象特定对象。我们开发了一种剩余策略梯度方法,能够在类层次结构中的不同抽象层次上集成知识。我们的方法提高了样本效率和一般化的常识游戏中看不见的对象,但我们也调查故障模式,如过度的噪声提取类知识或环境中的小类结构。1介绍深度强化学习(DRL)使我们能够在具有高维状态和动作空间的MDP中优化控制策略,例如在游戏中[Silveretal. ,2016]和机器人[Lillicrapet al. ,2016]。将深度强化学习引入现实世界的两个主要障碍是当前方法的样本效率低下和泛化性能差[Kirket al. ,2021]。在其他方法中,包括在智能体的学习过程中的先验知识,有望减轻这些障碍,并将再强化学习(RL)从白板方法移动到更像人类的学习。 根据研究领域的不同,先验知识表示可以从预训练的嵌入或权重[Devlinet al. ,2019]到符号知识 表 示 , 如 逻 辑 [Vaezipooret al. , 2021] 和 知 识 图(KG)[Zhanget al. ,2020b]。虽然前者更容易集成到基于深度神经网络的算法中,但它们缺乏特异性,抽象性 , 鲁 棒 性 和 可 解 释 性 [van Harmelen 和 ten Teije ,2019]。对于纯数据驱动的方法来说,很难获得的一种先验知识是常识知识。为强化学习代理配备常识或世界知识是改进的重要一步。联系作者人机交互[Akataet al. ,2020],因为机器间的交互要求机器访问不能从经验中学习的先前知识。常识游戏[Jiangetal. ,2020;Murugesanet al. ,2021]已经成为旨在将常识知识集成到RL代理中的方法的测试平台。先前的工作集中 于 通 过 提 取 ConceptNet 的 子 部 分 来 增 强 状 态 [Mu-rugesanet al. ,2021]。只有当提取的知识适合环境时,性能才会提高。在这里,我们专注于自动提取的知识,这些知识应该在一系列常识游戏中有用。人类使用类从特定对象中抽象出来,这使他们能够在类级别学习行为并将其泛化到看不见的对象[Yee,2019]。由于常识游戏处理现实世界的实体,我们看看利用子类知识的问题,从开源KG,以提高样本的效率和推广的代理常识游戏。我们使用子类知识来形成一个状态抽象,根据给定状态中存在哪些类来聚合状态。这种状态抽象可能不会保留在一个状态下进行最佳操作所需的所有信息。因此,需要一种方法来学习在越来越细粒度的状态表示序列上集成有用的知识我们展示了一个天真的集成方法如何无法正确地整合信息,形成不完美的抽象状态,并设计一个剩余的学习方法,被迫学习的差异,在相邻的抽象级别的政策。这两种方法的属性首先在一个玩具集,汀类为基础的抽象的有效性可以控制的研究。然后,我们表明,如果一个常识游戏是由类结构,代理是更有效的样本然而,如果提取的类知识不正确地聚集对象,则学习可能会受到阻碍。概括而言,我们的主要贡献如下:• 我们使用来自开源KG的子类关系来制定常识游戏的状态抽象;• 我们提出了一种剩余学习方法,可以与策略梯度算法集成,以利用不完善的状态抽象;• 我们表明,在具有类结构的环境中,arXiv:2201.12126v1 [cs.AI] 2022年1月+v:mala2277获取更多论文×→→×→电子邮件:info@martina.com方法导致更多的样本有效的学习和更好的概括看不见的对象。2相关工作我们介绍了可用的资源,包括常识性知识和尝试,已通过以前的工作,以利用这些资源。由于类知识是从知识图中提取的,因此讨论了在基于深度神经网络的架构中包括KG的工作。这里考虑的设置也为强化学习中的状态抽象提供了一个新的视角常识幼儿园。KG以实体-关系-实体三元组的形式存储事实。通常,构建KG是为了捕获一般知识领域,如常识[Ilievskiet al. ,2021],或更多领域特定的知识,如医学领 域 [Huanget al. , 2017] 。 虽 然 ConceptNet [Speeretal. ,2017]试图代表所有的常识知识,其他人专注于特定的部分,如因果关系[Sapet al. ,2019]。手动设计的KG [Miller,1995]不太容易出错,但提供的覆盖范围更小,设计成本更高,使得混合方法流行[Speeret al. ,2017]。 在 这 里 , 我 们 关 注 WordNet[Miller , 1995],ConceptNet和DBpedia [Lehmannet al. ,2015]并研究他们的类知识的质量如何影响我们的方法。以向量形式表示KG 可 以 通 过 知 识 图 嵌 入 技 术 实 现 [Nickel 和 Kiela ,2017],其中嵌入可以从头开始训练,或者词嵌入可以微 调 [Speer 和 Lowry-Duda , 2017] 。 双 曲 嵌 入 [NickelandKiela,2017]捕获了由两个名词之间的上位词关系给出的WordNet的层次结构,并作为包含类先验知识的替代方法进行了研究。常识游戏为了研究将常识知识整合到RL代理中的问题,最 近 引 入 了 常 识 游 戏 [Jianget al. , 2020;Murugesanetal. ,2021]。先前的方法集中于利用知识图嵌入[Jiang等人,2020]或经由ConceptNet的提取子部分来增强状态表示[Murugesanet al. ,2021]。虽然知识图嵌入比GloVe词嵌入更能提高性能[Penningtonet al. ,2014],他们所基于的知识图谱是特权游戏信息。从ConceptNet中自动提取任务相关知识具有挑战性。如果知识是手动指定的,样本效率提高,但抽象的提取规则妨碍学习。目前还没有一种方法可以学习提取有用的知识。我们在这里使用的类知识不是针对环境量身定制的,因此应该在一系列环境中保持。将KG集成到深度学习架构中。知识中存在的知识的整合问题图1:(左)基于从WordNet中提取的类,在Word-craft中对状态及其抽象进行可视化。颜色表示对象映射到类,其中相同的颜色表示抽象中的相同类。(右)用于确定状态抽象的类树的子图。al. ,2020b]。大多数方法都是基于对部分知识库的注意力机制[Moonet al. ,2019;Gouet al. ,2021]。两个关键的区别是,使用的知识图是为任务策划的,因此包含少量噪音。此外,大多数任务都被设计为监督学习问题,其中给出了关于正确推理模式的注释。在这里,我们从开源知识图中提取知识,并且由于实体协调和知识不完整的问题而不得不处理类结构中的错误。RL中的状态抽象。状态抽象旨在将基本马尔可夫决策过程(MPD)的状态空间划分为抽象状态,以降低学习策略的状态空间的复杂性[Liet al. ,2006年]。已经提出了聚集态的不同标准[Givanet al. ,2003年]。它们保证为抽象MDP学习的最优策略对于基本MDP仍然是最优的 为了利用状态抽象,必须学习聚合函数[Zhangetal. ,2020 a],这需要额外的样本或按策略执行,导致聚合函数的潜在崩溃[Kemertas和Aumentado-Armstrong,2021]。在这种情况下,一个近似的状态抽象作为先验知识还没有看。这里给出的需要一种能够从每个抽象层次集成有用知识3问题设置强化学习使我们能够学习MDP M=(S,A,R,T,γ)中的最佳行为,其中状态空间S,动作空间A,奖励函数R:S一R,折扣因子γ和转移函数T:SA <$S,其中<$S表示空间上的概率分布集S.我们的目标是从经验中学习一个政策π:SA.A.优化了目标:图转化为基于深度神经网络的学习算法,主要是由自然语言社区[Xie和Pu,2021]研究的。这些案例包括,但不是J(π)=Eπ∞t不t=0时π[G],(1)仅限于开放式对话[Moonet al. ,2019],任务导向型数据库[Gouet al. ,2021]和故事完成[Zhanget其中G是贴现收益。状态抽象函数φ:S→S'将状态聚合为抽象状态,谷仓谷仓蜘蛛山羊谷仓羊蜘蛛哺乳动物有蹄类无脊椎农场建筑脊椎动物动物动物建筑脊椎动物动物有蹄类节肢动物哺乳动物实体动物建筑脊椎动物无脊椎动物接收场地哺乳动物人类谷仓有蹄类蜘蛛山羊羊+v:mala2277获取更多论文ΣΣ→−.Σ⊆我→{|∈}我π(a|s n)=Softmax目标是降低状态空间的复杂度 给定任意加权函数w:S→[0,1]s.t. s′∈S′,s∈φ−1(s′)w(s)= 1,可以在抽象状态上定义抽象奖励函数R′和转移函数T ′空间S′:R′(s′,a)=w(s)R(s,a)(2)s∈φ−1(s')游戏状态,并从开源KG构建类树。如果游戏状态不是一组实体而是文本,我们使用spaCy1提取所有名词作为对象集。类树从DBpedia、ConceptNet或WordNet中提取。关于每个KG提取的详细算法,我们参考附录A。在这里,我们讨论了从开源KG中提取类树时出现的一些警告,以及如何解决它们。可能发生的一件事是类树变得不平衡,即。的深处T′(s′,a,s′)=T ′w(s′)T(s,a,s′),(3)表示对象的叶子不同(图2)。 因为每个s∈φ−1(s')s< $∈φ−1(s')具有少量类的附加层增加了复杂性,i ii ational开销,但提供了很少的抽象,我们崩溃得到抽象的MDPM′=(S′,A,R′,T′,γ)。如果抽象φ满足一致性准则(参见第2节,RL中的状态抽象),则在M ′上学习的策略允许M中的最优行为,从现在开始我们将其称为基础MDP [Li et al. ,2006年]。在这里,我们假设我们给出了抽象函数φ1,...,其中φi:Si1Si,其中S0对应于基MDP的状态空间。 由于φ i不必满足任何一致性标准,因此在相应的抽象MDP M i之一上学习策略可能导致非最优策略。 目标是学习策略π或动作值函数Q,其将状态抽象s =(s1,.,s n)。在这里,我们想利用更抽象的状态s2,... S N,以获得更有效的学习和更好的泛化。4方法该方法可以分为两个部分:(i)构造抽象函数φ1,...,φ n;(ii)学习抽象状态s=(s1,..., s n)给出抽象函数。层,取决于它们对抽象的贡献(图2)。在DBpedia或WordNet 中 , 找 到 的 实 体 映 射 到 唯 一 的 超 类 , 而ConceptNet中的实体与多个超类相关联。为了处理多个超类的情况,每个实体被映射到所有i步超类的集合,i=1,., n.为了获得这些类集合的表示,对集合中每个元素的嵌入进行平均。在抽象状态的层次上学习策略。由于常识博弈中的先前方法是基于策略梯度的,因此我们将重点讨论这类算法,同时在附录B中对基于值的方法进行类似的分析。首先,我们研究了一种在我们的环境中学习策略的朴素方法,讨论了它的潜在弱点,然后提出了一种新的梯度更新来克服这些弱点。学习策略πovers的一种简单方法是通过具有针对每个抽象级别的单独参数的网络来预测logits,然后将其相加并通过softmax运算符转换为最终策略π,从而采取集成方法。令si,t表示在时间步长t的第i层上的抽象状态,则π通过以下公式计算:构造抽象函数φ i。常识游戏中的状态以现实世界实体及其关系为特征,可以建模为一组、序列或图形,π(a t|s t)=Softmaxni=1NNθi(si,t)、(六)实体.其思想是用超类替换每个实体,这样包含具有相同超类的对象的状态就被聚合到同一个抽象状态中。设E是可以出现在任何抽象状态s i中的符号的词汇,即si=e1,.,e k e l E.表示真实世界对象的符号用O E表示,C树表示它们的类树。类树是一个根树,其中叶子是对象,每个节点的父节点是它的超类。根是一个通用实体类,每个对象/类都是它的子类(参见附录A中的示例)。为了帮助定义φ i,我们引入基于实体的抽象φE:EE. 令Ck表示深度为k在C树中,L是C树的深度,那么我们可以定义φE其中NNθi是处理抽象状态si由θi参数化。然后可以通过任何策略梯度算法训练该策略[Schulmanet al. ,2015;Mnihet al. ,2016;Espeholtetal. ,2018]。从这里开始,我们将把这种方法称为求和方法。没有机制迫使求和方法在最抽象的层面上学习,这可能会导致对不可见对象的更差概括。在训练时,仅基于最低水平(忽略所有更高水平)进行所有预测可以是最大化折扣回报的解决方案为了避免这个问题,我们调整策略梯度,使得每个抽象层的参数θi都是最优的。φi:我错过了对第i个抽象的最优策略的近似抽象级别的策略。让φE(e)=我. Pa(e),如果e∈CL+1−i(四)ni,t=(s i,t,.,s n,t)表示抽象状态的层次结构,e,否则,时间步长t下降到第i级。定义第i个策略水平φi(s)={φE(e)|e∈s},(5). ΣnΣ(个)其中Pa(e)是类树C树中实体e这个抽象过程如图1所示。 在实际操作中,ii,tK=Iθkk,t我们需要能够从1https://spacy.io/中提取相关对象集SNN.(七)+v:mala2277获取更多论文.Yi,ti+1,tn≡ΣΣi,tΣ70060050040030020010000.02.55.0第7.5节10.012.515.0玩具环境我们从一棵有根树开始,其中每个节点都通过随机嵌入表示。 树叶表示基本MDP的状态。树的每个深度级别代表一个抽象级别。树的每个内部节点表示一个抽象的状态,它聚集了其子节点的状态每个人的最佳行动抽象级别图2:(左)可以在Wordcraft环境中的每个状态抽象级别上显示的不同对象/类的数量,其中超类关系从Wordnet中提取(右)在类树中折叠两个层的可视化。注意π=π1。为了获得包含抽象策略πi的策略梯度表达式,我们将π写成抽象策略的乘积:通过首先固定抽象级别L并对该级别上的每个抽象状态随机采样五个可能动作之一来确定叶(基本状态)。然后,叶的最优动作由其在级别l上的对应抽象状态的采样动作给出。时间跨度是一步,即,对于每个情节,叶状态被采样,并且如果代理选择正确的动作,则它接收奖励1。我们在新的叶子上进行测试,使用看不见的随机嵌入,但保持相同的抽象层次和相同的opti模式。错误行为对求和法和残差法进行了比较π(a|st)=n−1i=1πi(a|sn)πi+1(a|Sn)<$π n(a|s n,t)。(八)到仅给定基本状态而训练的策略和仅给定最优抽象状态(oracle)的策略。为了研究噪声在抽象中的影响,我们将最佳AC替换为最佳AC。并将其插入具有折扣回报G的情景任务的策略梯度表达式:由具有噪声概率σ的最优状态确定的最优状态(噪声设置)或确保抽象步骤仅聚集单个状态(模糊度设置)。各项政策落到联系我们.πi(a|sn)(一个|Sn通过REINFORCE[Williams,1992]进行培训,具有价值函数-θJ(θ)=Eπi=1t=1 双θ测井πi+1i+1,t)G,(九)作为基线和熵正则化。 的更多细节所选择的树和策略网络体系结构可以见附录C。其中πn+11.一、 注意,在等式9中,参数θi取决于等于或低于i的级别的所有策略的值。其思想是只对每个抽象层i取关于θi的梯度,而不是整组参数θ。这优化了参数θi,不是关于它们对总体策略的影响,而是关于它们对水平i上的抽象策略的影响。剩余策略梯度由下式给出:文本世界常识。在基于文本的游戏中,状态和动作空间以文本的形式给出。在文本世界常识(TWC)中,智能体位于家庭中,并且必须将对象放置在其正确的常识位置,即人们期望这些对象在正常家庭中的位置。该代理收到的奖励为一个对象,是放在正确的位置。代理商评估θJres(θ)=nEπi=1不t=1θilog(πi(a|sn))G.(十)通过实现的标准化奖励和解决环境所需的步骤数,其中50步是允许的最大步骤数。使抽象成为必要-第一和的每个元素类似于抽象状态si上的策略的策略梯度损失。然而,采样的轨迹来自总体策略π而不是策略πi,并且策略πi以逻辑水平的形式继承来自先前层的偏差。我们将基于等式10中的更新的方法称为残差方法。残差和求和方法的优点是可以并行地计算来自每一层的logit。任何级别的顺序处理都将具有非常大的计算开销。5实验评价我们的方法是基于这样一个假设,即通过从开源KG中提取的类知识的抽象在常识游戏环境中是有用的。这不一定是真的。首先明智的是在理想化的环境中研究我们的方法的工作,在那里我们控制抽象是否以及如何对概括和样本效率有用。然后,我们评估两个常识游戏的方法,即文本世界COM- monsense的变体[Murugesanet al.#20201;和文字。sary,我们在每个类中使用大量的对象,并将智能体在训练期间看到的游戏数量从5增加到90。这增加了在训练时对不同物体的暴露。 代理在验证集和测试集上进行评估,在验证集上它遇到以前见过的对象,在测试集上它没有遇到以前见过的对象。游戏的难度由房间的数量、要移动的物体的数量和干扰物(已经在正确位置的物体)的数量决定,在这里分别是两个、两个和三个。为了研究从Word-Net、ConceptNet和DBpedia提取的类树中的不准确性的影响,我们将它们与基于对象的奖励和转移行为的手动聚合进行Murugesan等人[2021]对已经提出的用于解决基于文本的游戏的不同体系结构进行基准测试[He等人[ 2021 ] ,2016]。在这里,我们专注于他们提出的方法,该方法利用了递归神经网络架构和numberbatch嵌入[Speer和Lowry-Duda,2017],在标准化奖励和所需步骤数量方面表现最好。有关体系结构和学习算法的更多细节,请参阅初始文件。作为基线,我们选择:(i)通过在WordNet上训练的双曲线嵌入添加类信息[Nickel和112 3塌陷层4 54 52 36 745 6 7 88对象/类的数量i,t+v:mala2277获取更多论文1.00.80.60.40.21.00.80.60.40.21.00.80.60.40.2剩余和基预言0 10 20 30 4050剧集数量(以100为单位)基本预言残差平方和0 10 20 30 4050剧集数量(以100为单位)基本预言残差平方和0 5 10 15剧集数量(以100为单位)1.00.80.60.40.20.80.60.40.21.00.80.60.40.20 10 20 30 40 50剧集数量(以100为单位)0 10 20 30 40 50剧集数量(以100为单位)0 5 10 15剧集数量(以100为单位)没有抽象;与Oracle的样本效率相当。这同样适用于泛化性能。由于基本方法在测试时面临不可见的随机嵌入,因此不可能推广。在噪声设置中(图3中),在抽象状态上训练的策略在其动作由其抽象状态确定的状态的百分比上达到其性能极限;基础,残差和求和方法反而达到最佳性能。对于求和和残差方法,在泛化时实现的奖励都降低了,但是当与残差方法比较时,求和方法在训练时更容易受到对噪声的过拟合在模糊抽象的情况下,我们看到,残差方法优于求和方法。这可以通过残差梯度更新来解释,它迫使残差方法在最抽象的层次上学习所有内容,而求和方法将对最终策略的贡献分布在抽象层上。在测试时,求和方法过于强调无信息的基本状态,导致策略采取错误的操作。6.2文本世界常识结果表明,无论是总和和残差的方法,图3:玩具环境中的培训和推广结果抽象状态完美地决定了在基本状态(top)中要采取的行动。噪声被添加到这个关系中,因此在40%的时间内在二义性设置中,并不是每个抽象状态都有多个子状态(底部)。实验在三粒种子上进行。能够利用抽象的状态。这是否转移到具有较长时间范围的更复杂的环境中仍然是一个悬而未决的问题,其中抽象是通过从开源KG中提取知识而得到的。Kiela,2017]通过将它们连接到对象的numberbatch嵌入;(ii)从游戏对象的ConceptNet中提取LocatedAt关系,通过图形注意力对其进行编码并将其与文本嵌入相结合[Murugesanetal. ,2021]。文字技巧代理被赋予目标实体和成分实体,并且必须组合成分实体以获得目标实体。一组配方确定输入对象的哪种组合导致哪种输出实体。人能1.00.80.60.40.2WordNet-resWordNet-sum基地0 20 40 60 80发作次数根据分散器(配方实体集合中的不相关实体)的数量和训练时可用的配方集合来创建不同的泛化到不可见的配方保证了在训练期间并非所有配方都可用,并且泛化到不可见的目标确保了在测试时目标实体之前没有作为目标实体遇到过。Jiang et al.[2020]使用IMPALA算法训练策略[Espeholtet al. ,2018]。 我们保留了训练算法和多头注意力架构[Vaswaniet al. ,2017年]用于政策网络,以培训我们的图4:基线(基础)的训练性能,在困难环境中从WordNet提取的知识的总和和剩余抽象。实验用十粒种子进行。采样效率。从图4中可以看出,残差和求和方法与基本方法一样,使用较少的样本进行学习。 峰值平均差为从总共100集训练中选出20集。 虽然求和方法在训练开始时学习策略分量NN θ1,..., NN θn.6结果在检查理想环境中的结果是否符合预期之后,我们将讨论TWC和Wordcraft中的结果。6.1玩具环境从图3的顶部可以看出,求和和残差方法都比基线更有效同样有效的是,对于一些随机种子,训练结束,导致所获得的标准化奖励的波动性更高。这类似于先前在理想环境的噪声设置中的实验中观察到的情况。求和方法对于某些种子的性能崩溃表明,对于更抽象的状态的学习行为取决于权重的随机初始化。剩余方法不存在该稳定性问题图5(右)显示,添加双曲线嵌入不会提高采样效率,甚至会降低奖励列车奖励列车奖励列车奖励测试奖励测试奖励测试标准化奖励+v:mala2277获取更多论文方法奖励步骤有效的.测试有效。测试底座0.91(0.04)0.85(0.05)25.98(3.14)29.36(3.42)碱-H 0.83(0.06)0.75(0.14)30.59(5.39)33.92(6.08)碱基-L 0.90(0.04)0.86(0.06)24.83(2.31)M-R 0.96(0.03)0.96(0.02)21.26(2.65)20.00(1.57)M-S0.97(0.02)0.96(0.02)20.95(1.38)19.55(1.69)W-R0.93(0.02)0.94(0.02)23.25(1.46)24.04(1.75)W-S 0.88(0.10)0.87(0.17)25.69(4.78)26.21(6.81)0.60.50.40.30.20.1电话:+86-021 - 8888888传真:+86-021 - 88888888环境步骤1e6表一:验证集和测试集的简单和困难水平的概括结果,根据每种类型的知识图(M=手动,W=WordNet)和每种方法(R=残差,S=总和)所采取的平均步骤数(括号中的标准差)。Base是指没有抽象的基线,Base-H是指具有双曲线嵌入的基线,Base-L是指基线添加的LocatedAt关系。粗体显示的是在没有手动指定知识的情况下性能最好的我们用红色突出显示手动类图优于其他方法的条件实验用十粒种子进行。图6:Wordcraft环境中与不可见目标实体相关的泛化结果实验用十粒种子进行。效率低下。从DBpedia和ConceptNet中获得的抽象妨碍了学习,特别是对于残差方法(图5)。通过研究DBpedia抽象,我们注意到许多实体没有正确解析因此,语义完全不同的对象被聚集在一起。ConceptNet抽象的糟糕性能暗示了平均类嵌入的问题,1.00.80.60.41.00.80.60.4多个超类尽管两个对象在它们的超类集合中可能有重叠,但是由于不重叠的类,所得到的嵌入仍然可能有很大的不同。0.20 20 40 60 80发作次数0.20 20 40 60 80发作次数6.3 Wordcraft图6显示了Word中的泛化性能-图5:当类知识来自不同的训练知识图(左)时,以及当基线使用双曲线嵌入或来自ConceptNet的LocatedAt实验用十粒种子进行。训练结束时的表现。添加Locate-dAt关系可以将采样效率提高到与添加类抽象相似的程度.概括。表1显示,在没有任何额外知识的情况下,当在测试时面对看不见的物体时,通过平均标准化奖励和平均步数测量的基线性能下降。添加双曲嵌入并不能缓解这个问题,而是阻碍了验证和测试集的泛化性能。当将来自ConceptNet的LocatedAt关系添加到状态表示中时,性能的下降会略微降低。给定一个手动定义的类abstrac和灰,概括到看不见的对象是可能的,而没有任何下降的残差和总和的方法的性能。当人工定义的类知识与Word-Net类知识交换时,这对于残差方法仍然是正确的。基于WordNet的求和方法在验证和训练集上的性能较差,因为在训练时性能崩溃。KG消融。从图5和表1中可以明显看出,对于残差方法,从手动定义的类移动到WordNet给出的类所引入的噪声和额外的抽象层只会导致泛化性能的小幅下降,而不会带来额外的损失。工艺环境。对于随机嵌入的情况,抽象可以帮助改善推广结果。用GloVe嵌入替换随机嵌入改进了类抽象之外的泛化,并且将类抽象与GloVe嵌入组合不会产生任何额外的好处。查看Wordcraft中的配方结构,对象是基于它们的语义相似性组合的,这可以通过词嵌入而不是通过类更好地捕获。虽然没有泛化增益可以被识别,但在GloVe嵌入的情况下添加抽象在附录D中可以找到讨论Wordcraft环境中类抽象和预训练嵌入之间泛化差异的更详细的分析。7结论我们展示了如何利用从开源KG中提取的类知识来学习类行为,而不是常识游戏中的单个对象。为了迫使RL代理即使在存在噪声的情况下也能利用类知识,我们提出了一种新的基于集成学习方法的剩余策略梯度更新如果所提取的类结构近似于环境中的相关类,则提高了样本效率和对不可见对象的泛化性能。未来的工作可以看看其他设置不完善的先验知识是给定的,这是否可以用来学习。最后,KG包含比类更多的语义信息,未来的工作可以尝试在常识游戏中利用RL代理。WordNet手册ConceptNetDBpediaWordNet-rbase双曲LocatedAt残留的标准化奖励标准化奖励平均报酬没有抽象范围Dom没有雷斯雷斯抽象-Glo独立-随机独立-手套Ve苏苏m -随机m -手套+v:mala2277获取更多论文确认这项研究(部分)由混合智能中心资助,这是一个由荷兰教育,文化和科学部通过荷兰科学研究组织资助的10年计划,https://hybrid-intelligence-centre.nl。引用[Akata et al. ,2020] Z. Akata ,D. Balliet,M. D. Rijke ,F.Dignum和V.Dignum等人,混合智能的研究议程:用协作、适应、负责和可解释的人工智能增强人类智力2020年。[CoPutte e'etal. ,2018]M. Cote',A.Ka'da'r,X.Yuan,B.克伊巴塔斯,还有T. Barnes等Textworld:一个基于文本游戏的学习环境在2018年的电脑游戏工作坊上[Devlin et al. ,2019] J.德夫林,M.张,K.李, 和K. Toutanova。BERT:用于语言理解的深度双向转换器的预训练。在NAACL-HLT,2019年。[Espeholt et al. ,2018] L.埃斯佩霍尔特,H。索耶河穆诺斯湾Simonyan和V. Mnih等人,Impala:Scalable distributed deep-rl with importance weighted actor-learner architectures. 2018年在ICML上发表。[Givan et al. ,2003] R. Givan,T. Dean,and M.格雷格马尔可夫决策过程中的等价概念与模型最小化。人工智能,2003年。[Gou et al. ,2021] Y.Gou,Y.莱湖,加-地Liu,Y.Dai,和C.沈将知识库与Transformer结合起来,用于端到端面向任务的对话系统。在EMNLP中,2021年。[He et al. ,2016] J.他,J。Chen,X.他,J。Gao和L.Li等人深度强化学习与自然语言动作空间在ACL,2016年。[Huang et al. ,2017] Z.黄,J.Yang,F.诉Harmelen和Q.胡构建抑郁症知识图谱。在健康信息科学国际会议上。Springer,2017.[Ilievski et al. ,2021] F. Ilievski,P. A. Szekely和B. 张某CSKG:常识知识图谱。在ESWC,2021年。[Jiang et al. , 2020] M. Jiang , J. Luketina , N. Nardelli , P.Minervini,and P. HS Torr et al. Wordcraft:An environmentfor Benchmark commonsense agents.arXiv 预 印 本 arXiv :2007.09185,2020。[Kemertas和Aumentado-Armstrong,2021] M.Kemertas和T.奥门塔多-阿姆斯特朗走向鲁棒互模拟度量学习。CoRR,2021年。[Kirk et al. ,2021] R. 柯克A. 张先生,E. Grefenstette和T. 摇滚乐队。深度强化学习中的泛化概述CoRR,abs/2111.09794,2021。[Lehmann et al. ,2015] J. 莱曼河 Isele,M. 雅各布,A. Jentzsch和D.从维基百科中提取的大规模多语言知识库。Semantic Web,2015.[Li et al. ,2006] L. Li,T. J Walsh和M.利特曼。面向MDPs的状态抽象统一理论。ISAIM,4:5,2006.[Lillicrap et al. ,2016] T. P. Lillicrap, J. J. 亨特 A. 普里策,N. Heess , T. Erez 等 人 , Continuous control with deepreinforcement learning。2016年,在ICLR[Miller,1995] G.磨坊主Wordnet:英语词汇数据库。ACM通讯,1995年。[Mnih等人,,2015] V. Mnih,K.卡武克库奥卢D. Silver,黑胫拟天蛾A. A. Rusu和J. Veness等人通过深度强化学习进行人类水平控制。Nat. ,2015年。[Mnih等人,,2016] V. Mnih,A. P.巴迪亚,M.米尔扎A。坟墓,T. P. Lillicrap 等 人 , 《 深 度 强 化 学 习 的 异 步 方 法 》(AsynchronousMethodsforDeepReinforcementLearning)。InICML,2016.[Moon et al. ,2019] S. Moon,P. Shah,A. Kumar,R.苏巴Opendialkg:可解释的会话推理与基于注意力的知识图谱漫步。在ACL,2019年。[Murugesanetal., 2021]K.Murugesan , M.Atzeni ,P.Kapanipathi,P. Shukla和S.基于文本的RL代理与常识知识:新的挑战,环境和基线。在AAAI,2021年。[Nickel and Kiela,2017] M.Nickel和D.琪拉庞加莱的嵌入式学习分层表示。NeurIPS,2017年。[Pennington et al. J. Pennington , R. Socher , 和 C. D 曼 宁 。Glove:单词表示的全局向量。在EMNLP,2014年。[Sap et al. ,2019] M.萨普河Le Bras,E.阿拉韦角Bhagavatula和N.Lourie等人ATOMIC:An atlas of machine commonsensefor if-then reasoning.在AAAI,2019年。[Schulman et al. ,2015] J. Schulman,S.作者声明:A. I. Jordan和P.莫里茨信赖域政策优化。InICML,2015.[Silver et al. , 2016] D. Silver , 黑 胫 拟 天 蛾 A. 黄 角 J.Maddison,A. Guez和L. Sifre等人,《Mastering the game ofgo with deep neural networks and tree search》。Nat. ,2016年。[Speer and Lowry-Duda , 2017] R. Speer 和 J. Lowry-Duda 。Conceptnetatsemeval-2017task2 : Extendingwordembeddingswithmultilingualrelationalknowledge.InSemEval@ACL,2017.[Speer et al. , 2017] R. Speer , J. Chin , and C. 哈 瓦 西Conceptnet 5.5:一个开放的多语言通用知识图。在AAAI,2017年。[Vaezipoor et al. ,2021] P. Vaezipoor,A. C.利河,巴西-地T.Icarte,以及S. A.麦克莱斯Ltl2action:将LTL指令推广到多任务RL。在ICML,2021年。[van Harmelen and ten Teije,2019] F. van Harmelen和A.十个Teije。混合学习和推理系统的设计模式箱学在BNAIC,2019年。[Vaswani et al. ,2017] A.瓦斯瓦尼,N.沙泽尔N. 帕尔马,J. Uszkoreit和L.琼斯等人,注意力就是你所需要的一切在NeurIPS,2017年。[Watkins和Dayan,1992] C. JCH。Watkins和P. Dayan。Q-学习。机器学习,1992年。[Williams,1992] R. J·威廉姆斯简单的统计梯度跟踪算法用于连接主义强化学习。机器学习,1992年。[Xie and Pu,2021] Y. Xie和P. Pu.常识知识如何帮助自然语言任务:最近的资源和方法的调查。CoRR,2021年。[Yee,2019] E. Yee.抽象和概念:何时、如何、何地、什么和为什么?2019年。[Zhang et al. , 2020a] A. Zhang C. , 中 国 古 猿 科 Lyle , S.Sodhani,A.菲洛斯,以及M. Kwiatkowska等人,块MDP的不变因果预测。2020年,《国际反洗钱法》[Zhang et al. ,2020b] M. Zhang,K.耶河,巴西-地Hwa,和A.科瓦什卡用常识知识的明确建模来完成故事在CVPR,2020+v:mala2277获取更多论文年。+v:mala2277获取更多论文ΣA从常识KG中为了构造第4节中提出的抽象函数φi,达到了这又给了我们一个通
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功