没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文≈序列到序列知识图的自动补全与问题分类阿普尔夫·萨克塞纳班加罗尔印度科学研究所apoorvsaxena@iisc.ac.inAdrian Kochsiek曼海姆大学adrian@informatik.uni-mannheim.deRainer Gemulla曼海姆大学rgemulla@uni-mannheim.de摘要知识图嵌入(KGE)模型用低维嵌入向量表示知识图(KG)中的每个实体和关系。这些方法最近已被应用于KG链接预测和不完整KG上的问题回答(KGQA)。KGE通常为图中的每个实体创建嵌入,这导致具有数百万实体的真实世界图上的大模型大小。对于下游任务,这些原子实体表示通常需要集成到多级管道中,这限制了它们的实用性。我们表明,一个现成的编码器-解码器Transformer模型可以作为一个可扩展的和通用的KGE模型获得最先进的结果KG链接预测和不完整的KG问题回答。我们实现了这一点,提出KG链接预测作为一个序列到序列的任务和交换的三重评分的方法与自回归解码之前的KGE方法这样一个简单但功能强大的方法,减少了高达98%的模型大小相比,传统的KGE模型,同时保持推理时间易处理。在对不完整KG的KGQA任务进行微调后,我们的方法在多个大规模数据集上的性能优于基线,而无需进行广泛的超参数调整。11介绍知识图(KG)是多关系图,其中节点是来自真实世界的实体(例如,美国的巴拉克·奥巴马(Barack Obama)),并且命名的边表示它们之间的关系(例如,出生于美国的巴拉克·奥巴马(Barack Obama))。 KG可以是域特 定 的, 例 如 WikiMovies ( Miller et al. ,2016)或编码公共知识的公共跨域KG,诸如Wikidata和DBpedia(Heist et al. ,2020)。这些图结构的数据库在包括网络搜索、问答和推荐系统的知识密集型应用中起着重要作用(Jiet al. ,2020)。大多数现实世界的知识图谱是不完整的。然而,一些缺失的事实可以使用KG中的现有事实来推断(Bordes et al. ,2013)。这种任务称为知识图完成(KGC)2,近年来已成为一个热门的研究领域(Wang et al. ,2017年),并且是使用知识图嵌入(KGE)模型的十种方法之一。KGE模型通过一个稠密的向量嵌入来表示KG中的每个实体和关系。使用这些嵌入,模型被训练以区分正确和不正确的事实。KGE的主要下游应用之一是不完整KG上的问题回答(KGQA)(Choudhary et al. ,2021年)。考虑到现实世界KG的大规模(Wikidata包含90 M实体)和对下游任务的适用性,KGE模型应该满足以下要求:(i)可扩展性-传统的KGE模型实现了质量和简单性。他们建立在一个简单的架构,并达到高品质的KGC方面。然而,由于它们为每个实体/关系创建了唯一的嵌入,因此它们在模型大小和推理时间方面都随图中实体的数量线性缩放,并且提供有限的通用性。方法如DKRL(Xie etal. , 2016a ) 和 KEPLER ( Wang et al. ,2021)尝试使用组合嵌入来解决可伸缩性问题。然而,他们无法达到与conven相当的质量-国家KGE。 KG-BERT(Yao et al. ,2019年)利用1资源可在https://github.com/获得阿普尔武芒2我们使用术语KGC来完成KG链接预测的任务。arXiv:2203.10321v1 [cs.CL] 2022年3月+v:mala2277获取更多论文KK E ×R × EER牙买加英语predict head:fellow|亲本分类单元预测尾巴:约翰·奥康纳|持立场预测答案:牙买加人说尤哈利达亚大主教图1:我们的方法KGT 5的概述。KGT 5首先在链接预测任务上进行训练(预测头/尾实体,给定尾/头和关系)。对于问题回答,使用QA对进一步微调相同的模型预训练的BERT用于链接预测,并在多功能性方面具有潜力,因为它适用于下游NLP任务。然而,由于其底层的交叉编码器,它是不可3利用KGE的QA方法在不完整的KG上优于传统的KGQA方法,但将KGE与QA管道结合是一项重要的任务;尝试这样做的模型通常只适用于有限的查询类型(Huang et al.2019; Sunetal.2021; Saxena et al.2020)或需要多阶段训练和推理管道(Ren et al. ,2021年)。在这里,为了实现质量,这些模型牺牲了通用性和简单性。表1总结了在必要条件方面的方法比较9在附录中我们的论文表明,所有这些需求都可以通过一个简单的序列到序列(seq2seq)模型来实现。为此,我们将KG链接预测作为seq 2seq任务,并训练编码器-解码器Transformer模型(Vaswani et al. 2017年,在这项任务上。然后,我们使用这个模型进行链接预测的预训练这种简单但强大的方法,我们称之为KGT 5,• 使用这种简单但强大的方法KGT 5,我们将KG链接预测的模型大小减少了98%,同时在具有90M实体的数据集上优于• 我们展示了这种方法的多功能性,通过任务的KGQA不完整的图。通过对KG链接预测进行预训练和对QA进行微调,KGT 5在多个大规模KGQA基准测试中的表现与更复杂的方法相似或更好2背景相关工作给定一组实体和一组关系,知识图是主语-谓语-宾语(s,p,o)三元组的集合。链接预测是通过回答(s,p,?)和(?,p,o)。这通常使用知识图嵌入(KGE)模型来实现传统KGE为KG中的每个实体和关系分配一个嵌入向量。他们通过模型特定的评分函数f(e,e,e),使用在图1中可视化。 有了这样统一的seq2seq主题(s p o方法我们实现了(i)可扩展性-总之,我们做出了以下贡献:• 我们表明,KG链接预测和问题回答可以被视为序列到序列的任务,并成功地解决了一个单一的编码器-解码器Transformer(与T5-small(Raffel et al. ,2020))。3Shen et al.(2020)估计KG-BERT需要3天的时间来评估一个只有4万个实体的KG。es)、谓词(ep)和对象(eo)特定嵌入。一旦经过训练,这些嵌入将用于下游任务,例如问题回答。知识图问答(KGQA)是使用KG作为知识源来回答自然语言问题的任务这些问题可以是需要单一事实检索的简单事实问题(例如,印度流行哪些语言?),或者它们可以是复杂的问题,需要对KG中的多个事实进行推理(例如,莱昂纳多·迪卡普里奥担任主角的电影类型是什么?).当背景知识库不完整时,可以利用知识库进行知识库质量评估.在接下来的几节中,我们将更详细地介绍KGE和KGQA的现有工作。+v:mala2277获取更多论文2.1知识图谱嵌入原子KGE模型。在文献中已经提出了多个KGE模型,主要在它们的评分函数f(es,ep,eo)的形式上不同。这些模型的全面调查,他们的scor- ing功能,训练制度和链接预测性能可以在 王 等 人 。 ( 2017 ) 和 Ruffinelli et al.(2020)。值得注意的是,尽管这些模型在链接预测任务中获得了优异的性能,但它们的模型大小随KG中实体数量的线性缩放而变化,并且将它们应用于问题回答需要单独的KGE和QA模块。组成KGE模型。为了对抗模型大小与KG中实体数量的线性缩放,实体嵌入可以由令牌嵌入组成。DKRL(Xie et al. ,2016 b)通过将实体描述的单词嵌入与CNN编码器相结合来嵌入实体KEPLER(Wanget al. ,2021)使用基于transformer的编码器,并将典型的KGE训练目标与掩蔽语言建模目标相结合。这两种方法分别对实体和关系进行编码,这限制了这些模型对下游任务(如问题回答)的可移植性MLMLM(Cloudbury et al. ,2021)使用基于RoberTa的模型对整个查询进行编码,并使用[MASK]令牌来生成预测。然而,它在大型KG上的链接预测上的表现明显不如原子KGE模型,并且尚未应用于下游基于文本的任务。2.2知识图谱提问传统上,知识图问题分类(KGQA)是使用语义解析解决的(Berant et al. 2013; Bast andHaussmann 2015; Das et al.2021 a),其中自然语言(NL)问题被转换为KG上的符号查询。这对于不完整的KG是有问题的,其中单个缺失的链接可能导致查询失败。最近的工作主要集中在KGQA而不是不完全KGs上,这也是我们工作的重点这些方法尝试使用KG嵌入来克服KG不完备性(Huang et al. 2019; Saxena等人2020; Sun等人 2021; Ren等人 2021年)。为了将KGE用于KGQA,这些方法首先在背景KG上训练KGE模型,然后将学习到的实体和关系嵌入集成到QA管道中这种分散的方法带来了几个缺点;对于考试-ple Huang et al.(2019)的方法仅适用于单一事实问题回答,而EmQL(Sun et al. ,2021)需 要 NL 问 题 的 查 询 结 构 的 先 验 知 识 。EmbedKGQA(Saxenaet al. ,2020)能够进行多跳问题回答,但是不能处理涉及多于一个实体的问题。因此,这些方法缺乏通用性。LEGO(Ren et al. ,2021)理论上可以回答所有基于一阶逻辑的问题,但需要多个数据集相关组件,包括实体链接,关系修剪和分支修剪模块;在这里,为了获得多功能性,LEGO牺牲了简单性。3KGT5模型我们将知识图链接预测和问题回答作为序列到序列(seq2seq)任务。然后,我们训练一个简单的编码器-解码器Transformer -它具有与T5-small 相 同 的 架 构 ( Raffel et al. , 2020年),但没有预先训练的权重在训练问答时,我们使用链接预测目标进行正则化这种方法,我们称之为KGT 5,结果在一个可扩展的KG链接预测模型,大大减少参数比传统的KGE模型的大型KG。这种方法还赋予模型简单性和多功能性,因此它可以很容易地适应任何数据集上的KGQA,而不管问题的复杂性如何。将KG链接预测设置为seq 2seq任务需要实体和关系的文本表示,以及将链接预测查询转换为文本查询的语言化方案;这些在§3.1中详细说明。链接预测训练过程在§3.2中解释,推理在§3.3中解释。KGQA微调和推理流水线在§3.4中解释。3.1语篇表征文本映射。对于链接预测,我们需要实体/关系与其文本表示之间的一对一映射对于基于维基数据的KG,我们使用实体和关系的规范提及作为其文本表示,然后是一个将描述和唯一ID附加到名称的消歧方案4对于仅用于QA的数据集,我们不强制执行一对一映射,因为在这种情况下,不必要的消歧甚至4关于文字表述的详细情况,请参见附录A。+v:mala2277获取更多论文地图和top-k预测-1.5-0.3⋮天主教总主教⋮天主教主教vocab语言表达预测尾巴:约翰o康纳|持立场提到样品序列对数探针序列top-k预测K=2K=2(A)(B)图2:(A)传统KGE模型与(B)KGT 5在链接预测任务上的推理流水线给定一个查询(s,p,?),我们首先将其语言化为文本表示,然后将其输入到模型中。从模型解码器中采样固定数量这与传统的KGE不同,在传统的KGE中,KG中的每个实体都必须被评分。请参阅第3.3节了解更多详情。损害模型性能。5语言化。 我们将(s,p,?) 通过语言化查询(s,p,?) to a textual文本representation表示. 这与Petroni等人(2019)进行的语言化类似,只是没有特定于关系的例如,给定一个查询(barack obama,生于,?)首先,我们获得了实体和关系的文本信息,然后将其表述为“预测尾巴:巴拉克奥巴马”。|出生于'。这个序列是模型的输入,输出序列应该是这个查询的答案,3.2训练KGT 5进行链接预测为了训练KGT 5,我们需要一组(输入,输出)序列。对于训练图中的每个三元组(s,p,o),我们用语言表达查询(s,p,?)和(?,p,o),以获得两个输入序列。相应的输出序列分别是o和s的文本提及KGT5使用教师强迫(Williams and Zipser,1989)和交叉熵损失进行训练。6需要注意的一点是,与标准KGE5这是因为QA系统在评估过程中考虑的是表面形状例如,最好对歌曲的单曲和专辑版本都有相同的提及,而不是在它们的提及中附加一个唯一的数字6有关培训的更多详细信息,请参见附录B。数据集实体RelsEdges令牌。WikiKG90Mv291M1,387601M32kWikidata5M4.8M82821M30kMetaQA43k970k10kWQSP†158k816376k32kCWQ†3.9M3266.9M32k表1:所用幼儿园的统计数字。 †我们使用sub-FreeBase ( Google , 2015 ) 的 WebProquisions(WQSP)和ComplexWebQuestions(CWQ)。在模型中,我们在没有显式负采样的情况下进行训练。在解码的每个步骤中,模型产生可能的下一个令牌的概率分布。在训练时,该分布由于与“真实”分布不同而受到惩罚(即,真实下一个令牌的概率为1,所有其他令牌的概率为0)。因此,该训练过程与Ruffinelli等人的1vsAll + CE损失最相似。 (2020),除了不是针对所有其他实体对真实实体进行评分,而是在每个步骤处针对所有其他令牌对真实令牌进行评分,并且该过程重复与令牌化真实实体的长度一样多的次数。这避免了对许多否定的需要,并且与实体的数量无关。天主教主教预测(John奥康纳,保持原位?)(John奥康纳,保持原位?)实体对所有实体评分⋮⋮Ace Ventura-2.0大主教8.1Attack on Titan-9.9布隆代利尼-6.5天主教主教6.1⋮⋮图例说明:实体空间提及空间+v:mala2277获取更多论文E ∈ E−∞3.3链路预测推理在传统的KGE模型中,我们回答一个查询(s,p,?)通过找到分数f(s,p,o)o,其中f是模型特定的评分函数。然后根据分数对实体o进行排名在 我 们 的 方 法 中 , 给 定 查 询 ( s ,p,?),我们首先用语言表达它(§3.1),然后将其输入KGT 5。然后,我们从解码器中采样固定数量的序列,然后将其映射到它们的实体id。8通过使用这样的生成模型,我们能够近似(具有高置信度)top-m模型预测,而不必像传统KGE模型那样对KG中的所有实体进行评分。对于每个解码的实体,我们分配一个分数,该分数等于解码其序列的(log)概率。这给了我们一组(实体,分数)对。为了计算与传统KGE模型相当的最终排名指标,我们分配了对于在取样过程中未遇到的所有实体传统KGE模型和KGT 5的推理策略比较如图2所示。3.4KGQA训练和推理对于KGQA,我们使用链接预测任务(§3.2)在后台KG上预训练模型。这种预训练策略类似于其他KGQA作品中使用的“KGE模块训练”(Sun et al. 2021; Ren等人2021年)。同样的模型然后被微调为问题回答。因此,我们采用与Roberts等人(2020)相同的策略:我们将一个新的任务前缀(预测答案:)与输入问题连接起来,并将答案实体的提及字符串定义为输出。这种统一的方法使我们能够将KGT 5应用于任何KGQA数据集,而不管问题的复杂性如何,并且不需要实体链接等子模块。为了在QA微调期间防止过拟合(es-特别是在具有小KG的任务上),我们设计了一种正则化方案:我们将从背景KG随机采样的链接预测序列添加到每个批次,使得一个批次由相等数量的QA和链接预测序列组成。对于推理,我们使用波束搜索,然后7有关采样和解码策略选择的更多详细信息,请参见附录C8解码序列可以是也可以不是实体项。 我们试验了约束解码(Cao et al. ,2021)来强制解码器仅输出实体提及;然而,我们发现这是不必要的,因为模型几乎总是输出实体提及,并且增加样本的数量足以解决这个问题。基于邻域的重新排序(§4.3),以获得模型4实验研究我们调查是否KGT 5-即。一个简单的seq 2seqTransformer在此,我们首先描述所使用的数据集(§4.1),我们比较的基线(§4.2)和实验设置(§4.3)。我们的实验结果分析见§4.4-§4.8。在详细介绍之前,我们总结了我们的主要发现:1. 对于大型KG上的链接预测,KGT 5的基于文本的方法将模型大小减少到可比较的KGE模型高达98%,并达到或优于当前最先进的水平。2. 在不完整KG上的KGQA任务中,我们简单的seq2seq方法在多个数据集上获得了比当前最先进的方法3. KG链接预测训练在知识密集型任务(如KGQA)上可能比语言建模预训练更4. 虽然KGT 5擅长概括未看到的事实,但它在记忆事实方面相当差如果需要,可以通过使用KGT 5和常规链路预测或KGQA系统的集合来缓解该问题。4.1数据集我们在Wikidata5M上评估了KGT 5的链接预测能力(Wang et al. ,2021)和WikiKG90Mv2(Hu et al. ,2021年),两个最大的公开基准幼儿园。尽管KGT 5设计用于大型问题,但我们在较小的基准KG FB 15 k-237(Toutanova和Chen,2015)、WN 18 RR(Dettmers等人,2015)上进行了评估。,2018)和YAGO 3 -10(Dettmers et al. ,2018)进行比较。我们在三个大规模KGQA基准数据集上评估了KGT 5的QA能力:MetaQA(Zhang et al. ,2018),WebSites SP(WQSP)(Yih et al. ,2016 ) 和 ComplexWebQues-tions ( CWQ )(Talmor and Berant,2018)。MetaQA中的问题从1跳到3跳,要求在基于WikiMovies的KG上 进 行 基 于 路 径 的 推 理 ( Miller et al. ,2016)。WQSP包含基于1跳和2跳路径的问题,而CWQ包含需要合成、合取、比较和子等步骤的问题。+v:mala2277获取更多论文††‡‡‡†模型MRR点击率@1点击率@3点击率@10ParamsTransE(Bordes et al. (2013年)0.2530.1700.3110.3922,400百万DistMult(Yang et al. (2015年)0.2530.2090.2780.3342,400百万Simple(Kazemi和Poole,2018)0.2960.2520.3170.3772,400百万RotatE(Sun et al. ,2019年b)0.2900.2340.3220.3902,400百万QuatE(Zhang et al. ,2019年)0.2760.2270.3010.3592,400百万ComplEx(Trouillon et al. ,2016年)0.3080.255-0.398614MKGT 5(我们的方法)0.3000.2670.3180.36560MComplEx 14-dimensional0.2010.1610.2110.27567MComplEx 26-dimensional0.2390.1870.2610.342125MKEPLER(Wang et al. ,2021年)0.2100.1730.2240.277125MDKRL(Xie et al. ,2016年a)0.1600.1200.1810.22920MMLMLM(Cloudbury et al. ,2021)0.2230.2010.2320.2643.55亿KGT 5-COMPLEX增强型0.3360.2860.3620.426小行星674表2:Wikidata5M上的链接预测结果。结果来自Graphvite提供的最佳预训练模型(Zhu et al. ,2019)。结果通过用LibKGE进行超参数搜索获得(Broscheit等,,2020)。 $结果来自(Kochsiek和Gemulla,2021)。 结果来自Wang et al.(2021)。结果来自Cloudball et al.(2021)。更多详情请参见§4.4。测试有效尚未出版。9我们的KG分割可沿模型MRRMRRParams1、我们鼓励,我们鼓励,TransE-Concat0.1760.20618.2B其他研究使用它。我们不重新实施ComplEx-Concat0.1760.20518.2B比较方法,而是报告数量-COMPLEX-MPNet0.0990.126307K我们的方法和基线分别。我们复杂0.0980.11518.2B还报告通过执行TransE-MPNet0.0860.113307K用于测试的地面实况SPARQL查询(GT查询)transE0.0820.11018.2B问题. GT查询用作KGT 5(我们的方法)-十三岁0.22160米表3:WikiKG90Mv2上的链接预测结果。基线数字来 自 OGB-LSC 的 官方 排 行榜 ( Hu et al. , 2021年)。更多详情请参见§4.4。演绎推理WQSP和CWQ都可以使用Freebase(Google,2015)作为背景KG来回答我们使用 Ren 等 人 ( 2021 ) 提 出 的 方 案 创 建 了Freebase的子集,该方案导致KG比Freebase小得多,但仍可用于回答CWQ和WQSP中的所有问题。根据先前的工作(Sun et al. ,2019 a)我们随机丢弃所有KG中50%的边以模拟KG不完整性。这种随机性导致不同的作品具有不同的KG,使得在不重新实施方法的情况下难以比较结果 Ren等人 (2021)使用他们自己的KG分割实施了所有比较方法,+v:mala2277获取更多论文硬度KG分裂,并帮助我们比较模型在KG分割中的表现。请注意,为了训练所有模型,我们只使用(NL问题,答案实体)对-没有地面实况查询信息用于训练。在我们的实验中使用的KG的统计数据1.一、QA数据集的统计数据见表1。十一岁4.2比较模型对于Wikidata5M上的KG完成,我们与几个标准KGE模型进行了比较,这些模型已被证明在 多 个 数 据 集 上 实 现 了 良 好 的 性 能(Ruffinelli et al. ,2020),但是具有大量参数。 在低参数模型中,我们与基于文本的方 法 KEPLER ( Wang et al. , 2021 ) 、DKRL ( Xie et al. , 2016a ) 和 MLMLM(Cloudbury et al. ,2021年)。我们还考虑低维版本的最先进的方法ComplEx。对于小型基准KG,我们将其与目前表现最好的模型 NBFNet 进 行 了 比 较 ( Zhu et al. , 2021年)。9通过与提交人的私下沟通,我们能够获得WQSP的相同KG分割。+v:mala2277获取更多论文∼模型CWQWQSPGT查询25.256.9拉网26.8(+1.6) 47.4(-9.5)EmbedKGQA-42.5(-14.4)乐高29.4(+4.2) 48.5(-8.4)GT查询24.556.9KGT534.5(+10.0)50.5(-6.4)表4:在50%KG设置中,在ComplexWe-bQuestions(CWQ)和WebObjectiveSP(WQSP)数据集上的命中@1(增益对GT查询)。基线结果来自Ren etal. (2021年)。对于WQSP,我们使用与基线相同的KG,而对于CWQ,我们使用稍硬的更多详情请参见§4.5对于KGQA,我们比较了几种方法,这些方法已被证明可以在不完整的KG上实现QA上的SOTA 。 这 些 包 括 拉 网 ( Sun et al. ,2019a ) , EmQL ( Sun et al. , 2021 ) 、EmbedKGQA(Saxena et al. ,2020)和LEGO(Ren et al. ,2021年)。此外,对于MetaQA数据集,我们将其与关系路径查找基线进行了比较,我们称之为PathPred。这个简单的方法使用从训练集中的QA对获得的远程监督数据将NL问题映射到关系路径10KGT 5-PP-Ens. 76.0 ( +8.3 )65.4 ( +16.7 )76.6(+32.2)表5:50% KG设置下MetaQA上的命中率@1(增益与 GT 查 询 ) 。 基 线 结 果 来 自 Ren et al. ( 2021年)。有两个地面实况查询(GT查询)行,因为基线模型使用的KG与我们的不同。KGT 5-PP-Ens.是KGT 5-PathPred系综模型。更多详情请参见§4.5对于10k步,验证精度没有显著增加。12对于推断,我们使用采样大小= 500用于链路预测,并且使用波束大小= 4用于KGQA。我们进一步对KGQA进行了基于邻域的重新排序:给定问题q、来自问题e的主题实体、预测的答案实体a和预测的实体pa的(log)概率,我们计算a的得分为4.3实验装置在我们所有的主要实验中,我们使用了一个模型,score(a)=pa+α ifa∈ N(e)=pa否则(一)与T5-small(60 M参数)相同的架构,但没有预先训练的权重。对于去kenizing序列,我们使 用 SentencePiece ( Kudo 和 Richardson ,2018 ) 库 在 言 语 化 的 KG 上 训 练 了 BPEtokenizer(见表1)。1用于标记器统计)。我 们 使 用 AdaFactor ( Shazeer 和 Stern ,2018),具有用于链接预测训练的学习率预热时间表,批量大小为320,辍学率为10%。我们 采 用 了 与 Roberts 等 人 相 同 的 程 序 。(2020)对于QA微调-我们将批次大小减半,并将学习率固定为0.001。所有实验均使用4个Nvidia 1080Ti GPU 进 行 , 模 型 使 用HuggingFace库(Wolf et al. ,2019)。我们没有对KGT 5进行特定于机器人的超参数调整,并且在所有实验中使用相同的架构、批量大小、辍学率和学习率时间表11所有模型都经过训练,10请参阅附录D了解PathPred的详细信息。11MetaQA的词汇量为10k,而30k用于其他数据集。这是为了训练模型1跳2-跳三跳GT查询63.345.845.3PullNet65.1(+1.8)52.1(+6.3)59.7(+14.4)EmbedKGQA70.6(+7.3)54.3(+8.5)53.5(+8.2)EmQL63.8(+0.5)47.6(+1.8)48.1(+2.8)乐高69.3(+6.0)57.8(+12.0)63.8(+18.5)GT查询67.748.744.4+v:mala2277获取更多论文N∼12∼∼其中α是恒定超参数,并且(e)是主题实体的n跳邻域(n= 1、2或3)。仅对数据集其中主题实体注释可用作测试问题的一部分4.4使用KGT 5进行选项卡. 3显示了WikiKG90Mv2上的链接预测性能,WikiKG90Mv2是可用的最大的基准KG之一在这里,我们比较了TransE,Com-plEx及其变体。*-MPNet和 *-concat方法使用文本嵌入作为实体表示的一部分,并对与KGT 5相同的文本数据进行操作。KGT5在验证集上实现了最高的MRR,同时具有比排行榜上下一个表现最好的模型13在这么小的KG上使用大型幼儿园(WD5M、W90M)为500万步,小型幼儿园为50万步,QA微调为3万步[13]OGB-LSC的作者没有为我们提供隐藏测试集的分数,因为我们使用了数据集提供的实体提及这些实体提到了+v:mala2277获取更多论文型号WQSP→→≤→→选项卡. 2显示了Wikidata5M上的链接预测性能,这是一个较小但研究得更好的KG。我们看到KGT 5在所有指标上都优于所有低参数计数模型。与大型ComplexEx模型相比,MRR下降了0.008点,命中率增加了0.012点。我们根据Wikidata5M的查询类型对模型预测进行了更细粒度的分析(Tab. 13在附录中)。我们发现KGT 5擅长回答在训练集中没有或只有少数正确答案的查询;当多个实体可以正确回答查询时,性能会下降。这可能是由于抽样的性质:低概率序列更难抽样,也更难正确排名。此外,有限抽样(§3.3)甚至可能无法提供正确答案 如果存在比采样答案基 于 这 些 观 察 结 果 , 我 们 创 建 了 一 个Complex和KGT 5的集合,其回答查询如下:如果查询在火车KG中没有答案,则使用KGT5;否则使用Complex(614 M)。如Tab中所示2,通过这个简单的规则创建的集合优于所有其他单个模型,并在Wikidata5M上达到了最先进的水平。[14,15]这样的集合既没有达到可扩展性的目标,也没有实现多功能性,而是作为一种消融来指出KGT 5的弱点选项卡.附录中的图10示出了具有150k实体的KG上的链路预测性能。在这里,KGT 5有时会落后于基线;众所周知,当数据稀缺时,trans-former模型会遇到困难,这可能是这些小数据集性能不佳的原因。4.5使用KGT 5由于缺乏公共KG分裂,我们使用增益超过地面实况查询模型比较了KGQA方法,该模型可用于两种比较方法(来自Ren et al. #20201;我们的方法。16标签。4显示在基于Freebase的数据集上的hits@1性能现在已被删除;我们在我们的资源网站上提供它们的再现性。14在这个集合中,KGT 5被用来回答42%的查询;其余的由ComplEx回答。15 据 我 们 所 知 ,在 Wikidata5M 是 由 Kochsiek 和Gemulla(2021)在Tab. 二、16关于我们使用的KG与基线相比的详细信息,请参见表1。14个。MetaQA1跳2跳3跳KGT5 75.036.264.4五十点五−重新排序73.135.863.3四十七点二表6:邻域重排序对具有50%KG的KGQA的影响。报告的数字为hits@1。WEB WEB SP。在这两个数据集上,KGT 5的表现优于所有基线。ComplexWebQuestions的收益最大,就复杂性和KG大小而言,它是最难的数据集。选项卡. 5显示了MetaQA数据集上的hits@1性能。在MetaQA 1跳和3跳上,KGT 5等于或优于所有基线(就增益而言然而,在MetaQA2-hop上,性能与基线相比明显更差,甚至比地面实况查询更差。我们对KGT 5在不同问题类型上的性能进行了更细粒度的分析(表1)。15-16 在附录中)。我们发现KGT5的表现在头部和答案实体是相同类型的问题上受到最大影响(例如演员电影演员问题)。这些问题类型在1跳和3跳数据集中不存在。当头部和答案实体具有不同的类型(例如,导演电影语言问题)时,KGT 5能够比GT查询更好地回答它们。为了解决这个问题并创建更忠实于不完整KG中存在的知识的模型,我们设计了KGT 5与PathPred基线的集成。集成的工作原理如下:给定一个问题q,尝试使用PathPred回答它。如果这返回一个空集,则使用KGT 5。该集成在所有MetaQA数据集上的表现优于所有单个模型,通常是大幅度的(表1)。5)。此外,我们进行了消融,以研究邻域重新排序对KGQA性能的影响(表1)。(六)。我们发现,重新排序在所有数据集上都有小但一致的收益。4.6与知识探索的知识探测工作,如LAMA(Petroniet al. ,2019年)旨在回答以下问题:在具有语言建模对象的通用文本语料库上预训练的模型(例如BERT)可以用作知识库吗?在我们的例子中,模型已经用链接预测目标进行了显式训练,并且知识探测器已经被用于预测链接。+v:mala2277获取更多论文方法WQSPCWQT5-small + QA微调31.327.1KGT 5(50% KG预训练)50.534.5KGT5(全KG预培训)56.136.5EmbedKGQA66.6-CBR-KGQA(Das et al. ,2021b)73.170.4表7:全KG KGQA设置中的命中率@1。详情请参见§4.8。模型测试MRR列车MRR Params复杂0.3080.721614MKGT50.3000.30460M表8:Wikidata5M上链接预测的训练与测试性能。详情请参见§4.8实验将类似于检查每个链路预测的训练集(这在第4.8节)。此外,我们并不认为KGT 5和大型LM一样通用,或者它包含通用的世界知识。因此,我们不对诸如T-Rex或Google-RE(Petroni et al. ,2019)。4.7KG vs LM预训练我们分析了通用语料库预训练与KG链接预测训练在KGQA任务中的表现 我们与T5-small(Raffel et al. ,2020年),它具有与KGT 5相同的架构,但对混合任务进行了预训练,最明显的是对Web文本的语言建模。从Tab 7我们看到KGT 5大大优于T5-small。这并不奇怪:KGT 5预训练的数据是针对执行的任务然而,这表明,正是链接预测预训练导致了KGT 5出色的KGQA性能。4.8限制完整KG问题分类。选项卡.在全KG设置中,7次与50% KG相比,KGT 5在完全KG上进行预训练时性能仅略有提高,并且远远落后于EmbedKGQA(基于ComplEx的方法)以 及CBR-KGQA ( 使 用 ( NL 查 询 , SPARQL 查询)并行数据的语义解析方法)。这表明,虽然KGT 5擅长概括看不见的事实,但它可能不擅长记忆事实。列车集链路预测性能进一步支持了这一点KGT 5(Tab.)8);尽管Complex 5和KGT 5具有相当的测试MRR,但Complex 5的训练MRR明显更好。一种可能的解释是,KGT 5的模型容量减少(只有60 M个参数),不允许它记住预训练期间看到的因此,我们建议不要将KGT5作为一个独立的KGQA方法使用,它应该只在查询解析没有产生好的结果时使用。使用文本提及。由于KGT5需要每个实体的文本表示,因此它不能直接应用于所有KG,并且特别不适合包含CVT节点作为实体的KG(例如,完整的此外,在比较使用实体名称/描述的模型与不使用实体名称/描述的模型时,必须小心。在我们的实验中,我们注意到WikiKG90Mv2中有很大一部分验证三元组只需要文本处理(例如,),我们发现在WN18RR中使用定义时存在一些潜在数据泄漏的情况(例如,<树蛙科-两栖类树蛙科,上位目,两栖类>)。然而,从实际的角度来看,可以利用文本数据的模型可能更有优势,并且在应用之前必须评估技术的利弊。5结论和今后的工作我们已经表明,KG链接预测和问题回答可以被视为seq 2seq任务,并成功地解决了一个单一的编码器-解码器Transformer模型。我们通过在链接预测任务上训练一个与T5- small具有相同架构的trans-former模型,然后在QA任务上对其进行微调来做到这一点这种简单但强大的方法,我们称之为KGT 5,在大型KG上完成KG的最新方法中 关于KGQA的任务在不完整的知识库上,我们发现我们的统一方法在多个大规模基准数据集上的表现优于基线。此外,我们将语言建模预训练与KG链接预测训练相结合,发现对于知识密集型任务(如KGQA),链接预测训练可能更有益。未来探索+v:mala2277获取更多论文将是看看KG链接预测训练是否可以被视为训练大型seq2seq模型时的额外预训练目标此外,模型大小的影响,以及更大的Transformer模型是否确实可以存储更多的关系信息,都应该进行调查。引用汉娜·巴斯特和埃尔玛·奥斯曼2015. 更准确的问题回答自由基。在第24届ACM国际
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功