基于链接预测的文本实体表示学习在知识图应用中的多任务泛化能力

147 浏览量更新于2023-11-30 收藏 839KB PDF 举报

链接预测

机器学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

798基于链接预测的文本归纳实体表示丹尼尔·达扎阿姆斯特丹自由大学阿姆斯特丹大学探索实验室，爱思唯尔阿姆斯特丹，荷兰d. vu.nl摘要迈克尔·科切斯荷兰chez@vu.nlm.co自由大学探索实验室，爱思唯尔阿姆斯特丹www.example.comwww.example.com关键词Paul Groth阿姆斯特丹大学发现实验室，爱思唯尔荷兰阿姆斯特丹p.groth@uva.nl知识图在信息检索、推荐系统、元数据标注等网络应用中具有重要的意义。无论它们是由领域专家手动构建的还是使用自动管道构建的，KG通常都是不完整的。为了解决这个问题，有大量的工作提出使用机器学习来通过预测新的链接来完成这些图。最近的工作已经开始探索使用知识图中可用的文本描述来学习实体的矢量表示，以便进行链接预测。然而，这些表示学习链接预测推广到其他任务的程度尚不清楚。考虑到学习这种表示的成本，这一点很重要。理想情况下，我们更喜欢在转移到不同任务时不需要再次训练的表征，同时保持合理的性能。因此，在这项工作中，我们提出了一个整体的评估协议，通过链接预测目标学习的实体表示。我们考虑了归纳链接预测和实体分类任务，这些任务涉及在训练过程中看不到的实体我们还考虑sider面向实体搜索的信息检索任务我们评估了一个基于预训练语言模型的架构，该架构对训练过程中未观察到的实体表现出很强的泛化能力，并且优于相关的最先进的方法（平均链接预测的MRR提高了22%）。我们进一步提供的证据表明，学到的表征转移到其他任务，而无需微调。在实体分类任务中，与采用预训练模型的基线相比，我们获得了平均16%的准确性提高。在信息检索任务中，我们在NDCG@10中获得了高达8.8%的自然语言查询的显着改进。因此，我们表明，学习表示不限于KG特定的任务，并具有更大的泛化性能比以前的工作中评估。CCS概念• 计算方法学→统计关系学习;·信息系统→信息检索。本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3450141知识图，实体表示，链接预测，实体分类，信息检索ACM参考格式：丹尼尔·达扎迈克尔·科切兹和保罗·格罗斯2021年通过链接预测从文本中归纳实体表示。2021年网络会议（WWW '21），2021年4月19日至23日，斯洛文尼亚卢布尔雅那。 ACM ，美国纽约州纽约市， 11 页。https://doi.org/10.1145/3442381.34501411引言知识图提供了一种结构化的方式，以实体和它们之间的关系的形式表示信息[12]。它们已经成为Web中各种任务的核心，包括信息检索[6，13]，问答[19，43]和信息提取[4，14，26]。这些任务中的许多可以受益于实体和关系的分布式表示，也称为嵌入。KG中表示学习的大量工作[28，45]是基于链接预测目标的优化，这导致在向量空间中建模关系的嵌入这些方法通常被吹捧为在不完整KG中进行推理的基于逻辑的系统的替代方案，因为它们可以为缺失的链接分配分数[10，15]它们也被提出用于实现语义Web的近似推理形式[18]。然而，通过设计，这些方法中的一些只能计算涉及在训练期间观察到的实体的预测。这导致当应用于真实世界时，方法失败，动态图中不断添加新的实体。为了克服这一挑战，我们希望利用幼儿园内的文本信息像YAGO [38]，DBpedia [1]和行业部署的KG [9，30]这样的KG包含关于实体的丰富文本属性，例如名称，日期和描述[12]。因此，似乎有理由假设，对于现实世界的应用程序，属性数据，如实体描述是现成的。从这个角度来看，将KG仅仅视为节点和标记链接的集合的方法不必要地丢弃了有价值的信息源。以前的工作已经提出使用文本去重来学习实体表示[37，46，50，52]，这导致了一种更灵活的方法，因为实体表示是根据其文本描述计算的，因此即使对于在训练期间未观察到的实体也可以获得。不幸的是，这些作品中的评估协议主要集中在链接预测的任务上，而没有探索这种灵活方法的其他潜在结果。寻求具有良好概括性的表示的动机是，它们可以应用于各种环境，WWWDaniel Daza、Michael Cochez和Paul Groth799链接预测实体分类谁创立了Intel？编码器相似性位置1英特尔2阿夫拉姆·米勒3格伦福德·迈尔斯2相关工作KG中的表示学习文献中的多种方法提出学习KG中每个实体和关系的嵌入。众所周知的例子包括RESCAL [29]，TransE [2]和DistMult [51]等[28，45]。虽然链接预测任务的最新技术不断改进[35]，但大多数模型本质上都是学习实体和关系的嵌入查找表，因此它们不适用于向图中添加新实体的场景。避免这个问题的一个自然的方法是训练实体编码器，它对实体属性的向量进行操作这样的编码器已经使用前馈和图形神经网络来实现[5，16，23，36]。虽然它们可以为新实体生成表示，但它们需要在训练之前固定一组属性（例如，词袋或数字属性），从而限制应用领域。此外，如最近提出的归纳方法[40]，它们只能产生新实体的表示，使用它们与现有实体的，这不适合归纳链接预测，特别是在具有挑战性的环境中，英特尔公司是一家美国跨国公司...编码器信息检索在训练中没有看到最近的工作已经探索了使用实体和关系的文本描述进行链接预测，并且提出了在给定关系和实体的描述的情况下分配分数的架构图1：我们的工作概述：使用实体描述，在知识图中训练实体编码器进行链接预测（顶部）。我们表明，编码器可以在不进行微调的情况下使用，以获得实体分类（中间）和信息检索（底部）的信息特征没有明确的训练，同时保持合理的性能。这避免了在面临新任务时必须在数据收集、标签和微调方面投入更多资源因此，在这项工作中，我们感兴趣的是以下研究问题：通过链接预测目标学习的实体表示的泛化特性是什么？我们为回答这个问题所做的工作产生了以下贡献：(1) 我们提出使用预训练的语言模型通过链接预测目标来学习实体的表示并结合四种不同的关系模型来研究其性能。(2) 我们提出了一个整体评估框架的实体表示，其中包括链接预测，实体分类，和信息检索。(3) 我们提供的证据表明，基于预训练语言模型的实体表示在所有任务中都表现出很强的泛化特性，优于最先进的技术，因此不限于KG特定的任务。本文的其余部分组织如下。第二节讨论了相关的工作。在第3节中，我们介绍了学习归纳实体表示的必要性，并鼓励使用预训练的语言模型来完成任务。在第4中，我们描述了上述三个任务的实验和结果最后，我们总结并强调了未来的工作方向参与其中[37，52]。然而，这些架构同时将实体和关系的描述作为输入，并输出分数。这不可避免地混合了实体和关系表示，并防止它们转移到其他任务，如实体分类和信息检索。与我们的工作最接近的方法是基于训练具有链接预测目标的实体编码器的想法 DKRL [50] 由编码描述的卷积神经网络（CNN）组成。该方法没有考虑停用词，丢弃了实体描述中的部分语义，性能受到限制。此外，它的CNN架构落后于自然语言处理神经网络的最新发展，例如自我注意[44]。使用自我注意力的预训练语言模型，如BERT [8]已被证明可以有效地使用分布式表示来捕获文本之间的相似性[33，49]。在KE-PLER [46]中，作者提出了一种使用BERT作为实体编码器的模型，该模型使用结合语言建模和链接预测的目标进行训练。语言建模目标转化为增加的训练时间、计算资源以及对具有长实体描述的大型语料库的需求，所述长实体描述多达512个标记。在我们的工作中，我们建议使用专门针对链接预测训练的预训练语言模型，并以降低的计算成本获得显着的改进DKRL和KEPLER的评估协议包含我们在这里解决的两个基本问题首先，这些方法是用一个翻译关系模型实现的[2]。然而，原则上，这不一定是任何描述编码器的最佳模型，因此如果其他模型，如乘法交互模型[42，51]，更适合，这仍然是一个悬而未决的问题。我们通过在实验中考虑四种不同的关系模型来解决这个问题，并表明模型的选择确实很重要。地球是太阳系的第三颗行星。这是...编码器嵌入评分太阳是太阳系中心的恒星它...编码器地球是太阳系的第三颗行星。这是...编码器分类器基于链接预测的文本归纳实体表示WWW800（）下一页···∥ ·∥（）∈n∈ R.（）下一页（）下一页不（）∈ T（）下一页∈L（）E（）下一页Tk∈ ∈ R1Re（ei，rj，e<$k）（）∈ T.表 1 ：针对 TransE [2] 、 DistMult [51] 、 ComplEx [42] 和SimpleE [22]提出的三元组评分函数示例。对于一个三元组ei，rj，ek，我们把它的成分的嵌入记为 ei，rj和ek（在Simplex中，这些成分有两个部分，我们用指数表示p表示p-范数;、、、是广义三向点积;Re是一个复数的实部;和e<$k是复值向量ek的复共轭。模型函数transE −ei+rj−ekpDistMultei，rj，ek因此，通过设计，对于在训练期间未看到的实体，在测试时的预测是不可能的。我们可以通过利用实体描述中存在的统计规则来规避这一限制[37，46，47，50]。这可以通过指定参数实体编码器fθ来实现，该编码器将实体的描述 dei 映射到充当实体嵌入的向量ei=fθdeiRd。然后，通过优化实体编码器的参数θ和关系嵌入r jrj，使用特定的得分和损失函数，照常执行学习算法。这个过程允许编码器学习归纳实体表示，因为它可以嵌入在训练过程中看不到的实体，只要它们有相关的描述。复单2ei1，rj 1，ek13.1BERT用于实体描述Transformer网络[44]已被证明是强大的编码器，可以将文本序列映射到上下文向量，其中其次，对这些著作中概括性评价的局限性。在DKRL中，实体表示在有限的归纳链接预测设置中进行评估，并且在实体分类任务中，测试集中的实体也用于训练。在KEPLER中，作者只考虑了链接预测任务。在我们的工作中，我们详细介绍了一个更广泛的评估框架，解决这些问题，包括两个不同的配方的归纳设置链接预测。3归纳实体表示我们将具有实体描述的知识图定义为元组G=（E，R，T，D），其由实体E、关系类型R、三元组T和实体描述D的集合组成。T中的每个三元组具有形式（ei，rj，ek），其中ei∈ E是三元组的头实体，ek∈ E是尾实体，而rj∈ R是关系类型。对于每个实体ei∈ E，存在描述dei =（w1，. . . ，wn）∈ D，其中所有wi都是每个向量包含上下文中关于单词的信息[11]。此外，像BERT [8]这样的预先训练的语言模型已经用大量文本进行了优化，允许对编码器进行微调，以用于从预训练步骤中受益的不同任务在我们的方法中，我们选择BERT作为实体编码器，但其他基于Transformers的预训练模型也同样适用。请注意，与DKRL [50]不同，这个实体编码器非常适合自然语言的输入，而不是已经删除停止词的处理输入。我们希望接受原始输入有助于编码器更好地捕获学习更多内容所需的语义信息实体表示。给定实体描述dei = w1，. . . ，wn，编码器首先将特殊令牌[CLS]和[SEP]分别添加到描述的开头和结尾，使得BERT的输入是序列d_[CLS]，w1，. . . ，wn，[SEP]. 输出是n+2个上下文化嵌入的序列，包括词汇表中的单词对应于所添加的特殊令牌：D对于实体ei∈ E，我们将其嵌入表示为向量ei∈R，类似地，对于关系rj∈R的嵌入，rj∈ Rd，其中BERT（d）=（h ，h，. . . ，h，h）的。（二更）d是嵌入空间的维数我们考虑了图中实体和关系的嵌入的优化问题eiCLS1nSep通过链接预测，使得评分函数SE i，R j，E k将高分数分配给所有观察到的三元组SEi，Rj，Ek，并且将低分数分配给不入的三元组。这可以通过最小化损失函数来实现，例如基于保证金的损失[2，3]，max（0，1−s（e，r，e）s（e′，r，e′）），（1）与使用BERT表示文本的作品类似[33，46]，我们选择上下文化向量hCLS Rh，其中h是BERT的隐藏大小。然后，该向量通过一个线性层，该线性层降低了表示的维度，产生输出实体嵌入ei=WhCLS，其中W∈Rd×h（ei，rj，ek）∈T我JK+我JK是一个参数。对于关系嵌入，我们使用随机初始化的向量其中，reei′和ek′是一个不可观测的可测三元组ei′，rj，e′g的表示。其他合适的损失函数包括二进制和多类交叉熵[21，42]。一般来说，对于KG中的每个三元组，这些损失函数可以写成sp，sn的形式，对于正三元组，作为分数sp的函数，对于负三元组，作为分数sn我们在表1中列出了文献中提出的一些评分函数。之前的优化目标在知识图中的表示学习的转换方法中很普遍[28，35，45]，这些方法仅限于学习固定集合中实体的表示。在这些方法中，实体和关系嵌入在遍历观察到的三元组时进行优化rjRd，对于每个rj。然后，我们应用随机梯度下降来优化链接预测的模型：对于每个正三元组ei，rj，ek ，我们计算一个正分数sp。通过用一个随机实体替换头部或尾部，我们得到一个损坏的负三元组，我们计算得分sn。损耗是作为sp和sn的函数计算的。这种方法是相当普遍的，并承认不同的损失和评分功能。完整的过程在算法1中给出。请注意，我们提出的算法与KEPLER [46]有根本的不同，KEPLER [46]使用额外的语言建模目标进行训练，计算成本更高，并且需要更多的训练数据。WWWDaniel Daza、Michael Cochez和Paul Groth801（英、俄、德）∈ E∈∈（）下一页（）∈→（|不| ）的方式（）下一页T（）不E（）REURRTTE E（E） R 不D）E算法1：通过链接预测学习归纳实体表示输入：知识图，具有参数θ、学习率η、评分函数s、损失函数L的实体编码器fθrj：←对每个rj∈ R随机初始化;（ei′，rj，ek′）←corrupt（ei，rj，ek）;sp←s（fθ（dei），rj，fθ（dek））;sn←s（fθ（dei′），rj，fθ（dek′））;端表2：链接预测任务中使用的数据集的统计。WN18RRFB15k-237Wikidata5M关系11237822培训验证实体4,0941,4547,374三元组11,38142,1646,6993.2计算复杂度算法1中的成本的很大一部分来自实体编码器。使用BERT编码长度为n的序列的复杂度为O n2，因此训练的时间复杂度为O n2。在实践中，可以选择一个固定的n值（例如在我们的实验为32或64），所以如果我们认为它对所有实体都是相等的，那么算法相对于图中的三元组的数量保持线性，直到一个常数因子。在测试时，可以预先计算所有实体的嵌入在这种情况下，给定实体和关系的链接预测在图中的实体数量上是线性的，并且实体编码器仅应用于新实体。3.3理论动因通过将图中的关系表示为三阶张量Y ∈ {0，1}，已经提出了用于对KG中的关系进行建模的多个模型作为因子分解的形式[ 24，28 ]。|E |×| R |×|E|其中，如果（ei，rj，ek）∈ T，则条目yijk = 1，否则yijk= 0。对于每个rj∈ R，ER jE是Y的张量分解，其中ER| E| ×d和RjRd×d，E的第i行包含嵌入ei。为这种分解优化的模型的示例是RESCAL [29]，DistMult [51]，ComplEx[42]和SimpleE [22]。对于实体描述dei=w1，. . .，wn，设W ei Rd×n是一个词嵌入矩阵，其中词wj嵌入在第j列. 用一个实体编码器因此需要正确地将Wei映射到ei在E中的嵌入。在最近的一项研究中，Yun et al.[53]证明了变换器是具有紧支集1<$：Rd×n的连续函数的通用逼近器 Rd.因此，如果存在这样一个函数，使得Transformer可以近似对应的张量分解。虽然这个功能的存在并不明显，但它进一步激发了对在KG中使用BERT进行实体嵌入的实证研究4使用实体编码器来获得实体表示是一种更灵活的方法，不仅对链接有用，预测，但是用于可以受益于作为实体的文本描述的函数的向量表示的其他任务为了更好地探索这种方法的潜力，我们提出了一个评估框架，包括归纳链接预测，归纳实体分类，面向实体的搜索和信息检索我们提出的编码器在第3中提出的结果，并与最近提出的方法为每个任务进行比较我们的实现和我们使用的所有数据集都是公开的2。(1)链接预测链接预测模型可以通过排名程序[3]进行评估，使用来自训练三元组集合的三元组不相交的测试集对于测试三元组ei，rj，ek，通过在一组不正确的候选项中将ek替换为实体e k来评估尾部的预测，并且score e被计算为ei，rj，ek。理想情况下，所有不正确的候选人的分数应低于正确的三分之一的分数。类似地评估头部的预测通过替换Ei。在转换设置中，假设测试三元组中的实体在训练实体的集合中。此外，不正确候选者的集合与训练实体的集合相同在归纳设置中，我们考虑一个测试图'，’。三元组和的集合是不相交的，对于关系，我们总是假设。根据确定不正确候选项集合E的方式，我们定义了两种归纳评估场景：动态评价。在一个测试三元组中，一个新的实体可能出现在头、尾或两个位置。不正确的候选集是训练实体和测试实体的联合。这表示新实体被添加到KG中的情况，并且由于测试时的不正确候选集比训练时的更1他们的结果是针对值域为Rd×n的函数给出的，但这里我们陈述一个特殊的我们从输出中选择一列的情况2https://github.com/dfdazac/blpθ←θ−η<$θL（sp，sn）测试返回θ实体4,0941,4547,475三元组12,08752,8706,894θ={θ}{rj|};实体32,75511,6334,579,609对于（ei，rj，ek）∈ T，三元组69,585215,08220,496,514基于链接预测的文本归纳实体表示WWW802EE EE//E转移评估。在测试三元组中，头和尾位置的实体都是新的，并且不正确的候选项的集合是”，其中与实体的训练集不相交 . 这表示我们希望在实体子集内执行链接预测的设置，该设置在训练期间未观察到。例如，当将训练模型转移到新实体的特定子域时，这种情况是有意义的我们认为这两种情况都与不完整KG中的链接预测任务高度相关，而以前的工作只考虑其中一个[46，50]。4.1.1实验数据集。我们使用FB 15 k-237 [41]和WN 18 RR [7]，这是链接预测文献中广泛使用的数据集为了获得实体描述，我们采用姚等人提供[52]. FB 15 k-237是Freebase的一个子集，其中大多数实体对应于人物，电影，奖项和运动队。从每个实体的维基百科页面的介绍部分获得描述。在WN18RR中，每个实体都对应一个词义，而描述就是它们的定义。而不是使用传统的分裂用于这些数据集，我们实现了一个动态的评估方案。我们选择10%的实体及其相关的三元组来形成测试图，10%用于验证，其余80%用于训练。在测试时，所有实体都被用作不正确的候选项。对于这些数据集，我们选择实体描述的最大长度为32个标记。之所以选择这个值，是因为使用更多的token并没有带来显着的改进，同时单调地增加了训练所需的时间（我们在附录C中包含了这些结果的详细信息）。[20，32]，我们还考虑使用上下文不敏感BERT嵌入（BE）的基线的变体我们将它们表示为BE-DKRL和BE-BOW。对于所有模型，我们使用FB 15 k-237运行网格搜索，并选择验证集上性能最好的超参数。我们重用这些超参数来训练WN18RR和Wikidata5M，因为我们发现它们在这些数据集上表现良好。对于BLP模型，在网格搜索中，我们考虑以下损失函数：{margin，负对数似然}，学习率：{1e-5，2e-5，5e-5}，L2正则化系数：{0，1e-2，1e-3}。我们使用Adam优化器，学习率衰减时间表，预热总迭代次数的20%。我们使用WN 18 RR和FB 15 k-237训练了40个epoch ，批量大小为64，使用Wikidata 5 M训练了5 个epoch，批量大小为1，024对于 BOW 和 DKRL 基线，网格搜索的值如下：我们使用Adam，没有学习率计划，我们使用WN 18 RR和FB 15 k-237训练了80个epoch，批量大小为64，使用Wikidata 5 M训练了10个epoch，在所有实验中，阴性样品的数量为64指标. 给定一个正确的三元组的分数，以及通过用一个不正确的候选者替换三元组的头部而获得的相应的一组负分数，我们对它们进行排序以获得一个排名列表。设rth为正确三元组在秩中的位置则reciprocal秩为1rth。通过替换尾部来重复该过程，以获得倒数秩1rtt。Mean ReciprocalRank是这两个值的平均值，在知识图谱中的所有三元组中取平均值：对于转移评估，我们在Wikidata5M上展示了结果与Wang等人提供的分裂[46]第46段。图是一个子集MRR= 1 .一、.1+1（三）维基数据，包含460万个实体，t∈T Rthrtt维基百科的介绍部分为了进一步测试我们的方法的可扩展性，我们将描述长度增加到64个标记。数据集统计见表2。实验装置。根据3.1小节中的定义，我们使用Transformers库中的BERT配置实现了一个实体编码器[48]，然后是一个具有128个输出单元的线性层。我们研究了我们的方法的性能结合四个关系模型：transE，DistMult，ComplEx，和简单。我们的目标是涵盖早期的平移和乘法模型（即transE和DistMult）以及最近的模型，这些模型已被证明可以实现最先进的链路预测性能[35]（即：COMPLEX和SIMPLE）。我们将得到的模型表示为BERT for Link Prediction（BLP），然后是所采用的关系模型（例如，BLP-TransE）。作为一个基线，我们认为DKRL，提出谢等人。[50]. 在我们的DKRL实现中，我们使用GloVe嵌入[31]，输入维度为300，输出维度为128。我们还重现了他们的词袋（BOW）基线，其中实体被编码为描述中单词嵌入的平均值我们将这些模型分别表示为GloVe-DKRL和GloVe-BOW。以下是BERT输入层静态嵌入的性质和应用的最新工作通过对正确的三元组出现在位置1处的次数进行计数，并对MRR进行平均，获得1度量处的命中（H@1） H@3和H@10的计算类似，分别考虑前3个和前10个位置。当对给定三元组的候选项进行评分时，我们考虑过滤设置[2]，其中对于每个三元组，我们认为集合中的所有实体都是不正确的候选项，减去根据训练集，验证集和测试集将导致正确三元组的实体。有关数据集和训练的更具体的技术细节，我们请读者参阅附录A和B。4.1.2结果我们在表3中的测试集上报告了平均倒数秩（MRR）以及1、3和10处的命中。作为参考，我们还显示了Wang等人报道的结果。[46]第四十六话我们观察到，在动态评估（WN18 RR和FB 15 k-237）和转移评估（Wikidata 5 M）中，BLP-TransE在所有指标上始终优于所有基线。我们注意到，与WN 18 RR和FB 15 k-237中的DistMult、ComplEx和SimpleTM等替代方案相比，TransE导致BLP的链接预测性能更高。ComplEx和Simple提高了Wikidata5M的性能，其中包含大约两个数量级的三元组用于训练。这表明，当与BERT一起用于链接预测时，更精细的关系模型与TransE的数据效率可能较低我们2|不|WWWDaniel Daza、Michael Cochez和Paul Groth803表3：涉及在训练期间未看到的实体的链接预测的过滤度量的结果我们使用WN 18 RR和FB 15 k- 237进行动态评估，并使用Wikidata 5 M进行传输评估（更多详细信息请参阅文本）。Wang等人报告了KEPLER的结果。[46]第46段。WN18RR FB15k-237 Wikidata5M方法MRRH@1H@3H@10MRRH@1H@3H@10MRRH@1H@3H@10GloVe-BOW0.1700.0550.2150.4050.1720.0990.1880.3160.3430.0920.5310.756BE-BOW0.1800.0450.2440.4500.1730.1030.1840.3160.3620.0820.5860.798GloVe-DKRL0.1150.0310.1410.2820.1120.0620.1110.2110.2820.0770.4030.660BE-DKRL0.1390.0480.1690.3200.1440.0840.1510.2630.3220.0970.4740.720开普勒––––––––0.4020.2220.5140.730BLP-TransE0.2850.1350.3610.5800.1950.1130.2130.3630.4780.2410.6600.871BLP-DistMult 0.2480.1350.2880.4810.1460.0760.1560.2860.4720.2420.6460.869BLP-COMPLEX0.2610.1560.2970.4720.1480.0810.1540.2830.4890.2620.6640.877BLP-Simple0.2390.1440.2650.4350.1440.0770.1520.2740.4930.2890.6390.866注意，BLP-TransE和基线之间的性能差距在WN 18 RR中比在FB15 k-237中更大我们假设，WN 18 RR中的单词定义可能会有细微的语法变化，BERT编码器可以更好地捕获这些语法变化，而FB15 k-237中的实体可以更容易地通过关键字识别，因此忽略语法不会导致性能大幅下降。有趣的是，我们观察到，在Wikidata5M中，KEPLER尽管使用了结合语言建模和链接预测的联合训练目标，但性能较低。虽然有人认为这样的目标会提高性能[46]，但我们在这里观察到情况并非如此：当仅使用链路预测目标时，所有BLP变体都优于KEPLER，这也会导致训练期间的计算成本降低。尽管我们尽了最大的努力，我们还是找不到一个DKRL模型，0.2000.1750.1500.1250.1000.0750.0500.0250.000BLP-TransEBE-BOW600070008000900010000 11000培训实体性能优于BOW模型。这是令人惊讶的，因为与DKRL不同，BOW模型不考虑词序。有趣的是，对于BOW和DKRL，BE模型始终比使用 GloVe 嵌入的模型产生更好的结果，而由于使用WordPiece嵌入，BE模型使用的参数减少了80%。这可以归因于用于预训练嵌入的数据的差异，但更重要的是，嵌入的大小：BERT和GloVe嵌入的大小分别为768和300，这转化为BE模型中虽然GloVe使用每个单词一个嵌入，词汇量为400，000，但BE模型使用单词段嵌入，词汇量为30，000。这意味着与GloVe模型相比，BE模型能够减少80%的参数数量，同时获得更好的链路预测性能。训练集大小的影响我们考虑的归纳设置中的一个重要问题是：在训练期间看到的实体数量对固定测试集上的性能有什么影响？为了回答这个问题，我们使用FB 15 k-237和相同的测试集，以及样本子集来训练越来越多的实体。我们评估了BE-BOW和BLP-TransE的MRR结果如图2所示。我们注意到，实体数量减少50%会导致MRR减少约27%。这些百分比之间的不匹配表明BE-BOW中的预训练嵌入和BLP-TransE的架构允许图2：归纳链路预测性能（MRR）与用于训练的实体数量的关系。它们在减少训练集的大小时保持性能图2还更详细地揭示了BE-BOW和BLP-TransE之间的恒定间隙由于这两种方法共享相同的预训练机制，因此在预训练期间使用的数据，我们将差异归因于BLP-TransE中使用的更强大的编码器以及它不需要丢弃停止字的事实。传导链路预测。从实体描述中学习的实体表示也可以应用于转换场景，其中在训练期间已经观察到测试时的所有实体。这对应于先前设计KG嵌入的转换方法的设置[2，3，22，42，51]，尽管它们不能应用于我们使用文本描述和自然语言的实验。作为参考，我们在附录D中包括了结果，其中我们注意到，转换方法明显优于基于描述的编码器。我们将此归因于描述编码器所面临的更具挑战性的问题：它们必须学习从单词到实体表示的复杂函数，而转换方法学习每个实体和关系都有一个嵌入的查找表但我们MRR804[客户端]通过链接预测从文本中归纳实体表示WWW强调基于描述的编码器的适用性要广泛得多，正如我们的工作所证明的那样。(2)实体分类表4：实体分类实验的准确度。原始值对应于准确度的常规定义在平衡的情况下（Bal.），每个样本用其真实类别的逆流行率加权一个好的描述编码器必须学会提取最多的信息-从实体的描述中提取实体的正面特征，并在实体嵌入中对其进行压缩我们通过使用为链接预测训练的实体的嵌入来测试此属性，作为逻辑回归分类器的特征。至关重要的是，我们保持归纳设置，保持链接预测实验的分裂。因此，在测试时，对实体编码器在训练期间没有看到的实体评估分类器4.2.1实验数据集。我们使用WN 18 RR和FB 15 k-237评估实体分类。在WN18RR中，我们使用词性作为实体的类，这导致总共4个类。对于FB 15 k-237，我们遵循类似于Xie等人的程序。[50]通过选择50种最常见的实体类型作为类。实验装置。使用实体嵌入作为特征，我们训练了一个多类逻辑回归分类器与L2正则化。正则化系数选自{1 e-4，1 e-3，1 e-2，0.1，1，10}，并且我们保持系数在验证集上产生最佳精度。我们还使用未明确训练用于链接预测的特征来训练分类器：在GloVe-avg 和BE-avg 中，我们分别使用GlovE 和上下文不敏感BERT嵌入的平均值。 SBERT [33]是一个基于BERT的模型，它被训练来学习句子的表示，我们将其应用于实体去重。我们使用他们公开的SBERT-NLI-base和SBERT-NLI-large变体的训练模型3。指标. 我们报告分类精度和平衡版本。平衡的准确性用真实类的逆流行度对每个样本进行加权，并且允许我们识别何时分类器在类间平均更好地工作，而不是在大多数类上表现更好。4.2.2结果我们在表4中列出了结果。我们观察到所有BLP模型训练的链接预测，这是特别明显的平衡精度时，性能大幅提高。这个指标的显著改进表明，嵌入是一种信息量更大的表示，允许分类器在数据很少的类上以及在训练期间看不到的实体上表现得更好。有趣的是，我们注意到，i）在大多数情况下，未训练用于链接预测的基线比BOW和DKRL基线表现更好，ii）SBERT模型仍然不如训练用于链接预测的BLP模型。我们的结论是，它是一个强大的BERT编码器和链接预测微调程序，产生更好的实体表示的组合。(3)信息检索一个实体可以与不同的描述相关联，这些描述可能是模糊的，不一定符合语法。为了评估实体编码器对这种可变性的鲁棒性，我们测试了它的3https://github.com/UKPLab/sentence-transformersWN18RR FB15k-238方法原巴尔原巴尔手套平均值90.355.382.035.0BE平均值92.762.182.439.4SBERT-NLI-碱96.366.584.536.6SBERT-NLI-大号96.367.183.835.1GloVe-BOW91.556.082.934.4BE-BOW93.360.783.128.3GloVe-DKRL91.255.581.126.6BE-DKRL90.048.881.630.9BLP-TransE99.181.585.442.5BLP-DistMult99.578.584.341.0BLP-COMPLEX99.378.185.138.1BLP-Simple99.283.085.845.7信息检索任务中的性能：给定关于实体的查询，返回按相关性排序的文档列表（实体描述）。4.3.1实验数据集。 DBpedia-Entity v2是Hasibi等人介绍的用于评估面向实体搜索的信息检索（IR）系统的数据集。[17]第10段。文档索引对应于DBpedia中实体的文本描述有467个查询，分为4种类型- SemSearch ES：简短和模糊的查询，例如。“john lennon，parents”;INEX-LD：关键字查询，例如“bicycle holiday nature”; List Search：寻找列表的查询，例如“Airports in Germany”;以及QALD-2：自然语言的问题，例如对于每个查询，都有一个由群组工作人员按相关性分级的文档列表。平均而言，每个查询有104个分级文档。实验装置。与以前关于信息检索嵌入的工作类似[13]，我们通过更新现有IR系统分配的文档分数列表（例如，BM 25）。设q是查询，de是文档中的文本，zIR是IR系统在给定q的情况下分配给de的分数。我们使用实体编码器fθ来计算查询和文档的嵌入之间的相似度，通过它们的内积：znew = α fθ（q）<$fθ（de）+（1 − α）zIR。（四）我们通过对Hasibi等人提供的数据的5个训练折叠中的每一个进行网格搜索来选择α的最佳值[17]，并报告平均测试折叠性能。对于网格，我们考虑在区间0，1中的20个均匀间隔的值，对于实体编码器，我们使用Wikidata5M为链接预测训练的模型。与实体分类一样，我们不对实体编码器进行微调。为了获得基础分数zIR，我们使用BM 25 F-CA [34]，因为它是Zhiltsov等人报告的DBpedia-Entity v2数据集上性能最好的方法之一[54].WWWDaniel Daza、Michael Cochez和Paul Groth805.IDCG@k表5：跨不同查询类型的信息检索任务的NDCG结果。我们显示了BM 25 F-CA的结果，然后是使用不同实体编码器重新排序后的结果。粗体值表示BM 25 F-CA与重新排序结果之间的差异具有统计学显著性（p <0.05）。<方法SemSearchES@10@100INEX-LD@ 10@ 100ListSearch@10@100QALD-2@10@100所有@10@100BM25F-CA0.6280.7200.4390.5300.4250.5110.3690.4610.4600.551+ GloVe-BOW0.6310.7210.4490.5440.4320.5180.3680.4600.4620.554+ BE-BOW0.6290.7210.4580.5460.4310.5220.3770.4690.4600.552+ GloVe-DKRL0.6240.7190.4400.5290.4240.5160.3680.4680.4590.550+ BE-DKRL0.6270.7200.4360.5300.4350.5250.3740.4660.4590.553+ BLP-TransE0.6310.7230.4460.5460.4420.5400.4010.4820.4720.562+ BLP-DistMult0.6310.7220.4580.5500

下载后可阅读完整内容，剩余1页未读，立即下载