没有合适的资源?快使用搜索试试~ 我知道了~
知识嵌入:基于描述的方法和LMKE的对比评估及其在链接预测和三重分类中的性能表现
+v:mala2277获取更多论文作为知识嵌入的王新涛1,何倩玉1,梁嘉庆1,肖扬华1,21复旦大学计算机学院上海市数据科学重点实验室2复旦-爱数认知智能联合研究中心{xtwang21,qyhe21} @ m.fudan.edu.cn,l.j.q. gmail.com,shawyh@fudan.edu.cn摘要知识嵌入通过将实体和关系嵌入到连续的向量空间中来表示知识图.现有的方法主要是基于结构或基于描述的。基于结构的方法学习保留KG固有结构的40020000.80.60.40.20.01500100015002000实体等级(按学位)实体度组2000150010005000它们不能很好地代表现实世界中结构信息有限的KG中大量的长尾基于描述的方法利用文本信息和语言模型。在这个方向上,以前的方法几乎没有优于基于结构的方法,并且遭受昂贵的负采样和限制性描述需求等问题。本文提出了LMKE,它采用L语言模型来推导K知识嵌入,旨在丰富长尾实体的表示,解决基于先验知识的方法存在的问题.我们制定了一个对比学习框架,以提高效率,在培训和评估的预防为基础的KE学习。实验结果表明,LMKE在链接预测和三重分类的KE基准测试中达到了最先进的性能,特别是对于长尾实体。1介绍知识图(KG)是由实体作为节点和关系作为边组成的多关系图,例如WordNet[Miller,1995]。它们已被用于支持广泛的应用,包括信息检索,推荐系统和问答。为了更好地将知识群中的符号知识应用到机器学习模型中,人们致力于将知识群嵌入到低维向量空间中,称之为知识嵌入(knowledge embeddings,KE)。KEs的主要应用是KG中的链接预测和三重分类,而在自然语言处理(NLP)任务(如文本生成)中使用KEs的趋势也越来越明显。现有的知识工程方法主要有两类,即传统的基于结构的方法和新兴的基于结构的方法通讯作者图1:实体度的分布和Ro的性能tatE(一种典型的基于结构的方法)在WN18RR上的应用。实体按度数的对数分组(右)。对于每个组,我们报告了相关三元组的数量及其在链路预测上的平均性能更多详情请参见第4.3节。预防为主的方法。基于结构的方法,如TransE [Bordesetal. ,2013]和RotatE [Sunet al. ,2019年],接受培训,以保存幼儿园的固有结构。这些方法不能很好地表示长尾实体,因为它们仅依赖于KG的结构,因此有利于结构信息丰富的实体(即,与丰富的实体链接)。然而,现实世界的KG被广泛观察到具有右偏度分布,即,度的实体approximity遵循幂律分布,形成一个长尾,如图1所示。这些幼儿园里有大量不受欢迎的低学历学校例如,在WN18RR上,14.1%的实体具有度1,60.7%的实体具有不超过3个邻居。因此,它们的嵌入受到有限的结构连接性的影响这个问题是合理的下降性能的结构为基础的方法对长尾实体如图1所示,这表明他们的嵌入仍然是不令人满意的。基于描述的KE方法通过用语言模型对KG中的实体的描述进行编码来表示KG中的实体,诸如DKRL [Xieetal. ,2016]和KEPLER [Wanget al. ,2019 b]。文本描述为许多语义相关的任务提供了丰富的信息,这为学习长尾实体的信息表示带来了机会。在极端情况下,对于现有KG来说是新颖的新兴实体(换句话说,在KG中具有零度)仍然可以用其文本信息很好地该特征在现有方法中被称为“感应(零触发)设置”中的容量此外,知识库中大量缺失的知识可以通过实体描述中包含的丰富文本信息来覆盖,或者通过预先训练的语言模型来学习命中率@10 #三倍arXiv:[CS.CL]实体度2022年6月点击率@10#三重+v:mala2277获取更多论文()()ǁǁ()()els(PLM),因为目前的文本语料库在规模上超过了KGs,包含了更多的信息。然而,现有的基于结构的方法几乎没有优于基于结构的方法,并且存在以下问题:1. 昂贵的阴性样本。虽然负采样对KE学习至关重要,但由于语言模型的编码开销,现有的基于预处理的方法只允许有有限的负样本。2. 限制性描述要求。现有的方法通常需要描述KG中的所有实体,并且丢弃没有描述或描述较短的实体。虽然微妙的基准可以满足这一需求,现实世界的知识库几乎不能包含所有实体的描述。本文提出了LMKE,它采用L语言模型来推导K知识嵌入,旨在增强长尾实体的表示,并解决基于先验知识的知识嵌入中的上述问题.LMKE利用基于推理的方法的归纳能力来丰富长尾实体的表示。在LMKE中,实体和关系被视为特殊的标记,其输出嵌入是从相关的实体,关系及其文本信息中学习的,因此LMKE也适用于没有描述的实体进一步提出了一个对比学习框架,其中小批量内的实体嵌入作为彼此的负样本,以避免编码负样本的额外成本。样品本文的主要工作如下:11. 我们发现了基于结构的KEs在表示长尾实体中的问题,并推广了基于结构的KEs的归纳能力来解决这个问题。据我们所知,我们是第一个提出利用文本信息和语言模型来丰富长尾实体表示的人。2. 我们提出了一种新的方法LMKE,解决了现有的预防为基础的方法的两个我们也是第一个将基于描述的知识工程学习作为一个对比学习问题提出来的.3. 我们在广泛使用的KE基准上进行了大量的实验,并表明LMKE在链接预测和三重分类方面都达到了最先进的性能,显著优于现有的基于结构和基于查询的方法,特别是对于长尾实体。2相关工作知识嵌入表示知识的实体和关系,低维向量空间中的KG。KG由三元组组成,其中三元组h,r,t意味着在头实体h∈E和尾实体t∈E之间存在关系r∈R。E和R分别表示实体集和关系集基于结构的知识嵌入。现有的KE主要是基于结构的,通过以下方式获得嵌入:1我们的代码可在https://github.com/Neph0s/LMKE上获得幼儿园的结构化信息。这些方法根据其评分函数进一步区分为基于推理的模型和语义匹配模型[Wanget al. ,2017]。基于翻译的模型采用基于距离的评分函数,其通过特定于关系的翻译后实体嵌入h和t之间的距离来测量三元组h,r,t的可扩展性。最具代表性的模型是TransE。它将实体和关系嵌入为h,r,t∈Rd.其损失函数定义为h+r−t,以使h在平移r后接近t。 TransH [Wanget al. [2014]建议项目实体嵌入h和t到关系特定的超平面,和transR [Linetal. ,2015]进一步提出了到关系特定空间中的投影。RotatE将关系定义为在复向量空间中从实体h到实体t的旋转,因此它们的嵌入h,r,t∈Cd预计为isfyhrt,其中代表元素级乘积。塞-智能匹配模型采用基于相似度的评分函数,它通过匹配h,r,t的潜在语义来度量三元组h,r,t的可扩展性。RESCAL [Nickelet al. ,2011]将关系r表示为矩阵Mr,并使用双线性函数hTMrt来评分h,r,t.DistMult[Yangetal. ,2014]为了简单和高效而使Mr对角化。CoKE [Wanget al. ,2019a]采用变压器[Vaswaniet al. ,2017]以导出上下文化嵌入,其中三元组或关系路径用作输入令牌序列。基于描述的知识嵌入。近年来,由于文本信息的重要性和自然语言处理的发展,基于推理的知识工程方法受到越来越多的关注。DKRL [Xieet al. ,2016]首先介绍了实体的描述,并通过卷积神经网络对它们进行编码,以用于基于嵌入的嵌入。 KEPLER[Wanget al. , 2019 b]使 用PLM作为编码器来导出基于描述的嵌入,并且利用KE和PLM两者的目标来训练。Pretrain-KGE [Zhanget al. ,2020 b]提出了一种通用的基于嵌入的KE框架,该框架使用基于嵌入的嵌入来嵌入另一个可学习的KE,并在微调PLM后丢弃PLM以提高效率。KG-BERT [Yaoet al. ,2019]将h、r、t的描述作为输入序列连接到PLM,并通过序列嵌入对三元组进行评分。StAR [Wanget al. ,2020]因此将三元组划分为两个不对称部分,在这两个部分之间执行语义匹配。3方法在本节中,我们将介绍LMKE及其变体。我们首先介绍语言模型的背景(3.1节)。之后,我们详细介绍了LMKE如何采用语言模型来获得知识嵌入(第3.2节),以及它的对比变体,用于训练中的零成本负采样和评估中的有效链接预测(第3.3节)。3.1语言模型预训练语言模型在NLP中越来越他们已经在大规模语料库上进行了预先训练,以存储大量的一般知识。例如,BERT [Devlinet al. ,2018]是预训练以预测随机掩码令牌的Transformer编码器。之后,PLM+v:mala2277获取更多论文附加输入,并输出其概率p(u)。 LMKE()的k ens s=(x,. . . ,x),其中n表示长度。e1nee在一个损坏的 三元组中 丢 失的 实 体 (?,r,t)或(h,r,?)()()三元组预测三重分类实体/关系链接预测,关系预测,实体 分类...e(三重)e(头) e(关系)e(尾部)语言模型[CLS]02wm6l共和国/地点/capital区位资本07_pf威尼斯是……[SEP]‘Republic of主管实体标题文字关系关系文本威尼斯尾实体尾文本图2:LMKE的架构。可以容易地用于在各种下游任务中通过微调获得优异的性能。为 了 更 好 地 理 解 这 种 卓 越 性 , 提 出 了 知 识 探 测[Petroniet al. ,2019],其中问题PLM与掩盖完形填空句。这方面的研究表明,PLM包含丰富的事实知识,并有潜力被用作知识库。有趣的是,PLM也被证明能够学习满足一跳规则的关系,如等价、对称、反转和蕴涵[Kassneret al. #20020;,这也是知识的一种体现。3.2LMKELMKE采用语言模型作为知识嵌入,即,导出实体和关系的嵌入,其可以支持给定三元组的可扩展性的预测。LMKE学习实体和关系在与单词标记相同的空间中的嵌入。 给定一个特定的三元组u=h,r,t,LMKE利用h,r,t的描述sh,sr,st作为使每个实体和关系成为一个标记,并通过预先训练的语言模型获得它们的嵌入。三元组被转换成h、r、t的标记序列及其描述中的单词,其用作PLM的输入。 实体(或关系)的描述是一个序列(因此,输入序列是su=(h,sh,r,sr,t,st)=1nh1nr1nt其中w∈Rd和b是可学习的权重和偏差。我们采用二进制交叉熵作为训练的损失函数。此外,LMKE还可以用于实体或与h,r,t的关系。该架构如图所示2.KE的主要应用是预测丢失的链接和分类可能的三元组,其被公式化为KE评估的两个基准任务,即链接预测 [Bordeset al. , 2013] 和 三 重 分 类 [Socheret al. ,2013]。三重分类是判断一个三重u是否为真的二元分类任务,可以直接用p u来执行。链接预测是预测在哪里?表示为了预测而移除的实体。在这个任务中,模型需要通过将其头部或尾部实体替换为KG中的每个实体来破坏三元组,对替换的三元组进行评分,并按照分数的降序对实体进行排名然而,考虑到表1中所示的时间复杂度,LMKE很难负担得起将每个替换的三元组作为与PLM的积分进行评分。 即使对于中等大小的数据集FB 15 k-237,也会有2.54亿个三元组需要编码。方法培训链接预测KG-BERTO(N列车N阴性)O(||N||a(l))|ev|al))明星O N系列N阴性()O(|E|(R)LMKEO N系列N阴性()O(ENev|al|)C-LMKEO N列车O Neval+E表1:训练和链路预测评估h,xh,.. . ,xh,r,xr,.. . ,xr,t,xt,.. . ,xt)。 然后两行动。 |或|R|中实体或关系的数量。|denotes the number ofentities or relations in the特殊令牌[CLS]和[SEP]插入在前面,回到U。LMKE将su前馈到PLM中,生成三个to kensh,r,t的编码嵌入h,r,t∈Rd。通过这种方式,我们嵌入实体、关系和在一个共享的向量空间中描述它们的词。一个实体(或关系)的嵌入不仅在其自身的文本信息中,而且在三元组的其他两个组成部分及其文本信息中语境化并从中学习。因此,长尾实体可以很好地用它们的描述来表示,没有描述的实体也可以从相关实体的描述中学习表示。[CLS]的输出嵌入聚合了整个序列的信息,因此我们将其视为嵌入u,KG. Ntrain或Neval是训练或评估中的三元组数。分裂。Nneg是负样本量。C-LMKE表示对比LMKE,其复杂度低于现有方法。3.3对比KE学习为了使用语言模型进行有效的链接预测,一种解决方案是对三元组进行部分编码。掩蔽实体模型(MEM-KGC)[Choiet al. ,2021]用掩码Q替换被移除的实体及其描述,并且通过将其输出嵌入Q馈送到线性层中来预测丢失的实体。它可以被看作是LMKE的一个掩码变体,它在时间复杂度上权衡了文本信息的利用因为只有一个掩码不完全三元组是en-将u输入到线性层,如KG-BERT:p(u)=σ(wu+b)(1)预测目标实体的文本信息,从而损害了文本信息的效用。整个三倍。 要对可扩展性进行评分,请执行以下操作:三重,LMKE编码后,复杂性降低。尽管如此,+v:mala2277获取更多论文|E||+q,k|exp(p(q,k))−()([])+[()()]正和负键分别和[K=K−K. 我们∑Triple 1三次n“法国”主管实体标题文本关系关系文本面具尾巴实体'卢浮宫'尾实体尾文本图3:对比LMKE的架构查询和键在批处理中进行对比匹配之前被单独编码我们提出了一个对比学习框架,以更好地开发基于知识的连接预测,其中给定的实体-关系对和目标实体作为查询q和关键字k进行匹配的对比学习。从这个角度来看,MEM-KGC中的掩码实体的输出嵌入q是编码查询,并且线性层的权重We中的第i行用作对应于每个1≤i≤的第i个实体的键。因此,将q馈送到线性层中可以被视为:将查询Q与键匹配不同之处在于,键是直接学习的表示,而不是像查询那样的文本信息编码。对比LMKE(C-LMKE)是该框架下的LMKE变体,它取代了学习实体表示。在测试三元组中,度是需要关注的重要结构而基于结构的KE学习程度信息作为聚集成簇[Peiet al. ,2019]并且MEM-KGC将其学习为实体标签的不平衡,我们的匹配函数无法捕获此信息,因此我们解释将其作为预测的附加特征。由于对于非一一对应的关系,一个被破坏的三元组通常有多个正确的实体,我们采用二元交叉熵来判断每个实体是否是一个正确的关键字(多标签分类),而不是多类交叉熵,以找到最有可能的实体。考虑到大多数密钥都是负数,我们分别对正密钥和负密钥的损失进行平均,并将它们相加。因此,将查询q与键K匹配的损失为:(We的行)与目标实体在小批量内,这允许有效的链路预测,公式为L(q,K)=−∑+∈+w+log(p(q,k+))−Kq,k1−p q,k,其中K+,K−表示−−∈ K如图3所示。它的特点是对比匹配-∑在避免w-log((−))kKq,k编码负样本的额外成本。坎迪-采用自对抗负抽样 Sun等人,2019年]查询的日期键被定义为对于有效的KE学习,其计算权重为批次 C-LMKE的时间复杂度分析见表1。wq,k+=1和w−=Kexp(p(q,k−))。在这种情况下,这种做法解决了昂贵的负面问题采样,并允许基于验证的KE从更多的负样本中学习。虽然负样本对KE学习至关重要,但由于语言模型的成本,大多数现有的基于推理的方法只允许每个正样本有几个(通常从1到5)。C-LMKE目前将负样本大小与批量大小绑定在一起,并且在我们的对比框架中,可以进一步引入对比学习中的现有方法,如记忆库,以实现更多的改进。我们通过两层MLP(多层感知器)将编码查询q与编码键k进行匹配,而不是对比学习中通常采用的余弦相似度,因为可能存在多个键匹配q。如果k1和k2都匹配q,并且我们最大化(q,k1)和(q,k2)之间的相似性,则(k1,k2)也将被强制为相似的,这是不期望的。因此,q与k匹配的概率为:pq,k=σMLPq;k;q−k;q<$k;d(2)其中d=logd q+1 ; logd k+1是实体度的对数。 dq和dk是给定实体并且目标实体k在训练集上计数。如果训练集和测试集遵循相同的分布,则更高程度的实体也将更有可能出现损失的false-tensiveve样本isk∈aK放大和损失的真-负样本减少。4实验和分析在本节中,我们评估我们的方法的有效性4.1实验装置数据集。 我们实验对四受欢迎基准数据集:FB13 [Socheretal. 、2013 年 ] ,FB 15 k- 237[Toutanova , 2015] , UMLS [Dettmers 等 人 , 2018] 和WN18RR [Dettmerset al. ,2018年],其统计数据见表3。FB 13和FB 15 k-237源自Freebase。WN18RR源自WordNet。UMLS是描述医学概念之间关系的医学本体。FB 15 k-237和WN 18 RR用于链接预测,其中删除了大量的反向关系,以防它们可以用作快捷方式。对于三重分类,使用FB13和UMLS。仅FB13的测试拆分包含阴性样本。在其他情况下,通过随机替换头部或尾部实体来创建负样本,其中将避免地面实况(用于训练分裂的训练三元组和用于测试分裂的所有三元组)在KG-BERT之后,我们使用的实体描述是WN 18 RR的同义词集定义阳性配对隐藏尾巴尾部嵌入查询编码器密钥编码器02wm6l‘Republic of主管实体共和国头文字/capital《资本论》关系资本关系文本MASK_TMasked Tail实体07_pf威尼斯尾实体威尼斯是……尾文本隐藏尾巴阳性配对尾部嵌入查询编码器密钥编码器0f8l9c法国,/contain包含MASK_T04gdr卢浮宫是. . .批量+v:mala2277获取更多论文{}}{}−3 −4 −4−5我们的优势数据集FB15k-237WN18RR度量先生MRR点击率@1点击率@3点击率@10先生MRR点击率@1点击率@3点击率@10基于结构的知识嵌入TransE[Bordeset al. ,2013年]3230.2790.1980.3760.44123000.2430.0430.4410.532DistMult[Yanget al. ,2014年]2540.2410.1550.2630.41951100.4300.3900.4400.490ComplEx[Trouillonet al. ,2016年]3390.2470.1580.2750.42852610.4400.4100.4600.510RotatE[Sunet al. ,2019年]1770.3380.2410.3750.53333400.4760.4280.4920.571Tucker [Bala ze v ic'etal. ,2019年]-0.3580.2660.3940.544-0.4700.4430.4820.526HAKE [Zhanget al. ,2020年a]-0.3460.2500.3810.542-0.4970.4520.5160.582CoKE[Wanget al. ,2019年a]-0.3640.2720.4000.549-0.4840.4500.4960.553基于描述的知识嵌入Pretrain-KGE TransE[Zhanget al. ,2020b]1620.332--0.52917470.235--0.557KG-BERT[Yaoet al. ,2019年]153---0.420970.2160.0410.3020.524StAR BERT-base[Wanget al. ,2020年]1360.2630.1710.2870.452990.3640.2220.4360.647MEM-KGCBERT-碱(不含EP)-0.3390.2490.3720.522-0.5330.4730.5700.636MEM-KGCBERT-碱(含EP)-0.3460.2530.3810.531-0.5570.4750.6040.704C-LMKEBERT-微小1320.4060.3190.4450.5711480.5450.4670.5870.692C-LMKEBERT基1830.4040.3240.4390.556720.5980.4800.6750.806表2:FB 15 k-237和WN 18 RR上的链路预测结果。表示来自[Sunet al. ,2019]。 表示来自[Wang]等人,2020]。我们在FB 15 k-237上实现了StAR,并以BERT-base为基础模型。其他结果取自他们的原始论文。EP表示MEM-KGC的实体预测任务C-LMKE表示对比LMKE。和 来 自 维 基 百 科 的 FB13 的 描 述 , 来 自 [Xieet al. ,2016],以及来自[Yaoet al. ,2019年]为UMLS。关系描述是所有数据集的名称。数据集#实体#关系#火车#Dev 测试次数平均DLFB1375,04313316,2325,90823,733110.7FB15k-23714,541237272,115 17,535 20,466141.7UMLS135465,216652661161.7WN18RR40,9431186,8353,0343,13414.4表3:数据集的统计平均描述长度(Avg DL)是指描述的平均长度(字数)基线。我们比较我们的方法与基于结构和基于构造的方法 。 基 于 结 构 的 方 法 包 括 transE 、 transH 、 transR 、DistMult、ComplEx、Ro- tatE。基于预训练的方法包括Pretrain-KGE、KG-BERT、exBERT和StAR。为了进行公平的比较,我们在FB 15 k-237上重新实现了基于BERT的StAR。指标. 对于三重分类,我们报告准确性。对于链接预测,我们报告平均秩(MR),平均倒数秩(MRR),并在“过滤”设置中命中@1,3,10。用于链接预测的排序基于正确实体在通过其可扩展性排序的所有实体的列表中的排序。“过滤”设置是一种常见的做法,它从列表中删除其他正确的实体(也构成KG中存在的Hits@K度量排在前K位的正确实体的比例。结果在测试三元组和预测缺失的头部和尾部实体上平均。一般来说,一个好的模型预期会实现更高的MRR、Hits@N和更低的MR。设置. 我们评估LMKE的三重分类和C-LMKE的链接预测与BERT基础[Devlinet al. ,2018]和BERT-tiny [Turcet al.2019年]作为语言模型。不考虑较大的模型,在这种情况下,我们必须使用小批量。我们用BERT-tiny搜索这些超参数:{10−4,5×10−5,10−5}中PLM的学习率,10,5×10,10,10,批量大小在十二,十六,三十二,64 基于最好的命中@10在开发集。有了BERT-base,对于三重分类,我们将批大小设置为16,对于链接预测,我们将批大小设置为12,这考虑了BERT-微小和有限存储器的结果。我们的模型是由Adam作为优化器进行微调的。对于三元组分类,我们对每个正三元组采样1个负三元组。对于链接预测,我们用两种语言模型对给定的实体-关系对查询和目标实体键进行编码。它们被平等地初始化,并共享相同的词、实体和关系嵌入。4.2一般性能我们比较我们的方法与以前的方法在链接预测和三重分类。表2和表4中的实验结果表明,我们的方法在两个任务上都达到了FB 15 k-237和WN 18 RR上的链接预测结果如表2所示,这表明我们的方法明显优于现有方法。基于BERT的C-LMKE在两个数据集上的MR,MRR和Hits@1,3,10上实现了卓越的性能。在WN 18 RR上的改进更为显著,其中我们的方法的Hits@10然而,它的实体预测任务与我们的工作兼容,没有它的Hits@10下降到0.636。我们的方法也是第一个在FB 15 k-237上优于最先进的基于结构的方法的基于结构的方法。即使使用BERT-tiny,与使用较大模型构建的先前approaches相比,我们的方法也实现了更好或相当的性能。结果表明,在WN 18 RR上,基于结构的方法在很大程度上优于基于结构的方法,但在FB 15 k-237上几乎没有超过它们我们分析这些数据集之间的差异来解释这种现象。FB 15 k-237与WN 18 RR的区别主要体现在两个方面:稀疏性和描述性。根据表3所示的统计,FB 15 k-237和WN 18 RR上的平均度分别为37.4和4.2。前者约为后者的8.9倍,这表明FB 15 k-237中的实体通常可以获得丰富的+v:mala2277获取更多论文结构信息,而WN18RR中的实体更可能是长尾的。此外,与FB15k相比,文本信息更好地覆盖了WN18RR的结构信息237. WN18RR上的实体是词,而描述正是它们的定义,结构关系是从这些定义中推导出来的,因此描述可以理想地支持结构关系的推理。然而,FB 15 k-237上的实体是真实世界的实体,其收集的描述仅部分支持推断。例如,事实(阿尔伯特·爱因斯坦,isA,和平活动家)并没有被这些实体的收集描述所涵盖因此,对文本信息的过度依赖这也解释了为什么用BERT-tiny替换C-LMKE中的BERT-base不会降低性能。数据集FB13UMLSTransE [Bordeset al. ,2013年]81.578.1TransH [Wanget al. ,2014年]83.379.2TransR [Linet al. ,2015年]82.581.9DistMult [Yanget al. ,2014年]86.286.8KG-BERT [Yaoet al. ,2019年]90.489.7exBERT [Yaser Jaradehet al. ,2021年]-90.3LMKEBERT基91.792.4表4:FB13和UMLS上三重分类的准确性。FB13和UMLS现有基线的结果取自[Yaoet al. ,2019]和[Yaser Jaradehet al. 2021年]。表4中的FB13和UMLS的三重分类结果表明,LMKE在此任务上也优于现有方法LMKE和KG-BERT的结果之间的比较表明,学习嵌入的实体和关系标记在同一空间中作为单词标记的有效性4.3按实体学位分组的绩效为了证明我们的方法对长尾实体的有效性,我们将实体按度的对数分组,为每组收集相关的三元组,并研究不同方法对不同组的平均链接预测性能一个三元组(h,r,t)与群i相关,如果h或t在群i中I. 分组规则与图1相同。 结果 在FB 15 k-237上的实验结果表明,在0、1和2组(度小于4)的长尾实体上,基于构造的方法显著优于基于结构的方法,并且我们的C-LMKE显著优于其他基于描述的方法。通过比较C-LMKE在引入度信息和不引入度信息时的性能,表明引入度信息可以提高C-LMKE在实体上的性能不是长尾的。然而,在流行的实体上,基于结构的方法通常执行得更好.虽然StAR也是基于预防的,但它在第12和13组上实现了最佳命中率@10,因为它是用遵循基于结构的方法的额外目标进行训练的。4.4负样本量我们研究了C-LMKE的性能与不同的负采样大小Nneg证明其重要性。我们将批处理大小设置为32,并通过仅使用批处理中其他三元组的几个编码目标实体作为否定键来限制每个三元组的N个否定。我们报告了在FB 15 k-237上使用BERT- tiny的C-LMKE的10次命中,持续40个时期。图5所示的结果表明,较大的Nneg持续带来更好的性能,直到收敛。当Nneg低于8时,增加Nneg大大加速了训练,并提高了最终的表现然而,现有的基于预处理的方法通常将Nneg仅设置为1或5,这限制了它们的性能。60504030200 10 20 30 40时代图5:在不同的负采样大小下,在FB 15 k-237上使用BERT-tiny的C-LMKE的5结论在本文中,我们提出了LMKE,一个有效的和高效的方法,采用语言模型作为知识嵌入。由于基于结构的KE无法很好地表示长尾实体,LMKE利用文本描述并学习在与单词标记相同的空间中嵌入实体和关系。它解决了先前基于预防的方法的限制性需求提出了一种对比学习框架,允许零成本负采样,并显着降低了训练和评估的时间复杂度。大量的实验结果表明,我们的方法在各种基准测试中达到了最先进的性能,特别是对于长尾实体。在未来,我们计划探索更先进的对比学习方法在基于描述的知识经济中的有效性。我们还对语言模型在知识库中建模组合模式的能力感兴趣0.80.60.40.20.0transE明星旋转C-LMKE(不含度)MEM-KGCC-LMKE0 1 2 3 4 5 6 7 8 9 10 11 12 13实体度0.80.60.40.20.0transE明星旋转C-LMKE(不含度)MEM-KGCC-LMKE0 1 2 3 4 5 6 7 8 9 10 11 12 13实体度确认本 课题 得到 了国 家 重点 研发 项 目(No.2020AAA0109302)、上海市科技创新行动计划( No.19511120400 ) 、 上 海 市 科 技 重 大 专 项( No.2021SHZDZX0103 ) 、 国 家 博 士 后 科 学 基 金( No.2020000000 ) 、 国 家 自 然 科 学 基 金( No.2020000000 ) 、 国 家 自 然 科 学 基 金( No.200000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000002020M681173号图4:按分组的平均命中率@1和命中率@10性能FB 15 k-237上实体度的对数2021T140124)和国家自然科学基金(批准号:62102095)。N阴性=1N阴性=8N阴性=2N阴性=16N阴性=4N阴性=31点击率@1点击率@10点击率@10+v:mala2277获取更多论文引用[Bala ze v ic'etal. , 2019]Iv anaBalaze vic' , CarlAllen ,andTimothyMHospedales.Tucker:Tensorfactorization for knowledge graph completion. arXiv预印本arXiv:1901.09590,2019。[Bordes et al. Antoine Bordes,Nicolas Bronnier,AlbertoGarcia-Duran,Jason Weston,and Oksana Yakhnenko.为多关系数据建模转换嵌入。NeurIPS,2013年。[Choi et al. , 2021] Bonggeun Choi , Daesik Jang 和Youngjoong Ko. Mem-kgc:使用预训练语言模型完成知识图的掩码实体模型。IEEE Access,2021年。[Dettmers et al. TimDettmers , Pasquale Minervini ,Pontus Stenetorp和Sebastian Riedel。卷积2d知识图嵌入。在AAAI的程序中,2018年。[Devlin et al. Jacob Devlin,Ming-Wei Chang,Ken- tonLee,and Kristina Toutanova. Bert:深度双向转换器的 语 言 理 解 预 训 练 。 arXiv 预 印 本 arXiv :1810.04805,2018。[Kassner et al. Nora Kassner , Benno Krojer , and Hin-richSc hütze. 预 先 训 练 的 语 言 模 型 是 知 识 的 符 号 在CONLL,2020年。[Lin et al. Yankai Lin , Zhiyuan Liu , Maosong Sun ,Yang Liu,and Xuan Zhu.学习实体和关系嵌入知识图完成。在AAAI,2015年。[Miller,1995] George A Miller. Wordnet:英语词汇数据库。ACM通讯,1995年。[Nickel et al. Maximilian Nickel , Volker Tresp , andHans-Peter Kriegel.多关系数据集体学习的三向模型。InIcml,2011.[Pei et al. [2019] Shichao Pei , Lu Yu , RobertHoehndorf,and Xiangliang Zhang.通过知识图嵌入的半监督实体对齐,具有程度差异的意识在万维网,2019年。[Petronietal. ,2019]Fabio佩特罗尼,蒂姆Rockta?schel,Patrick Lewis,Anton Bakhtin,Yuxiang Wu,Alexander H Miller,and Sebastian Riedel.语言模型作为 知 识 基 础 ? arXiv 预 印 本 arXiv : 1909.01066 ,2019。[Socher et al. Richard Socher,Danqi Chen,Christo-pherD Manning和Andrew Ng.用神经张量网络进行推理以完成知识库。神经信息处理系统的进展,2013年。[Sun et al. ,2019] Zhiqing Sun,Zhi-Hong Deng,Jian-Yun Nie,and Jian Tang. Rotate:在复杂空间中通过关系 旋 转 嵌 入 知 识 图 。 arXiv 预 印 本 arXiv :1902.10197,2019。[Toutanova,2015] Kristina Toutanova.知识库和文本推理的观察特征与潜在特征。ACL- IJCNLP 2015,第57页,2015年。[Trouillonetal. , 2016]The'oTrouillon , JohannesWelbl , Se-bastianRiedel,E'ricGaussie r,andGuillaumeBouchard.复杂嵌入用于简单链接预测。InProc. of ICML,2016.[Turc et al. 2019] Iulia Turc,Ming-Wei Chang,WendonLee , and Kristina Toutanova. 读 得 好 的 学生 学 得 更好:关于预训练紧凑模型的重要性。arXiv预印本arXiv:1908.08962,2019。[Vaswani et al. Ashish Vaswani , Noam Shazeer , NikiParmar , Jakob Uszkoreit , Llion Jones , Aidan NGomez,Mukasz Kaiser,and Illia Polosukhin.注意力就是你所需要的。神经信息处理系统的进展,2017年。[Wang et al. Zhen Wang,Jianwen Zhang,Jianlin Feng,and Zheng Chen.基于超平面平移的知识图嵌入。在AAAI,2014年的程序中。[Wang et al. 王泉,毛振东,王斌,郭立知识图嵌入:方法与应用综述IEEE Transactions on Knowl- edge andData Engineering,2017年。[Wang et al. 王
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功