"珠穆朗玛峰和英国地理学家：亚洲大陆所在国，KGC知识图补全方法的性能分析"

PDF格式 | 744KB | 更新于2025-01-16 | 130 浏览量 | 举报

+v：mala2277获取更多论

文

山

实例

珠穆朗玛峰

得名于

乔治

埃佛勒斯

大陆

亚洲

国籍国

联合王国

英国

…

是欧洲西北部的一个

主权国家

亚洲是地球上面积最大、人口

最多的大陆。

...

是一位英国测量师和地

理学家

珠穆朗玛峰是地球上海拔最高的

山峰。

山是地壳的一个隆起部分

SimKGC

：使用预训练语言模型的

王亮

赵

伟

魏卓宇

刘景明

微软亚洲研究院

Yuanfudao AI Lab，北京，中国

wangliang@microsoft.com

{zhaowei01,weizhuoyu,liujm}@yuanfudao.com

摘要

知识图补全（KGC）的目的是对已知事实

进行推理，并推断出缺失的链接。基于文

本的方法，如 KG-BERT （ Yao et al. ，

2019）从自然语言描述中学习实体表示，

并具有归纳KGC的潜力。然而，基于文本

的方法的性能仍然在很大程度上落后于基

于图嵌入的方法，如 TransE （ Bordes et

al. ， 2013 ）和 RotatE （ Sun et al. ， 2019

b）。在这篇文章中，我们发现关键问题是

有效的对比学习。为了提高学习效率，我

们引入了三种类型的否定：批内否定，批

前否定和自我否定，它们作为硬否定的简

单形式。结合InfoNCE损失，我们提出的

模型SimKGC可以在几个基准数据集上大

大优于基于嵌入的方法。在平均倒数秩

（MRR）方面，我们在WN18 RR上将最新

技术水平提高了+19%，

+6.8%在Wikidata5M的传导设置上，+22%

在Wikidata5M的归纳设置上。进行彻底的

分析，以深入了解每个组成部分。我们的

代码可以在

https://github.com/intfloat/Sim

KGC上找到。

介绍

大规模知识图（KG）是知识密集型应用程序

的重要组成部分，例如问答（

Sun et al.

，

2019a

），推荐系统（

Huang et al.

，

2018

）和

智能会话代理（Dinan et al. KG通常由一组三

元组（h，r，t）组成，其中h是头实体，r是

关系，t是尾实体。受欢迎的公立幼儿园包括

Freebase

（

Bollacker et al.

，

2008

），

Wikidata

（

Vran-

de c i candKrötzsch

，

2014

），

YAGO

（

Suchaneket al.

，

2007

）、

ConceptNet

（

Speer

et al. ，2017）和Word- Net（Miller，1992）

等。尽管它们很有用

在元福道

实验室完成的工作

在实践中，它们往往不完整。知识图补全

（KGC）技术是知识图自动构造和验证的必

要手段。

图1：知识图谱的一个例子每个实体都有其名称和

文本描述。

现有的KGC方法可以分为两大类：基于嵌

入的方法和基于文本的方法。基于嵌入的方法

将每个实体和关系映射到一个低维向量中，而

不使用任何辅助信息，如实体描述。该家族包

括 transE （ Bordeset al. ， 2013 ）、 TransH

（ Wang et al. ， 2014 ）、 Ro- tatE （ Sun et

al.

，

2019b

）和

TuckER

（

Balaze-vicet al.

，

2019

）等。通过比较，基于文本的方法（姚

等。，

2019; Xie et al.

，

2016; Wang

等人，

2021 c）合并了用于实体表示学习的可用文

本，如图1所示。显然，基于文本的方法应该

优于基于嵌入的方法，因为它们可以访问额外

的输入信号。然而，流行的基准测试结果（例

如，

WN 18 RR

，

FB 15 k- 237

，

Wikidata 5

M）讲述了一个不同的故事：即使使用预先训

练的语言模型，基于文本的方法仍然落后

我们假设，这种认知能力下降的关键问题是

对比学习的效率低下。基于嵌入的方法不涉及

昂贵的计算文本

，

arXiv

：

2203.02167v1 [cs.CL] 2022

年

+v：mala2277获取更多论
文
→
→
→
编码器，因此可以非常有效地利用大的负样
本大小进行训练。例如，
RotatE
1
的默认配置
在Wikidata5M数据集上训练了1000个epoch，
负样本大小为
64
而基于文本的方法
KEPLER
（Wang et al. ，2021 c）由于RoBERTa引起的
高计算成本，只能训练负样本大小为
1
的
30
个
历元
在本文中，受对比学习的最新进展的启发，
我们引入了三种类型的否定来改进基于文本的
KGC
方 法 ： 批 内 否定，批前否定和自我否
定。 通过采 用双向编码器代替 交叉编码器
（
Yao et al.
，
2019
）架构，可以通过使用更
大的批量大小来增加批内底片的数量。 来自
先 前 批 次 的载体被 缓 存 并 用 作 预 批 次 阴 性
（Karpukhinet al. ，2020）。此外，挖掘硬否
定可以有益于改善对比学习。我们发现，头部
实体本身可以作为硬否定，我们称之为因此，
负样本量可以增加到数千人的规模我们还建议
将 损 失 函 数 从 基 于 边 缘 的 排 名 损 失 改 为
InfoNCE，这可以使模型专注于硬否定。
基于文本的方法的一个优点是，它们使归纳
实体表示学习成为可能。在训练过程中看不到
的实体仍然可以被适当地建模，而基于嵌入的
方法，如
transE
，只能在转换设置下推理。归
纳知识图的完成在现实世界中很重要，因为每
天都有新的实体出现。此外，基于文本的方法
可以利用最先进的预训练语言模型来学习更好
的表示。 最近 的一 系列工作（
Shin et al.
，
2020; Petroni et al.
，
2019
）试图从
BERT
中提
取隐含存储的知识
KGC
的任务也可以被视为
检索这些知识的一种方式。
如果两个实体通过图中的短路径连接，则它
们更可能相关经验上，我们发现基于文本的模
型严重依赖于语义匹配，并在一定程度上忽略
了这种拓扑偏见。我们提出了一个简单的重新
排名策略，通过提高头实体的k跳邻居的分数
我们评估我们提出的模型
SimKGC
，
1
https://github.com/DeepGraphLearning/
石墨矿
2
测试集中的所有实体也会出现在训练集中。
在 三 个流 行 的 基 准 点 上 进 行 实 验 ：WN 18
RR
，
FB 15 k-237
和
Wikidata 5 M
（包括传导和
感应 设 置 ）。 根 据 自动 评 估 指标 （ MRR，
Hits@{1
，
3
，
10}
），
SimKGC
在
WN 18 RR
（MRR 47）上的表现远 远优 于最先进的方
法
。
六 百 六 十 六
。
6
） ，
Wikidata5M
transductive set- ting（MRR 29. 035 8）和感应
设置（
MRR 49. 371. 4
）。 在
FB 15 k-237
数据
集上，我们的结果也具有竞争力。为了帮助更
好地理解我们提出的方法，我们进行了一系列
的分析和报告人类的评估结果。希望SimKGC
能够促进未来更好的
KGC
系统的开发。
2
相关工作
知识图完成涉及建模多关系数据，以帮助大规
模KG的自动构建。在基于翻译的方法中，例
如 TransE （ Bordes et al. ， 2013 ） 和 TransH
（Wang et al. ，2014），三元组（h，r，t）
是从头实体
h
到尾实体
t
的
特定于关系的转换。
Trouillon等人引入了复数嵌入。（2016年），
以增加模型的表现力。RotatE（Sun et al. ，
2019年b）模型三元组作为复杂空间中的关系
旋转。
Nickel
等人（
2011
）
;Balazevic
等人
（
2019
）将
KGC
视为
3-D
二元张量因子分解问
题，并研究了几种因子分解技术的有效性有些
方法试图合并实体描述。DKRL（Xie et al. ，
2016 ） 使 用 CNN 对 文 本 进 行 编 码 ， 而 KG-
BERT（Yaoet al. ，2019），StAR（ Wang et
al.
，
2021a
）和
BLP
（
Daza et al.
，
2021
）都采
用预先训练的语言模型来计算实体嵌入。圣杯
（Teru et al. ，2020）和BERTRL （查 等
人，2021）利用子图或路径信息进行归纳关系
预测。 在基准性能方面（Wang et al. ，2021
c
）， 基 于 文 本的 方 法 仍然 不 如
RotatE
等方
法。
预 训 练 的 语 言 模 型， 包括 BERT（ Devlin et
al. ，2019）、GPT（Radford et al. ，2018）和
T5
（
Raffel et al.
，
2019
）导致了
NLP
的学习范
式转变模型首先在具有语言建模目标的大量未
标记文本语料库上进行预训练，然后在下游任
务上进行微调。考虑到他们在少镜头甚至零镜
头

+v：mala2277获取更多论

文

不

∈

（

Brown et al.

，

2020

），一个有趣的问题

是：“预先训练的语言模型可以用作知识库

吗？”Petroni等人（2019）提出用手动设计的

提示来探测语言模型。一系列后续工作（Shin

et al.

，

2020; Zhong et al.

，

2021; Jianget al.

，

2020）专注于寻找更好的提示以引出隐含存储

在模型参数中的知识。另一条工作线

（Zhanget al. ，2019; Liu et al. ，2020; Wang等

人，

2021 c

）将符号知识注入到语言模型预训

练中，并在几个知识密集型任务上显示出一些

性能提升。

对比学习通过对比正面和负面来学习有用的表

征（

Le-Khac et al.

，

2020

）。积极和消极的定

义是特定于任务的。在自我监督视觉表征学习

（

Chenet al.

，

2020; He et al.

，

2020; Grill et

al.

，

2020

），正对是同一图像的两个增强视

图，而负对是不同图像的两个增强视图。近年

来，对比学习范式在许多不同的领域取得了巨

大的成功，包括多模态预训练（Radford et

al. ， 2021），视频文本检索（ Liu et al. ，

2021

）和自然语言理解（

Gunel et al.

在

NLP

社

区中，通过利用来自自然语言推理数据的监督

信号（

Gaoet al.

，

2021

）、

对（

Ni et al.

，

2021）和par-spectrum语料库（Wang et al. ，

2021 b

），这些方法在语义相似性基准上超过

了非对比方法（Reimers和Gurevych，2019）

Karpukhin等人（2020）; Qu等人（2021年）;

预测（？，r，t）。在本文中，对于每个三元

组（

，

），我们添加一个逆三元组（

，

−

，h），其中

−

是r的逆关系。基于这样的

重新表述，我们只需要处理尾部实体预测问

题（Malaviya et al. ，2020）。

3.2模型架构

我们提出的模型SimKGC采用双编码器架

构。两个编码器使用相同的预训练语言模型进

行初始化，但不共享参数。

给定三元组（ h ， r ， t ），第一编码器

BERT

用于计算头实体h的关系感知嵌入。我

们首先连接实体h和关系r的文本描述，在它们

之间有一个特殊的符号

[SEP]

。

BERT

用于获

取最后一层隐藏状态。代替直接使用第一令牌

的隐藏状态

我们使用均值池，然后进行

归一化，以获

得关系感知嵌入

ehr

，如下所示：

平均池已经被证明导致更好的句子嵌入（Gao

et al. ， 2021;Reimers和 Gurevych， 2019 ）。

EHR

是关系感知的，因为不同的关系将具有不

同的输入，从而具有不同的嵌入，即使头实

体是相同的。

类似地，第二编码器

BERT

用于计算尾实

体

的

归一化嵌入

。

BERT t

的输入仅由实

体

的文本描述组成。

由于嵌入

和

都是

归一化的，因此余

弦相似度

cos

（

，

）只是两个嵌入之间

的点积

Xiong et al.（2021）采用对比学习来改进开放

域

cos

（e

，

）

（

一

）

问题回答，其中肯定的段落是包含正确答案

的段落。

方法

3.1

符号

知识图是有向图，其中顶点是实体，并且每条

边可以表示为三元组（h，r，t），其中h，r

和

分别对应于头实体，关系和尾实体。

KGC

的链接预测任务是在给定一个不完整的链接的

情况下推断出缺失的三元组。在广泛采用的实

体排序评估协议下，尾实体预测（ h ，

，？）需要对给定

和

的所有实体进行排

序，对于head实体

对于尾实体预测（h，r，？），我们计算

与E中所有实体之间的余弦相似度，并预测

得分最大的实体：

argmax cos（

，

）

，

（

）

我

不是

3.3

负采样

对于知识图完成，训练数据仅由正三元组组

成。给定一个正三元组（h，r，t），大多数

现有方法随机破坏

或

，然后过滤掉出现在

训练图G中的假阴性。的

+v：mala2277获取更多论

文

∼

≥

|N | × | N | | N

∈

|N|

−

N Nn

∈ −

不

|E|

×|

不

|E|× ×|

不|

我

不同三元组的否定不共享，因此是独立的。

对于基于嵌入的方法，否定的典型数量是

（Sun et al. ，2019 b），和5基于文本的方法

（王等。，

2021a

）。我们结合了三种类型

的否定，以提高训练效率，而不会产生显着

的计算和内存开销。

这是视觉表征学习中广泛采用的策略（

Chen

et al.

，

2020

）和密集通道检索（

Karpukhin et

al.

，

2020

）等。同一批次内的实体可以用作

底片。这样的批量否定允许用于双编码器模

型的实体嵌入的有效重用。

批前底片（PB）批内底片的缺点是底片的数

量与批量大小有关。批前阴性（

Leeet al.

，

2021）使用来自先前批次的实体嵌入。由于这

些嵌入是使用早期版本的模型参数计算的，因

此它们与批内负值不一致通常，仅使用1或2个

预批次。其他方法如

MoCo

（

He et al.

，

2020）还可以提供更多

底片。我们把对

MoCo

的调查作为未来的工

作。

假设批量为1024，使用2个前批次

，则

1024

1，

2 1024，

1，且（h

，

r）

共3072个负数

3.4

基于图的重新排序

知识图谱通常具有空间局部性。邻近的实体比

相距遥远的基于文本的

KGC

方法擅长捕捉语

义相关性，但可能无法完全捕捉这种归纳偏

差。我们提出了一个简单的基于图的重排序策

略：将候选尾实体t i的得分增加α 0，如果t

在头实体

的

跳邻居

（

）中，则基于来自

训练集的图：

argmax cos

（

，

）

（

i k

（

））（4）

我

不是

3.5

训练和推理

在训练过程中，我们使用InfoNCE损失和附加

余量（Chen et al. ，2020; Yang et al. ，2019

年）：

（

，

）

−γ

）

/τ

L= − log

（

，

）

−

）

/τ

| N |

（

，

′

）

/τ

自我否定（

）除了增加否定的数量，挖掘

硬否定（高等人。， 2021; Xiong et al. ，

2021

）对于改善对比表征学习也很重要。对于

尾实体预测（h，r，？），基于文本的方法倾

向于给头部实体

分配高分，这可能是由于高

文本重叠。为了缓解这个问题，我们提出了使

用头部实体

作为硬否定的自否定。包括自我

否定可以使模型更少地依赖于虚假文本匹配。

我们用

、

和

来表示上述三种否定形式.

在训练过程中，可能存在一些假阴性。例如，

正确的实体恰好出现在同一批中的另一个三元

组中。我们用二进制掩码

过滤掉这样的实

体。将它们全部组合，负数N（h

，

r）的集合

为：

{

∈

S N

，

（

，

）

∈

}

（

三）

训练数据中未出现的假阴性将不会被过滤。

加性裕度

γ>0

鼓励模型

以增加正确的三元组（h，r，t）的得分。φ

（

，

）是候选三元组的得分函数，这里我

们定义

（

，

）

cos

（

，

）

[ 1

，

1]，如等式1所示。温度τ可以调节消极因素的

相对重要性，

越

小，

这种损失更加强调硬底片，但也有过度拟合

标签噪声的风险。为了避免将

调整为超参

数，我们将log

重新参数化为可学习参数。

对于推理，最耗时的部分是O（）BERT实

体嵌入的前向传递计算。假设存在测试三元

组。对于每个三元组（h，r，？）和（t，

−

，

？），我们需要计算关系感知头实体嵌

入，并使用点积来获得所有实体的排名分数总

的来说，SimKGC需要

2个BERT正向传递，

而像KG-BERT这样的交叉编码器模型（Yao et

al. ，2019）需求 2 . 能够扩展到大型数据

集对于实际使用非常重要对于双编码器模

型，我们可以预先计算实体嵌入，并在快速相

似性搜索工具的帮助下有效地检索前k个实

体，如Faiss（Johnson et al. ，2021年）。

（

五

）

剩余15页未读，继续阅读

cpongm

粉丝: 6

"珠穆朗玛峰和英国地理学家：亚洲大陆所在国，KGC知识图补全方法的性能分析"

EMNLP 2020精选：知识图谱补全领域论文五篇

EMNLP 2020深度分析：知识图谱如何助力语言模型突破

个性化知识选择提升KGC对话一致性

为nginx服务配置虚拟主机，新增两个域名 www.kgc.com 和 www.benet.com，使用http://www.kgc.com/index.php可访问上一题的Discuz论坛页面。

要求配置location匹配请求地址http://www.kgc.com/test/XXXX，使用户访问该路径下的文件时返回/var/share/nginx/html/目录下的文件内容

为nginx服务配置虚拟主机，新增两个域名 www.kgc.com 和 www.benet.com，使用http://www.kgc.com/index.php可访问上一题的Discuz论坛页面。（10分） 使用http://www.benet.com则访问/var/www/html目录中的index.html文件的内容，内容自定义。（10分）

EMNLP 2020上与【知识图谱补全】相关的论文（五篇）.zip

MTL-KGC:编码“具有预训练语言模型的知识图完成多任务学习”的代码

电动车KGC充电器电路图讲解

KGC.rar_KGC_会话密钥_基于身份_密钥_密钥管理

最新资源

为nginx服务配置虚拟主机，新增两个域名 www.kgc.com 和 www.benet.com，使用http://www.kgc.com/index.php可访问上一题的Discuz论坛页面。（10分）使用http://www.benet.com则访问/var/www/html目录中的index.html文件的内容，内容自定义。（10分）