百度ERNIE与知识图谱融入BERT的探索

需积分: 0 92 浏览量更新于2024-08-05 1 收藏 747KB PDF 举报

"这篇文章讨论了百度的ERNIE模型以及如何将知识图谱引入BERT模型的预训练过程。作者指出ERNIE的改进包括针对单词的Mask操作以及使用知识类的中文语料，同时表达了对将知识图谱融入Transformer模型前景的看好。" 在自然语言处理领域，BERT（Bidirectional Encoder Representations from Transformers）模型由Google于2018年提出，它通过预训练和微调两阶段的学习方法，在多个NLP任务上取得了突破性的成绩。然而，百度的ERNIE（Enhanced Representation through kNowledge Integration）模型进一步扩展了这一理念，特别是在理解和处理中文文本方面。 ERNIE的一个关键创新在于预训练阶段。传统的BERT模型在预训练时会对随机选择的词汇进行Masking，而ERNIE不仅对单词进行Mask，还特别针对实体词进行连续Mask。这样做有助于模型更好地理解语义丰富的实体信息，提高对命名实体识别（NER）任务的性能。此外，ERNIE利用了大量的知识类中文语料，这些语料可能包含丰富的实体和概念信息，使得模型在预训练过程中能学习到更多的结构化知识。知识图谱是一种结构化的知识表示方式，包含实体、属性和关系，将知识图谱的信息融入BERT模型可以增强模型对特定知识的理解和表达能力。作者推测，由于百度在知识图谱领域的资源积累，将其整合进BERT模型可能会对涉及知识推理或NER的任务产生直接的性能提升。尽管ERNIE当前仅使用了实体概念，未来的发展趋势很可能是引入实体关系，从而进一步增强模型对复杂知识结构的处理能力。将知识图谱引入预训练模型的思路具有重要的研究价值，因为自监督学习的BERT模型虽然可以从大规模文本中学习到一些隐含的知识，但可能无法像专门针对知识进行训练的模型那样有效地编码和利用这些知识。因此，结合知识图谱的预训练方法有可能在处理涉及具体知识的问题时表现出更强的性能。百度ERNIE的出现和知识图谱的引入，展示了NLP模型如何通过结合结构化知识来提升其理解和生成文本的能力，这为未来的NLP研究提供了新的方向。这种融合知识的预训练模型有望在问答系统、信息检索、文本理解等任务上实现更精准的表现。

2019/11/28 关于百度ERNIE及将知识图谱引入Bert - 知乎

https://zhuanlan.zhihu.com/p/59503959?utm_source=wechat_session&utm_medium=social&utm_oi=739179029113884672 1/4

关于百度ERNIE及将知识图谱引入Bert

你所不知道的事

关注他

181 人赞同了该文章

首发于

深度学习前沿笔记

关注专栏写文章

张俊林

百度放出了ERNIE，报道内容参考：“中文任务全面超越BERT：百度正式发布NLP预训练模型

ERNIE”

从目前报道的内容看，好像百度的ERNIE主要工作是：

1.预训练阶段仍旧采取字输入，但是Mask对象是单词，如果是单纯的对单词进行Mask，我觉得

这改进还好，不过我猜ERNIE很可能还专门挑出一定比例的实体词进行了连续Mask，实体词Mask

我觉得是很有意义的，为啥这么感觉等会说。

2.采取了很多知识类的中文语料进行预训练，这个也挺好。

把“知识图谱”加入Bert的模型中，我自己也特别看好这个方向，之前也安排个别同学在尝试这个

思路，不过还没啥结果，估计很多同行也正在做。百度的工作可以看做是这个方向的初步探索结

果，还仅仅使用了实体概念，没有把实体关系融入进去，后面应该很自然会拓展到“实体关系类”

知识的引入。

为啥把“知识图谱”引入Transformer是个好的改进方向呢？我们可以认为Bert的预训练阶段采取

的语言模型任务，这算是通用的语言知识，胜在量大，但是因为是自监督的模式，虽然其实里面也

大量包含了各种“知识图谱”中的知识，比如“太原是山西的省会”这种句子里的知识应该也能通

过语言模型编码到TF参数里。但是毕竟不是专门学习这种知识，所以可能针对这种知识的编码能力

不算太强，当然这是纯猜测。

如果我们有量级非常大的"知识图谱"，而明显百度在这个方面是明显有优势的，编码到Bert模型

里，估计对于下游的知识类任务或者包含NER相关的任务有直接的效果提升作用。

赞同 181

18 条评论收藏

下载后可阅读完整内容，剩余3页未读，立即下载

xhmoon

粉丝: 19
资源: 328

百度ERNIE与知识图谱融入BERT的探索

Bert-Chinese-Text-Classification-Pytorch:使用Bert，ERNIE，进行中文文本分类

人工智能-深度学习-文本分类-使用Bert，ERNIE，进行中文文本分类

基于ernie + bert-wwm-ext + roberta-large实现新馆疫情语句的文本匹配问答.zip

使用Bert／ERNIE进行中文短文本分类(附数据集)_Bert-Chinese-Text-Classificati

ernie-linear-p3-wudao-punc-zh.tar.gz

ernie-linear-p7-wudao-punc-zh.tar.gz

ernie-linear-p3-wudao-fast-punc-zh.tar.gz

ERNIE_Pytorch_Version_ERNIE-Pytorch.zip

Python库 | ernie-0.0.10b0-py3-none-any.whl

ERNIE:ACL 2019论文“ ERNIE的源代码和数据集-e language source code

最新资源