利用LDA模型和BP算法优化的百科实体对齐方法

需积分: 20 100 浏览量更新于2024-08-13 1 收藏 2.15MB PDF 举报

"基于主题模型的百科知识库实体对齐" 本文主要探讨了如何利用主题模型改进传统的实体对齐方法，以更好地捕捉和利用潜在的语义信息，从而提高实体对齐的效果。实体对齐是知识融合过程中的关键步骤，旨在识别和匹配不同知识库中的相同实体，以整合和扩展信息。在实体对齐的传统方法中，通常依赖于显式的特征匹配，如字符串相似度或结构匹配，这些方法可能无法充分考虑语义关联。为解决这一问题，作者采用了潜在狄利克雷分配（LDA）模型，这是一种常用的主题模型，能够从非结构化的文本数据中抽取出隐藏的主题信息。LDA通过将文档视为不同主题的混合，并将每个词的出现视为对特定主题的证据，来揭示文本的潜在语义结构。在应用LDA模型时，通常需要估计模型的隐藏参数，这通常是一个复杂的计算任务。为此，作者采用了改进的置信传播（BP）算法，这是一种在图论中用于信息传播和参数估计的有效方法。BP算法在LDA模型中被用来高效地求解主题分布和词分布，生成的实体特征向量随后用于计算实体之间的相似度。通过对网络百科数据进行建模并利用BP算法，可以生成更准确的实体特征，从而进行更精确的相似度计算。通过与传统的基于规则、基于实例和基于机器学习的三种实体对齐算法对比，实验结果显示所提出的LDA-BP方法在准确率、召回率和F值三个方面均有提升。这表明，对于具有描述信息的网络百科实体，该算法能更有效地提升对齐性能。此外，文章还提到了研究背景，包括由河北省自然科学基金资助的研究项目，以及作者团队的主要研究方向，如大数据、网络信息安全、自然语言处理等。文章的关键词进一步强调了实体对齐、LDA模型、BP算法和知识融合在研究中的核心地位。基于主题模型的百科知识库实体对齐是一种创新的方法，它利用LDA和BP算法增强实体的语义表示，提升了实体对齐的质量。这种方法对于知识图谱的构建和维护，以及跨域知识的整合具有重要意义。

　　收稿日期：２０１８０５２４；修回日期：２０１８０７１０　　基金项目：河北省自然科学基金资助项目（２０１５２０１１４２）

　　作者简介：刘振鹏（１９６６），男，河北安国人，教授，博士，主要研究方向为大数据、网络信息安全、自然语言处理；贺梦洁（１９９２），女，硕士，主要

研究方向为大数据、自然语言处理；张彬（１９８０），男（通信作者），高级实验师，硕士，主要研究方向为网络安全（ｚｂ＠ｈｂｕ．ｅｄｕ．ｃｎ）；董静（１９９２），

女，硕士，主要研究方向为大数据、自然语言处理；徐建民（１９６６），男，教授，博导，主要研究方向为信息检索、不确定信息处理．

基于主题模型的百科知识库实体对齐



刘振鹏

ａ，ｂ

，贺梦洁

ａ

，张　彬

ｂ

，董　静

ａ

，徐建民

ｃ

（河北大学ａ．电子信息工程学院；ｂ．信息技术中心；ｃ．网络空间安全与计算机学院，河北保定０７１００２）

摘　要：针对传统实体对齐方法无法体现潜在语义信息的问题，对其进行优化，使实体对齐效果更加显著。使用

潜在狄利克雷分配（ｌａｔｅｎｔＤｉｒｉｃｈｌｅｔａｌｌｏｃａｔｉｏｎ，ＬＤＡ）模型对网络百科非结构化数据进行建模，采用改进的置信传播

（

ｂｅｌｉｅｆｐｒｏｐａｇａｔｉｏｎ，ＢＰ）算法求解ＬＤＡ模型中的隐藏参数，进而生成实体特征向量进行相似度计算，通过计算结果

判断是否可以对齐。实验结果表明，通过与三种传统算法进行比较，所提算法在准确率、召回率和综合指标

Ｆ值三

个评价指标方面均有所提高。针对具有描述信息的网络百科实体，该算法可以有效提升实体对齐效果。

关键词：实体对齐；潜在狄利克雷分配模型；置信传播算法；知识融合

中图分类号：ＴＰ３９１１；ＴＰ３０１６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１９）１１０１９３２８６０４

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．０５．０３０５

Ｅｎｔｉｔｙａｌｉｇｎｍｅｎｔｆｏｒｅｎｃｙｃｌｏｐｅｄｉａｋｎｏｗｌｅｄｇｅｂａｓｅｂａｓｅｄｏｎｔｏｐｉｃｍｏｄｅｌ

ＬｉｕＺｈｅｎｐｅｎｇ

ａ，ｂ

，ＨｅＭｅｎｇｊｉｅ

ａ

，ＺｈａｎｇＢｉｎ

ｂ

，ＤｏｎｇＪｉｎｇ

ａ

，ＸｕＪｉａｎｍｉｎ

ｃ

（ａ．ＣｏｌｌｅｇｅｏｆＥｌｅｃｔｒｏｎｉｃＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ｂ．ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＣｅｎｔｅｒ，ｃ．ＳｃｈｏｏｌｏｆＣｙｂｅｒＳｅｃｕｒｉｔｙ＆Ｃｏｍｐｕｔｅｒ，ＨｅｂｅｉＵｎｉｖｅｒｓｉｔｙ，

ＢａｏｄｉｎｇＨｅｂｅｉ０７１００２，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ａｉｍｉｎｇａｔｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｒａｄｉｔｉｏｎａｌｅｎｔｉｔｙａｌｉｇｎｍｅｎｔｍｅｔｈｏｄｃｏｕｌｄｎｏｔｒｅｆｌｅｃｔｌａｔｅｎｔｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎ，ｔｈｉｓ

ｐａｐｅｒｏｐｔｉｍｉｚｅｄｉｔ，ｍａｋｉｎｇｔｈｅｅｆｆｅｃｔｏｆｅｎｔｉｔｙａｌｉｇｎｍｅｎｔｍｏｒｅｓｉｇｎｉｆｉｃａｎｔ．ＩｔｕｓｅｄｔｈｅＬＤＡｍｏｄｅｌｔｏｍｏｄｅｌｔｈｅｕｎｓｔｒｕｃｔｕｒｅｄｄａ

ｔａｏｆｔｈｅｎｅｔｗｏｒｋｅｎｃｙｃｌｏｐｅｄｉａ，ａｎｄａｄｏｐｔｅｄｔｈｅｉｍｐｒｏｖｅｄＢＰａｌｇｏｒｉｔｈｍｔｏｓｏｌｖｅｔｈｅｈｉｄｄｅｎｐａｒａｍｅｔｅｒｓｏｆＬＤＡｍｏｄｅｌ，ｉｎｔｕｒｎ，

ｇｅｎｅｒａｔｅｄｅｎｔｉｔｙｅｉｇｅｎｖｅｃｔｏｒｓｔｏｐｅｒｆｏｒｍｓｉｍｉｌａｒｉｔｙｃａｌｃｕｌａｔｉｏｎ．Ｆｉｎａｌｌｙ，ｔｈｒｏｕｇｈｃａｌｃｕｌａｔｉｏｎｒｅｓｕｌｔｓｃｏｕｌｄｄｅｔｅｒｍｉｎｅｗｈｅｔｈｅｒ

ａｌｉｇｎｍｅｎｔ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔ，ｔｈｒｏｕｇｈｃｏｍｐａｒｉｎｇｗｉｔｈｔｈｒｅｅｋｉｎｄｓｏｆｔｒａｄｉｔｉｏｎａｌａｌｇｏｒｉｔｈｍｓ，ｔｈｅｐｒｏｐｏｓｅｄａｌ

ｇｏｒｉｔｈｍｉｎｃｒｅａｓｅｓｔｈｅｔｈｒｅｅｅｖａｌｕａｔｉｏｎｉｎｄｅｘｔｈａｔａｂｏｖｅｐｒｅｃｉｓｉｏｎ

，ｒｅｃａｌｌａｎｄＦｓｃｏｒｅ．Ａｉｍｉｎｇａｔｔｈｅｎｅｔｗｏｒｋｅｎｃｙｃｌｏｐｅｄｉａｅｎｔｉ

ｔｙｗｉｔｈｄｅｓｃｒｉｐｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ，ｔｈｅａｌｇｏｒｉｔｈｍｃａｎｅｆｆｅｃｔｉｖｅｌｙｉｍｐｒｏｖｅｔｈｅｅｎｔｉｔｙａｌｉｇｎｍｅｎｔｅｆｆｅｃｔ．

Ｋｅｙｗｏｒｄｓ：ｅｎｔｉｔｙａｌｉｇｎｍｅｎｔ；ＬＤＡｍｏｄｅｌ；ＢＰａｌｇｏｒｉｔｈｍ；ｋｎｏｗｌｅｄｇｅｆｕｓｉｏｎ

０　引言

近十几年，互联网产生了越来越多的大规模知识库。例如

国外具有代表性的知识库

ＦｒｅｅＢａｓｅ

［１］

、ＤＢｐｅｄｉａ

［２］

、维基百科本

体知识库（ｙｅｔａｎｏｔｈｅｒｇｒｅａｔｏｎｔｏｌｏｇｙ，ＹＡＧＯ

［３］

）和Ｏｍｅｇａ

［４］

等；

在我国，著名知识库有百度知心、搜狗知立方及清华大学双语

知识库ＸＬｏｒｅ

［５］

。知识库在知识图谱

［６］

、信息融合及智能语义

问答

［７］

等自然语言处理和人工智能领域均有重要的意义。中文

知识库构建过程中，可用的完备数据资源比较少，在获取完整知

识的过程中，需要将不同知识库里的知识数据进行集成、整合和

复用，实体对齐作为知识融合的重要方法对知识库的构建和扩

充产生着重要的作用。实体

［８］

（ｅｎｔｉｔｙ）是指客观存在并且可以

进行区别的事物，包括具体的人、事、物、抽象的概念或关系等。

实体对齐也可被称为是实体链接

［９］

，其目的是判断不同数据

源

［１０］

中的两个实体是否指向现实世界中的同一对象。

目前，实体对齐方法的研究主要有基于网络本体语义

［１１］

（Ｗｅｂｏｎｔｏｌｏｇｙｌａｎｇｕａｇｅ，ＯＷＬ）、基于规则分析、基于相似度理

论判定三种。针对中文网络百科，它本身不具有完备的本体信

息，因此，很难通过ＯＷＬ进行对齐，并且网络百科当中包含的

实体领域众多，若通过建立规则进行对齐，不同的领域要建立

不同的规则，这类方法不具有通用性。使用比较广泛的是基于

相似度理论进行判定，通常这一类方法通过对属性值赋予权

重

［１２］

，然后通过计算不同实体的同一属性相似度进行实体对

齐。近几年由于主题模型的盛行也出现了应用主题模型对实

体的描述性文本进行建模，之后运用相似度进行实体对齐的方

法。文献［１３，１４］利用ＲＤＦＳ词表对属性进行规范化之后，利

用属性相似度和描述性文本的主题特征相似度进行结合，实现

了实体对齐；文献［１５］提出一种半监督协同训练的实体对齐

方法，结合实体名称、属性、描述文本及其中的时间、数值等关

键信息进行实体对齐；文献［

１６］提出一种独立于本体模式的

基于属性语义特征的实体对齐方法，采用的仍然是实体的属性

信息。然而这样的方法对于匮乏属性信息的实体则不适用，尤

其对于中文网络百科，不同网络百科的相同属性的名称甚至属

性信息出现了很多不一致的情况。例如众所周知的百度百科

和互动百科这两个国内规模较大的网络百科网站，在 “英文

名”这一属性项目中，百度百科采用的是“外文名”，而互动百

科采用的则是“英文名”；而对于歌手“张杰”这一公众人物的

别名这一属性项，百度百科采用的是“杰哥”，而互动百科采用

的是“张小杰”，这种现象对于采用属性信息进行实体对齐无

疑是增加了一定的难度。在这个过程中首先要考虑的就是对

于属性的名称进行统一，若无法保证属性对齐的准确率，则对

于最后的结果有很大的影响。并且通过研究，对于中文网络百

科而言，属性信息在处理不当的情况下会产生不良效果，并且

加大了实体对齐的工作量。因此，百科知识库中包含的大量实

体摘要信息和描述性文本可以被有效利用，如何只利用实体的

第３６卷第１１期

２０１９年１１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３６Ｎｏ．１１

Ｎｏｖ．２０１９

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38671048

粉丝: 4
资源: 870

利用LDA模型和BP算法优化的百科实体对齐方法

基于网络语义标签的多源知识库实体对齐算法+人工智能+知识图谱+预训练模型

知识库实体对齐技术综述

基于孪生循环神经网络的实体对齐算法研究+人工智能+知识图谱+预训练模型

2020基于深度学习的知识图谱实体对齐

基于深度学习的知识图谱实体对齐.pptx

基于嵌入表示的知识图谱实体对齐研究+人工智能+知识图谱+预训练模型

基于深度学习的知识图谱实体对齐qy.pptx

基于深度学习的知识图谱实体对齐qytp.pptx

基于表示学习的知识图谱实体对齐算法

网络语义标签驱动的多源知识库实体对齐方法

最新资源