收稿日期:20180524;修回日期:20180710 基金项目:河北省自然科学基金资助项目(2015201142)
作者简介:刘振鹏(1966),男,河北安国人,教授,博士,主要研究方向为大数据、网络信息安全、自然语言处理;贺梦洁(1992),女,硕士,主要
研究方向为大数据、自然语言处理;张彬(1980),男(通信作者),高级实验师,硕士,主要研究方向为网络安全(zb@hbu.edu.cn);董静(1992),
女,硕士,主要研究方向为大数据、自然语言处理;徐建民(1966),男,教授,博导,主要研究方向为信息检索、不确定信息处理.
基于主题模型的百科知识库实体对齐
刘振鹏
a,b
,贺梦洁
a
,张 彬
b
,董 静
a
,徐建民
c
(河北大学 a.电子信息工程学院;b.信息技术中心;c.网络空间安全与计算机学院,河北 保定 071002)
摘 要:针对传统实体对齐方法无法体现潜在语义信息的问题,对其进行优化,使实体对齐效果更加显著。使用
潜在狄利克雷分配(latentDirichletallocation,LDA)模型对网络百科非结构化数据进行建模,采用改进的置信传播
(
beliefpropagation,BP)算法求解 LDA模型中的隐藏参数,进而生成实体特征向量进行相似度计算,通过计算结果
判断是否可以对齐。实验结果表明,通过与三种传统算法进行比较,所提算法在准确率、召回率和综合指标
F值三
个评价指标方面均有所提高。针对具有描述信息的网络百科实体,该算法可以有效提升实体对齐效果。
关键词:实体对齐;潜在狄利克雷分配模型;置信传播算法;知识融合
中图分类号:TP3911;TP3016 文献标志码:A 文章编号:10013695(2019)11019328604
doi:10.19734/j.issn.10013695.2018.05.0305
Entityalignmentforencyclopediaknowledgebasebasedontopicmodel
LiuZhenpeng
a,b
,HeMengjie
a
,ZhangBin
b
,DongJing
a
,XuJianmin
c
(a.CollegeofElectronicInformationEngineering,b.InformationTechnologyCenter,c.SchoolofCyberSecurity&Computer,HebeiUniversity,
BaodingHebei071002,China)
Abstract:Aimingattheproblemthattraditionalentityalignmentmethodcouldnotreflectlatentsemanticinformation,this
paperoptimizedit,makingtheeffectofentityalignmentmoresignificant.ItusedtheLDAmodeltomodeltheunstructuredda
taofthenetworkencyclopedia,andadoptedtheimprovedBPalgorithmtosolvethehiddenparametersofLDAmodel,inturn,
generatedentityeigenvectorstoperform similaritycalculation.Finally,throughcalculationresultscoulddeterminewhether
alignment.Theexperimentalresultsshowthat,throughcomparingwiththreekindsoftraditionalalgorithms,theproposedal
gorithmincreasesthethreeevaluationindexthataboveprecision
,recallandFscore.Aimingatthenetworkencyclopediaenti
tywithdescriptioninformation,thealgorithmcaneffectivelyimprovetheentityalignmenteffect.
Keywords:entityalignment;LDAmodel;BPalgorithm;knowledgefusion
0 引言
近十几年,互联网产生了越来越多的大规模知识库。例如
国外具有代表性的知识库
FreeBase
[1]
、DBpedia
[2]
、维基百科本
体知识库(yetanothergreatontology,YAGO
[3]
)和 Omega
[4]
等;
在我国,著名知识库有百度知心、搜狗知立方及清华大学双语
知识库 XLore
[5]
。知识库在知识图谱
[6]
、信息融合及智能语义
问答
[7]
等自然语言处理和人工智能领域均有重要的意义。中文
知识库构建过程中,可用的完备数据资源比较少,在获取完整知
识的过程中,需要将不同知识库里的知识数据进行集成、整合和
复用,实体对齐作为知识融合的重要方法对知识库的构建和扩
充产生着重要的作用。实体
[8]
(entity)是指客观存在并且可以
进行区别的事物,包括具体的人、事、物、抽象的概念或关系等。
实体对齐也可被称为是实体链接
[9]
,其目的是判断不同数据
源
[10]
中的两个实体是否指向现实世界中的同一对象。
目前,实体对齐方法的研究主要有基于网络本体语义
[11]
(Webontologylanguage,OWL)、基于规则分析、基于相似度理
论判定三种。针对中文网络百科,它本身不具有完备的本体信
息,因此,很难通过 OWL进行对齐,并且网络百科当中包含的
实体领域众多,若通过建立规则进行对齐,不同的领域要建立
不同的规则,这类方法不具有通用性。使用比较广泛的是基于
相似度理论进行判定,通常这一类方法通过对属性值赋予权
重
[12]
,然后通过计算不同实体的同一属性相似度进行实体对
齐。近几年由于主题模型的盛行也出现了应用主题模型对实
体的描述性文本进行建模,之后运用相似度进行实体对齐的方
法。文献[13,14]利用 RDFS词表对属性进行规范化之后,利
用属性相似度和描述性文本的主题特征相似度进行结合,实现
了实体对齐;文献[15]提出一种半监督协同训练的实体对齐
方法,结合实体名称、属性、描述文本及其中的时间、数值等关
键信息进行实体对齐;文献[
16]提出一种独立于本体模式的
基于属性语义特征的实体对齐方法,采用的仍然是实体的属性
信息。然而这样的方法对于匮乏属性信息的实体则不适用,尤
其对于中文网络百科,不同网络百科的相同属性的名称甚至属
性信息出现了很多不一致的情况。例如众所周知的百度百科
和互动百科这两个国内规模较大的网络百科网站,在 “英文
名”这一属性项目中,百度百科采用的是“外文名”,而互动百
科采用的则是“英文名”;而对于歌手“张杰”这一公众人物的
别名这一属性项,百度百科采用的是“杰哥”,而互动百科采用
的是“张小杰”,这种现象对于采用属性信息进行实体对齐无
疑是增加了一定的难度。在这个过程中首先要考虑的就是对
于属性的名称进行统一,若无法保证属性对齐的准确率,则对
于最后的结果有很大的影响。并且通过研究,对于中文网络百
科而言,属性信息在处理不当的情况下会产生不良效果,并且
加大了实体对齐的工作量。因此,百科知识库中包含的大量实
体摘要信息和描述性文本可以被有效利用,如何只利用实体的
第 36卷第 11期
2019年 11月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.36No.11
Nov.2019