第 !" 卷#第 " 期 #
!"#$!"# %"$" #
计 算 机 工 程
&"'()*+,-./0.++,0./
##
$%&' 年 " 月
12,34 $%&'
!人工智能及识别技术!
文章编号" !"""#$%&'#&"!($"$#"&& P #"( * * * 文献标志码" +* * * 中 图 分 类 号 " ,-!'
基金项目"国家自然科学基金!(&!'$%+*"#国家.)'" / 计划 项 目!$%&*&F"*++%% " #上海市科 技创新 行动计 划基础 研究项 目!&*>&&!%%)%%"#
上海市青年科技启明星计划项目!&"HE$$(%$%%"$
作者简介"李# 薇!&))&%" &女&硕士研究生&主研方向为数据挖掘#肖 仰 华 &副 教 授 '博士'博士生导师#汪 # 卫 &教 授 '博士'博士生导师$
收稿日期"$%&(7%$7&+ # # 修 回 日 期 "$%&( 7%* 7&" # # /#0123"&"$&%$!%%&+ , =)H2.$+H)$3.
基于中文知识图谱的人物实体识别
李#薇! 肖仰华! 汪#卫
! 复旦大学 计算机科学技术学院&上海 $%&$%" "
摘# 要" 分类是知识图谱构建中的一个重要问题&但是目前多数中文百科都采用人工编辑的方式为词条添加分类&
耗费人力并且存在漏标和标 错 等 问 题$ 为 此&提 出 一 种 自 动 识 别 百 度 百 科 人 物 领 域 下 全 部 实 体 并 添 加 分 类 的 方
法$ 对百度百科词条已有的分类'属性和副标题 进 行 实体 集 拓 展&使 用 马 尔 科 夫逻 辑 网 络 方 法 联 合 推 断词 条 的 分
类$ 实验结果表明&与支持 向 量 机 和 逻 辑 回 归 算 法 相 比&该 方 法 在 实 体 识 别 的 精 确 度 和 召 回 率 方 面 性 能 均 有 所
提升$
关键词" 实体分类#实体集拓展#马尔科夫逻辑网络#知识图谱#机器学习#联合推断
中文引用格式"李#薇&肖仰华&汪#卫$基于中文知识图谱的人物实体识别(>)$计算机工程&$%&'&!"!""*$$*7$"&&$!%$
英文引用格式"U0A+0&V02" B2./4)2&A2./ A+0$D+"(#+-.*0*I R+3"/.0*0". F2G+H ". &40.+G+W."P#+H /+5,2(4( >) $
&"'()*+,-./0.++,0./&$%&'&!" !"" *$$* 7$"& &$!% $
-;=53;/>@2@F N;?=I>2@2=>B1C;D=>SH2>;C;K>=L3;DI;Q615H
U6A+0&V6L< B2./4)2&AL%5 A+0
! 934""#"=&"'() *+,930+.3+&J)H2. K.0M+,G0*I&942./420$%&$%" &&40.2"
+ +JC@61?@, GG0=032*0". 0G2. 0'(",*2.*0GG)+0. 3".G*,)3*0./ :."P#+H/+/,2(4$?"P+M+,& *4++N0G*0./ 32*+/",0+G2,+
+H0*+H OI 4)'2. O+0./G=",&40.+G+F20:+P+OG0*+G&#+2H0./ *" 0.3,+2G0./ '2.("P+,3"G*2.H #"G*",+,,","=32*+/",0+G$
L0'0./ 2**40G(,"O#+'
& *40G(2(+,(," ("G+G2'+*4"H *" ,+3"/.0E+2##+.*0*0+G"=F20H) F20:+$).H+,(+"(#+H"'20.
2)*"'2*032##I 2.H 2HH 32*+/",0+G=",*4+G++.*0*0+G$-.*0*I 9+*-N(2.G0". ! -9-" 0G)G+H =",+N0G*0./ ,2P H2*2"=#0:+
32*+/",0+G&2**,0O)*+G2.H G)O*0*#+G&2.H 12,:"M U"/03%+*P",:! 1U%" 0G)G+H *" Q"0.*#I 0.=+,+.3+*4+32*+/",I "=+.*0*0+G$
-N(+,0'+.*2#,+G)#*G4"PG*42*&3"'(2,+H P0*4 9)((",*!+3*",12340.+! 9!1" 2.H U"/0G*03R+/,+GG0".! UR" 2#/",0*4 '&
*4+(,"("G+H '+*4"H (+,=",'G')34 O+**+,O"*4 0. (,+30G0". 2.H ,+32##2G(+3*G$
+ K;F L=6DC, +.*0*I 3#2GG0=032*0".# -.*0*I 9+*-N(2.G0". ! -9-" # 12,:"M U"/03%+*P",: ! 1U%" # :."P#+H/+/,2(4#
'2340.+#+2,.0./#Q"0.*0.=+,+.3+
M:8*&%$")() ;Q$0GG.$&%%% 7"!$+ $$%&' $%"$%"+
"*概述
知识图谱最早由 5""/#+提出&利用 知 识 图谱 可
以对搜索结果 进 行 知 识 系 统 化 处 理&使 关 键 词 获 得
完整的知识 体 系$ 从 本 质 上 来 看&知 识 图 谱 是 一 种
语义网络&其结点代表实体或者 概 念&边代表实体与
概念之间的各种语义关系$ 知识图谱的直接推动力
来自于一系列 实 际 应 用&包 括 语 义 搜 索'机 器 问 答'
情报检索'电子阅读'在线学习等
(&)
$
在知识图谱 中&实 体 的 分 类 信 息 描 述 了 实 体 所
属的概念域&对 实 体 的 解 释 和 用 户 理 解 具 有 重 要 意
义
! 如苹果属于 水 果&水果 又 属于 植 物" $ 同 一 分 类
下的实体具 有 领域 相 关 性&如 具 有 相 似 的 属 性$ 百
度百科'互动百科等中文百科都 已 有 分 类 专 题&由人
工编辑词条 的 类 别$ 实 体 分 类 有 利 于 知 识 结 构 化'
层次化的展示$ 分类其实也是为实体标注上层概念
的过程&对于构建中文知识图谱中的. 0G2/ 关系很有
帮助$ 但由于目前中文百科实体分类仍需要人工编
辑&并且主观因素影响较大&漏标和标错现象非常严
重&因此迫切 需 要 一 种 能 够 自 动 识 别 某 一 类 别 下 实
体的方法为中文知识图谱中的实体添加分类
$
百度百 科 约 有 **% 万词 条&其 中 人 物 分 类 下 的