第 !" 卷#第 $ 期 #
!"#$!"# %"$$ #
计 算 机 工 程
&"'()*+,-./0.++,0./
##
%&'( 年 $ 月
1)/)2*%&'(
!人工智能及识别技术!
文章编号" !"""#$%&'#&"!($"'#"&! - #"Q ) ) ) 文献标志码" *) ) ) 中 图 分 类 号 " +,$!!
基金项目"国家自然科学基金1 基于篇章特征的越南语新闻事件信息抽取关键技术研究2 !)'* )%&!+" $
作者简介"蒲# 梅!'++'%" &女&硕士研究生&主研方向为数据挖掘'自 然语 言处 理#周 # 枫 &副教 授'硕 士#周 晶晶&硕 士 研 究 生#严 # 馨'
周兰江&副教授'硕士$
收稿日期"%&')6&)6'" # # 修 回 日 期 "%&') 6&$ 6'$ # # .#/012"("'$'(''" , WW$;" '
基于加权 +4R?30:B的新闻关键事件主题句提取
蒲#梅!周#枫!周晶晶! 严#馨! 周兰江
! 昆明理工大学 信息工程与自动化学院&昆明 )*&*&& "
摘#要" 为了在大量的新闻中快速找到自己感兴趣的内容&提出在单文档中基于加权 P+R*G9.? 算法提 取 主题句 的
方法&以得到新闻关键事件信息$ 通过计算新闻 文 本 句 子 关 键 词 的 互 信 息 值&对 新 闻 报 道 进 行 事 件 句 和 非 事 件 句
的分类&过滤出非事件句$ 基于 P+R*G9.? 算法的思想&构建一个 事 件句有 向 图&引入 句 子位置'句子相似度和关键
词覆盖频率 " 个影响因子&以此计算句子之间的影响权重&利用 P+R *G9.? 模型对图中的每个点计算权重&并选取排
序最靠前的句子作为关键事件的主 题 句$ 实 验 结 果 表 明&该 方 法 的 抽 取 效 果 优 于 基 于 词 频6逆 文 档 概 率 和 新 闻 标
题的主题句抽取方法$
关键词" P+R*G9.? 算法#句子相似度#关键事件#主题句提取#影响权重
中文引用格式"蒲#梅&周#枫&周晶晶&等$基于加权 P+R*G9.? 的新闻关键事件主题句提取( @) $计算机工程&% &'( &
!"!$ " *%'+6%%! $
英文引用格式"J) N+0& A8") 4+./& A8") @0./:0./& +*9#$P"(0;>+.*+.;+-R*,9;*0". "FU+I %+S2-Q+.*2592+H ".
D+0/8*+H P+R*G9.?( @) $&"'()*+,-./0.++,0./&%&'( &!" !$ " *%'+6%%! $
+9S17N4:?4:74.R?607?19:9=G4@ T4H5.Y4:?5D054>9:U41< 8?4>+4R?30:B
JM N+0&AB=M 4+./&AB=M @0./:0./&31% E0.&AB=M C9.:09./
! >;8""#"FL.F",'9*0". -./0.++,0./ 9.H 1)*"'9*0".& U).'0./ M.0Q+,20*I "F>;0+.;+9.H P+;8."#"/I& U).'0./ )*& *&& & &80.9"
+ *F5?607?, L. ",H+,*" W)0;?#I F0.H *8+;".*+.*I") 9,+0.*+,+2*+H 0. 0. #9,/+.)'<+,"F.+S2& 9'+*8"H <92+H ".
S+0/8*+H P+R*G9.? 9#/",0*8' 02(,"("2+H *" +R*,9;**8+*"(0;2+.*+.;+0. 920./#+H";)'+.*9.H /+*0.F",'9*0". 9<")*?+I
.+S2+Q+.*2$L*;#9220F0+2.+S2,+(",*292+Q+.*2+.*+.;+29.H .".6+Q+.*2+.*+.;+29.H F0#*+,2*8+#9**+,<I ;9#;)#9*0./ *8+
')*)9#0.F",'9*0". Q9#)+"F*8+?+IS",H20. *8+.+S2*+R *2+.*+.;+2$L*;".2*,);*29H0,+;*+H /,9(8 "F+Q+.*2+.*+.;+2".
*8+<9202"FP+R *G9.? 9#/",0*8'
& 9.H ;9#;)#9*+2*8+0.F#)+.;+S+0/8*<+*S++. 2+.*+.;+2<I 0.*,"H);0./ *8,++0.F#)+.;+
F9;*",2"F*8+2+.*+.;+("20*0".& 2+.*+.;+20'0#9,0*I 9.H ?+IS",H ;"Q+,9/+F,+W)+. ;I$L*;9#;)#9*+2*8+S+0/8*F",+9;8
("0.*0. *8+/,9(8 <I )20./ P+R*G9.? '"H+#9.H 2+#+;*2*8+'"2*F,".*2",*0./ 2+.*+.;+292*"(0;2+.*+.;+2"F*8+?+I
+Q+.*2$-R(+,0'+.*9#,+2)#*228"S *89**8+(,"("2+H '+*8"H 02<+**+,*89. *8+'+*8"H 2<92+H ". P+,' 4,+W)+.;I6L.Q+,2+
O";)'+.*J,"<9<0#02*0;! P46LO4" 9. H .+S2*0*#+0. *"(0;2+.*+. ;++R*,9;*0".$
+ G4@ H96>5, P+R*G9.? 9#/ ",0*8'#2+.*+.;+20'0#9,0*I#? +I +Q+.*#*"(0;2+.*+.;++R*,9;*0".#0.F#)+.;+S+0/8*
IJK*'& $"+)+ T:$022.$'&&& 6"!%$ $%&'( $&$ $&"(
")概述
随着计算机 技 术 和 互 联 网 的 不 断 发 展& 互 联 网
已经成为人 们 获 取 新 闻 信 息 的 主 要 信 息 来 源 之 一
$
然而由于互联 网 上 新 闻 网 页 内 容 的 急 剧 增 加&读 者
很难从众多的 信 息 中 快 速'准 确 地 获 取 自 己 感 兴 趣
的信息$ 含关键 事 件 的 主 题 句 可 以 简 洁' 准 确 地 描
述出新闻报道的事件&因此利用机器学 习'自然语 言
处理技术 从 多 个 事 件 中 识 别 出 关 键 事 件 及 其 主 题
句
&有利于人们快捷'准确地获取 事件信息$ 针对该
问题&本文提出基 于 P+R*G9.? 加权的 新 闻 关 键 事 件
主题句提取方法$
!)相关研究
对新闻 主 题 词' 句 的 研 究 中& 文 献 ( ' ) 为 适 应
L.*+,.+*时代和大规模文献处理 的 需 要&以 中 文 文 本
为处理对象&研究从主题词'主题 概念和主 题句 " 个
不同层面自动 抽 取 文 本 主 题 的 方 法&对 新 闻 类 文 献
做实验
&并简单 进行性能 分 析#文献(% ) 通 过计算两
个词在一个句 子 中 的 共 现 频 率&利 用 每 句 话 中 的 两