基于
基于基于
基于子主题区域划分的多文档自动文摘
子主题区域划分的多文档自动文摘子主题区域划分的多文档自动文摘
子主题区域划分的多文档自动文摘方法
方法方法
方法
王
王王
王
萌
萌萌
萌
1
,
,,
,徐
徐徐
徐
超
超超
超
2
,
,,
,李春贵
李春贵李春贵
李春贵
1
,
,,
,何婷婷
何婷婷何婷婷
何婷婷
3
(1. 广西工学院计算机工程系,广西 柳州 545006; 2. 福建师范大学软件学院,福州 350007;
3. 华中师范大学计算机科学系,武汉 430079)
摘
摘摘
摘 要
要要
要:
::
:为解决词频矩阵的词频维数过大和矩阵过于稀疏的问题,提出一种子主题区域划分的多文档自动文摘方法。使用知网进行概念获
取,建立概念向量空间模型,代替传统的词频向量空间模型。在概念向量空间模型的基础上,利用一种改进的层次分割法对文档集合进行
子主题划分,从各个子主题中抽取出满足一定数量的句子作为文摘。实验结果验证了该方法的有效性。
关键词
关键词关键词
关键词:
::
:子主题区域;自动文摘;知网;概念向量空间模型
Method of Multi-document Automatic Summarization
Based on Sub-topic Area Partition
WANG Meng
1
, XU Chao
2
, LI Chun-gui
1
, HE Ting-ting
3
(1. Department of Computer Engineering, Guangxi University of Technology, Liuzhou 545006, China
2. Faculty of Software, Fujian Normal University, Fuzhou 350007, China
3. Department of Computer Science, Huazhong Normal University, Wuhan 430079, China)
【
【【
【Abstract】
】】
】In order to solve the greatly dimension of word frequency and sparse matrix, this paper proposes a multi-document summarization
method based on sub-topics area partition. It uses HowNet to obtain concept of word, constructs Concept Vector Sapce Model(CVSM) replace
traditional Word Frequency Vector Space Model(WFVSM). After constructed CVSM, the document is segmented into several units in terms of the
sub-topics in the document. The most representative sentences in each sub-topic unit are selected as the summary sentences. Experiment results
prove the validity of the method.
【
【【
【Key words】
】】
】sub-topic area; automatic summarization; HowNet; Concept Vector Space Model(CVSM)
DOI: 10.3969/j.issn.1000-3428.2011.12.053
计 算 机 工 程
Computer Engineering
第 37 卷 第 12 期
Vol.37 No.12
2011 年 6 月
June 2011
·
··
·人工智能及识别技术
人工智能及识别技术人工智能及识别技术
人工智能及识别技术·
··
·
文章编号
文章编号文章编号
文章编号:
::
:1000—
——
—3428(2011)12—
——
—0158—
——
—03
文献标识码
文献标识码文献标识码
文献标识码:
::
:A
中图分类号
中图分类号中图分类号
中图分类号:
::
:TP391
1
概述
概述概述
概述
多文档文摘技术的特点是将同一主题下的文档集合进行
有效压缩,而这些文档集合往往在同一主题下从几个不同的
角度对事件进行论述。因此,对同一主题下的子主题划分成
为多文档文摘的一个主要研究方向。目前,在国内外对文本
主题划分的相关研究中,主要采用词频向量对文本进行表示。
由所有文本的词频向量构成的文本——词频矩阵,具有词频
维数过大和矩阵过于稀疏的问题
[1]
。词频维数过大,使得分
类或聚类算法的计算复杂度相当高,即使去除大量停用词,
情况仍然不能得到改善;而矩阵过于稀疏,造成大量特征值
间差别较小,空间中存在大量孤立点,使得各种分类或聚类
算法的效果不理想。同时,由于自然语言的多样性,仅仅依
靠特征词的重复频率信息,而不考虑词语自身的意义是不够
的。因此,本文提出一种基于子主题区域划分的多文档自动
文摘方法,基于知网
(HowNet)
进行概念获取,建立概念向量
空间模型
(Concept Vector Space Model, CVSM)
,减小文本表
示过程中形成的稀疏矩阵问题
[2]
;用概念向量替换词频向量,
深入考虑了词语的意义,能更准确地描述文本集合。
2
基于
基于基于
基于
HowNet
的概念获取
的概念获取的概念获取
的概念获取
2.1 HowNet
简介
简介简介
简介
HowNet
是一个以汉语和英语的词语所代表的概念为描
述对象,以揭示概念与概念之间以及概念所具有的属性之间
的关系为基本内容的常用知识库
[3]
。运用
HowNet
所带的知
识库作为对词语意义赋值的重要资源,通过处理可以得到
HowNet
里面的一些有用信息。其格式描述如下:
W_X=
词语,
G_X=
词语的词性,
E_X=
词语举例,
DEF=
词语的定义。对
HowNet
处理后得到的信息
(
部分
)
如表
1
所示。
表
表表
表
1
对
对对
对
How Net
处理
处理处理
处理后得到的
后得到的后得到的
后得到的信息
信息信息
信息
W_X
G_X
DEF
标准
N
Standard|
标准
:host={entity|
实体
}
标准
ADJ
qualified|
合格
爆炸
V
FormChange|
形变
:StateFin={OutOfOrder|
坏掉
}
爆炸
V
lighting|
点燃
:purpose={CauseToDo|
使动
:
ResultEvent={FormChange|
形变
:
StateFin={OutOfOrder|
坏掉
}}}
2.2
基于
基于基于
基于
HowNet
的概念获取
的概念获取的概念获取
的概念获取
2.2.1
预处理
对文本进行分词处理后,需对每个已经切分的词语进行
词性的标注,这样可以在预处理阶段就排除那些对文本文摘
作用不大的介词、虚词、数词等词语,只对一些关键的名词、
形容词等重要词语进行处理,这样可以大大提高程序运行的
基金项目
基金项目基金项目
基金项目:
::
:国家“863”计划基金资助项目(2009AA04Z146);国家
自然科学基金资助项目(90920005);广西教育厅基金资助项目(2008
08LX338);福建省教育厅 B 类基金资助项目(JB09054);广西工学院
院管基金资助项目(院科自 1074006)
作者简介
作者简介作者简介
作者简介:
::
:王 萌(1979-),男,讲师、硕士,主研方向:自然语言
理解,信息检索;徐 超,讲师、硕士;李春贵,副教授、博士;
何婷婷,教授、博士、博士生导师
收稿日期
收稿日期收稿日期
收稿日期:
::
:2010-11-04 E-mail:
::
:mwang007@163.com