没有合适的资源?快使用搜索试试~ 我知道了~
首页改进TextRank算法提升中文文本自动摘要准确性和效率
改进TextRank算法提升中文文本自动摘要准确性和效率
需积分: 0 2 下载量 195 浏览量
更新于2024-08-05
收藏 562KB PDF 举报
本文主要探讨了一种基于改进的TextRank算法的自动摘要提取方法,由作者余珊珊、苏锦钿和李鹏飞共同研究。TextRank算法是Google PageRank算法的一种文本处理应用,它最初用于网页排名,但在此被扩展到自动摘要领域。传统的TextRank算法在进行文档摘要时,仅关注句子间的相似性,而忽视了文档的篇章结构以及句子的上下文信息,这可能导致摘要质量的降低。 针对这些不足,研究人员提出了一种改进的iTextRank算法,该方法特别适用于中文文本,因为它考虑了中文文本的独特结构特性。具体来说,他们将标题、段落、特殊句子(如疑问句、结论句等)、句子在文档中的位置以及句子长度等因素纳入到TextRank网络图的构建中,这样可以更全面地反映句子之间的关系。此外,他们还设计了改进的句子相似度计算方法,并引入了一个权重调整因子,以平衡不同因素对摘要的重要性。 在应用过程中,iTextRank算法能够更好地捕捉文本的内在逻辑和连贯性,从而生成更加准确和精炼的摘要。文章进一步分析了这种改进算法的时间复杂度,强调了其在效率上的优势。实验结果表明,相比于经典的TextRank方法,iTextRank在提高准确率的同时,还能降低召回率,这意味着它能更精准地挑选出最重要的信息进行摘要。 本文的研究不仅对自然语言处理领域,特别是在自动文本摘要技术上有所贡献,而且对于理解和利用中文文本的特性和结构有着重要的实践价值。关键词包括中文文本、自动摘要提取、TextRank算法、篇章结构以及无监督学习方法,这些都是本文的核心研究内容。这项工作提供了一种创新的方法来提升文档摘要的质量,对于处理大规模文本数据具有实际意义。
资源详情
资源推荐
第
4
3
卷
第
6
期
2016
年
6
月
计
算 机 科 学
C
om
p
uter
Science
Vol.43No.6
J
une
2016
到
稿日 期
:
2
016
-
0
1
-
2
0
返
修 日 期
:
2
016
-
0
3
-
2
0
本
文 受 广 东 省 自 然 科 学 基 金
(
2015
A030310318
)
,
广
东省医学科学技术研究基金项目
(
A
2015065
)
,
国家自然科学基金资助项目
(
61103038
)
资
助
。
余珊珊
(
1
980-
)
,
女
,
博
士
,
讲师
,
主要研究方向为本体
、
范畴论
、
程序语言
、
自然语言理解
,
E
-
m
ail
:
sus
y
u
@
139.com
;
苏
锦钿
(
1
980-
)
,
男
,
博
士
,
副教授
,
主要研究方向为大数据
、
形式语义和范畴论
;
李鹏飞
(
1
993-
)
,
男
,
主要研究方向为文本挖掘
。
基
于改进的
TextRank
的自动摘要提取方法
余
珊珊
1
苏
锦钿
2
李
鹏飞
2
(
广
东药科大学医药信息工程学院
广州
5
10006
)
1
(
华南
理工大学计算机科学与工程学院
广州
5
10640
)
2
摘
要
经
典的
TextRank
算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性
,
而忽略了文档的篇章
结构及句子的上下文信息
。
针对这些问题
,
结合中文文本的结构特点
,
提出一种改进后的
iTextRank
算法
,
通过将标
题
、
段落
、
特殊句子
、
句子位置和长度等信息引入到
TextRank
网络图的构造中
,
给出改进后的句子相似度计算方法及
权重调整因子
,
并将其应用于中文文本的自动摘要提取
,
同时分析了算法的时间复杂度
。
最后
,
实验证明
i
TextRank
比经典的
TextRank
方法具有更高的准确率和更低的召回率
。
关键词
中文文本
,
自动摘要提取
,
TextRank
,
篇章结构
,
无监督学习方法
中图法分类号
TP181
文献标识码
A
DOI
10.11896
/
j
.issn.1002
-
1
37X.2016.6.048
I
m
p
roved
TextRank
-
b
ased
Method
for
Automatic
Summarization
Y
U
Shan
-
s
han
1
S
U
Jin
-
d
ian
2
L
I
Pen
g
-
f
ei
2
(
C
olle
g
e
of
Medical
Information
En
g
ineerin
g
,
Guan
g
don
g
Pharmaceutical
Universit
y
,
Guan
g
zhou
510006
,
China
)
1
(
C
olle
g
e
of
Com
p
uter
Science
and
En
g
ineerin
g
,
South
China
Universit
y
of
Technolo
gy
,
Guan
g
zhou
510640
,
China
)
2
A
bstract
The
canonical
TextRank
usuall
y
onl
y
considers
the
similarit
y
between
sentences
in
the
p
rocesses
of
automatic
summarization
and
ne
g
lects
the
information
of
text
structures
and
sentence
contexts.To
overcome
these
disadvanta
g
es
,
we
p
ro
p
osed
an
im
p
roved
method
on
the
basis
of
TextRank
,
called
iTextRank
,
b
y
incor
p
oratin
g
the
structure
informa
-
t
ion
of
Chinese
texts.iTextRank
takes
some
im
p
ortant
contexts
and
semantic
information
into
consideration
,
includin
g
titles
,
p
ara
g
ra
p
hs
,
s
p
ecial
sentences
,
p
ositions
and
len
g
ths
of
sentences
,
when
buildin
g
the
network
dia
g
ram
of
TextRank
,
com
p
utin
g
the
similarities
of
sentences
and
ad
j
ustin
g
the
wei
g
hts
of
the
nodes.We
also
a
pp
lied
iTextRank
into
the
auto
-
m
atic
summarization
of
Chinese
texts
and
anal
y
zed
its
time
com
p
lexities.Finall
y
,
some
ex
p
eriments
were
done.The
re
-
s
ults
p
rove
that
iTextRank
has
hi
g
her
accurac
y
rate
and
lower
recall
rate
com
p
ared
with
canonical
TextRank.
Ke
y
words
Chinese
texts
,
Automatic
summarization
extraction
,
TextRank
,
Article
discourse
,
Unsu
p
ervised
learnin
g
methods
1
引
言
近
年来
,
不少学者针对汉语的特点对中文文本的自动摘
要提取展开了相关的研究
。
例如
,
文献
[
1
]
提出一种基于篇章
结构的中文
Web
文档自动摘要技术
,
主要通过篇章结构分
析
、
词语权重计算
、
关键词提取并统计句子的权重等方式生成
摘要
,
但没有考虑句子间的关系
。
文献
[
2
]
提出一种基于回归
模型的句子相似度计算方法
,
重点考虑了词语的前后位置信
息
,
但忽略句子与标题的关系
、
句子的位置以及特殊句子等信
息
。
文献
[
3
]
提出一种基于
LexRank
改进算法的自动摘要系
统
,
考虑了指示性词语特征
、
句子长度及位置信息
,
但没有 考
虑标题和特殊句子等
。
文献
[
4
,
5
]
采用有监督的机器学习方
法
,
并将熵和相关度等性质作为句子的特征来选择文档的摘
要
。
其中
,
文献
[
4
]
主要基于线性回归和
ELM
回归
(
Extreme
Learnin
g
Machine
),
而 文 献
[
5
]
主 要 基 于
LDA
(
Latent
Dirichlet
Allocation
)
模型和主题模型
。
这两者均采用有监督
的学习方法
,
准确率较高
,
但容易受训练样本的影响
,
而且领
域通用性较差
,
不适合用于海量文本的摘要提取
。
TextRank
算法
[
6
]
是
M
ihalcea
和
Tarau
于
2004
年在研究自
动摘要提取过程所提出来的
,
主 要是 借 鉴
Goo
g
le
公 司
Pa
g
e
-
R
ank
算法的思路
,
将句子间的相似关系看成是一种推荐或投
票关系
,
由此构建
T
extRank
网络图
,
并通过迭代计算至收敛来
得到句子的权重值
。
在此基础上
,
文献
[
7
-
9
]
将
T
extRank
应用
于信息的检索
,
其中文献
[
7
,
8
]
根据一定窗口内词项的共现信
息构建无权的
T
extRank
网络图
,
而文献
[
9
]
则进一步利用词
项间的共现频率作为边的权重来构建加权网络
。
文 献
[
10
-
1
2
]
将
TextRank
应用于关键词的提取
,
其中文献
[
10
]
主要考
虑了词与词之间
、
句子与句子之间
、
词与句子之间等文章结构
信息
,
文献
[
1
1
]
主要考虑词频
、
词性和词语间的语义关系等信
息
,
而文献
[
12
]
则通过引入社会化标签
Ta
g
的 方 式 来 调 整
TextRank
词项图中边的权重
,
并用于计算词项的重要度
。
上
述研究主要是在词频的基础上利用各种关联度计算方法
(
如
互信息
、
P
earson
’
s
χ
2
统
计量
、
Dice
系数等
)
计算词项间的关
联度
,
并构建相应的无权或加权
TextRank
网络图
,
不适合直
·
0
42
·
下载后可阅读完整内容,剩余7页未读,立即下载
王向庄
- 粉丝: 24
- 资源: 344
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功