改进TextRank算法提升中文文本自动摘要准确性和效率 - CSDN文库

需积分: 0 195 浏览量更新于2024-08-05 收藏 562KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

第

４

３

卷

　

第

６

期

２０１６

年

６

月

计

算机科学

Ｃ

ｏｍ

ｐ

ｕｔｅｒ

　

Ｓｃｉｅｎｃｅ

Ｖｏｌ．４３Ｎｏ．６

Ｊ

ｕｎｅ

　

２０１６

到

稿日期

：

２

０１６

－

０

１

－

２

０

　

返

修日期

：

２

０１６

－

０

３

－

２

０

　

　

本

文受广东省自然科学基金

（

２０１５

Ａ０３０３１０３１８

）

，

广

东省医学科学技术研究基金项目

（

Ａ

２０１５０６５

）

，

国家自然科学基金资助项目

（

６１１０３０３８

）

资

助

。

余珊珊

（

１

９８０－

）

，

女

，

博

士

，

讲师

，

主要研究方向为本体

、

范畴论

、

程序语言

、

自然语言理解

，

Ｅ

－

ｍ

ａｉｌ

：

ｓｕｓ

ｙ

ｕ

＠

１３９．ｃｏｍ

；

苏

锦钿

（

１

９８０－

）

，

男

，

博

士

，

副教授

，

主要研究方向为大数据

、

形式语义和范畴论

；

李鹏飞

（

１

９９３－

）

，

男

，

主要研究方向为文本挖掘

。

基

于改进的

ＴｅｘｔＲａｎｋ

的自动摘要提取方法

余

珊珊

１

　

苏

锦钿

２

　

李

鹏飞

２

（

广

东药科大学医药信息工程学院

　

广州

５

１０００６

）

１

　

（

华南

理工大学计算机科学与工程学院

　

广州

５

１０６４０

）

２

　

摘

　

要

　

经

典的

ＴｅｘｔＲａｎｋ

算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性

，

而忽略了文档的篇章

结构及句子的上下文信息

。

针对这些问题

，

结合中文文本的结构特点

，

提出一种改进后的

ｉＴｅｘｔＲａｎｋ

算法

，

通过将标

题

、

段落

、

特殊句子

、

句子位置和长度等信息引入到

ＴｅｘｔＲａｎｋ

网络图的构造中

，

给出改进后的句子相似度计算方法及

权重调整因子

，

并将其应用于中文文本的自动摘要提取

，

同时分析了算法的时间复杂度

。

最后

，

实验证明

ｉ

ＴｅｘｔＲａｎｋ

比经典的

ＴｅｘｔＲａｎｋ

方法具有更高的准确率和更低的召回率

。

关键词

　

中文文本

，

自动摘要提取

，

ＴｅｘｔＲａｎｋ

，

篇章结构

，

无监督学习方法

中图法分类号

　

ＴＰ１８１

　　　

文献标识码

　

Ａ

　　　

ＤＯＩ

　

１０．１１８９６

／

ｊ

．ｉｓｓｎ．１００２

－

１

３７Ｘ．２０１６．６．０４８

　

Ｉ

ｍ

ｐ

ｒｏｖｅｄ

　

ＴｅｘｔＲａｎｋ

－

ｂ

ａｓｅｄ

　

Ｍｅｔｈｏｄ

　

ｆｏｒ

　

Ａｕｔｏｍａｔｉｃ

　

Ｓｕｍｍａｒｉｚａｔｉｏｎ

Ｙ

Ｕ

　

Ｓｈａｎ

－

ｓ

ｈａｎ

１

　

Ｓ

Ｕ

　

Ｊｉｎ

－

ｄ

ｉａｎ

２

　

Ｌ

Ｉ

　

Ｐｅｎ

ｇ

－

ｆ

ｅｉ

　

２

（

Ｃ

ｏｌｌｅ

ｇ

ｅ

　

ｏｆ

　

Ｍｅｄｉｃａｌ

　

Ｉｎｆｏｒｍａｔｉｏｎ

　

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

，

Ｇｕａｎ

ｇ

ｄｏｎ

ｇ

　

Ｐｈａｒｍａｃｅｕｔｉｃａｌ

　

Ｕｎｉｖｅｒｓｉｔ

ｙ

，

Ｇｕａｎ

ｇ

ｚｈｏｕ

　

５１０００６

，

Ｃｈｉｎａ

）

１

（

Ｃ

ｏｌｌｅ

ｇ

ｅ

　

ｏｆ

　

Ｃｏｍ

ｐ

ｕｔｅｒ

　

Ｓｃｉｅｎｃｅ

　

ａｎｄ

　

Ｅｎ

ｇ

ｉｎｅｅｒｉｎ

ｇ

，

Ｓｏｕｔｈ

　

Ｃｈｉｎａ

　

Ｕｎｉｖｅｒｓｉｔ

ｙ

　

ｏｆ

　

Ｔｅｃｈｎｏｌｏ

ｇｙ

，

Ｇｕａｎ

ｇ

ｚｈｏｕ

　

５１０６４０

，

Ｃｈｉｎａ

）

２

　

Ａ

ｂｓｔｒａｃｔ

　

Ｔｈｅ

　

ｃａｎｏｎｉｃａｌ

　

ＴｅｘｔＲａｎｋ

　

ｕｓｕａｌｌ

ｙ

　

ｏｎｌ

ｙ

　

ｃｏｎｓｉｄｅｒｓ

　

ｔｈｅ

　

ｓｉｍｉｌａｒｉｔ

ｙ

　

ｂｅｔｗｅｅｎ

　

ｓｅｎｔｅｎｃｅｓ

　

ｉｎ

　

ｔｈｅ

　

ｐ

ｒｏｃｅｓｓｅｓ

　

ｏｆ

　

ａｕｔｏｍａｔｉｃ

ｓｕｍｍａｒｉｚａｔｉｏｎ

　

ａｎｄ

　

ｎｅ

ｇ

ｌｅｃｔｓ

　

ｔｈｅ

　

ｉｎｆｏｒｍａｔｉｏｎ

　

ｏｆ

　

ｔｅｘｔ

　

ｓｔｒｕｃｔｕｒｅｓ

　

ａｎｄ

　

ｓｅｎｔｅｎｃｅ

　

ｃｏｎｔｅｘｔｓ．Ｔｏ

　

ｏｖｅｒｃｏｍｅ

　

ｔｈｅｓｅ

　

ｄｉｓａｄｖａｎｔａ

ｇ

ｅｓ

，

ｗｅ

　

ｐ

ｒｏ

ｐ

ｏｓｅｄ

　

ａｎ

　

ｉｍ

ｐ

ｒｏｖｅｄ

　

ｍｅｔｈｏｄ

　

ｏｎ

　

ｔｈｅ

　

ｂａｓｉｓ

　

ｏｆ

　

ＴｅｘｔＲａｎｋ

，

ｃａｌｌｅｄ

　

ｉＴｅｘｔＲａｎｋ

，

ｂ

ｙ

　

ｉｎｃｏｒ

ｐ

ｏｒａｔｉｎ

ｇ

　

ｔｈｅ

　

ｓｔｒｕｃｔｕｒｅ

　

ｉｎｆｏｒｍａ

－

ｔ

ｉｏｎ

　

ｏｆ

　

Ｃｈｉｎｅｓｅ

　

ｔｅｘｔｓ．ｉＴｅｘｔＲａｎｋ

　

ｔａｋｅｓ

　

ｓｏｍｅ

　

ｉｍ

ｐ

ｏｒｔａｎｔ

　

ｃｏｎｔｅｘｔｓ

　

ａｎｄ

　

ｓｅｍａｎｔｉｃ

　

ｉｎｆｏｒｍａｔｉｏｎ

　

ｉｎｔｏ

　

ｃｏｎｓｉｄｅｒａｔｉｏｎ

，

ｉｎｃｌｕｄｉｎ

ｇ

ｔｉｔｌｅｓ

，

ｐ

ａｒａ

ｇ

ｒａ

ｐ

ｈｓ

，

ｓ

ｐ

ｅｃｉａｌ

　

ｓｅｎｔｅｎｃｅｓ

，

ｐ

ｏｓｉｔｉｏｎｓ

　

ａｎｄ

　

ｌｅｎ

ｇ

ｔｈｓ

　

ｏｆ

　

ｓｅｎｔｅｎｃｅｓ

，

ｗｈｅｎ

　

ｂｕｉｌｄｉｎ

ｇ

　

ｔｈｅ

　

ｎｅｔｗｏｒｋ

　

ｄｉａ

ｇ

ｒａｍ

　

ｏｆ

　

ＴｅｘｔＲａｎｋ

，

ｃｏｍ

ｐ

ｕｔｉｎ

ｇ

　

ｔｈｅ

　

ｓｉｍｉｌａｒｉｔｉｅｓ

　

ｏｆ

　

ｓｅｎｔｅｎｃｅｓ

　

ａｎｄ

　

ａｄ

ｊ

ｕｓｔｉｎ

ｇ

　

ｔｈｅ

　

ｗｅｉ

ｇ

ｈｔｓ

　

ｏｆ

　

ｔｈｅ

　

ｎｏｄｅｓ．Ｗｅ

　

ａｌｓｏ

　

ａ

ｐｐ

ｌｉｅｄ

　

ｉＴｅｘｔＲａｎｋ

　

ｉｎｔｏ

　

ｔｈｅ

　

ａｕｔｏ

－

ｍ

ａｔｉｃ

　

ｓｕｍｍａｒｉｚａｔｉｏｎ

　

ｏｆ

　

Ｃｈｉｎｅｓｅ

　

ｔｅｘｔｓ

　

ａｎｄ

　

ａｎａｌ

ｙ

ｚｅｄ

　

ｉｔｓ

　

ｔｉｍｅ

　

ｃｏｍ

ｐ

ｌｅｘｉｔｉｅｓ．Ｆｉｎａｌｌ

ｙ

，

ｓｏｍｅ

　

ｅｘ

ｐ

ｅｒｉｍｅｎｔｓ

　

ｗｅｒｅ

　

ｄｏｎｅ．Ｔｈｅ

　

ｒｅ

－

ｓ

ｕｌｔｓ

　

ｐ

ｒｏｖｅ

　

ｔｈａｔ

　

ｉＴｅｘｔＲａｎｋ

　

ｈａｓ

　

ｈｉ

ｇ

ｈｅｒ

　

ａｃｃｕｒａｃ

ｙ

　

ｒａｔｅ

　

ａｎｄ

　

ｌｏｗｅｒ

　

ｒｅｃａｌｌ

　

ｒａｔｅ

　

ｃｏｍ

ｐ

ａｒｅｄ

　

ｗｉｔｈ

　

ｃａｎｏｎｉｃａｌ

　

ＴｅｘｔＲａｎｋ．

Ｋｅ

ｙ

ｗｏｒｄｓ

　

Ｃｈｉｎｅｓｅ

　

ｔｅｘｔｓ

，

Ａｕｔｏｍａｔｉｃ

　

ｓｕｍｍａｒｉｚａｔｉｏｎ

　

ｅｘｔｒａｃｔｉｏｎ

，

ＴｅｘｔＲａｎｋ

，

Ａｒｔｉｃｌｅ

　

ｄｉｓｃｏｕｒｓｅ

，

Ｕｎｓｕ

ｐ

ｅｒｖｉｓｅｄ

　

ｌｅａｒｎｉｎ

ｇ

ｍｅｔｈｏｄｓ

　

１

　

引

言

近

年来

，

不少学者针对汉语的特点对中文文本的自动摘

要提取展开了相关的研究

。

例如

，

文献

［

１

］

提出一种基于篇章

结构的中文

Ｗｅｂ

文档自动摘要技术

，

主要通过篇章结构分

析

、

词语权重计算

、

关键词提取并统计句子的权重等方式生成

摘要

，

但没有考虑句子间的关系

。

文献

［

２

］

提出一种基于回归

模型的句子相似度计算方法

，

重点考虑了词语的前后位置信

息

，

但忽略句子与标题的关系

、

句子的位置以及特殊句子等信

息

。

文献

［

３

］

提出一种基于

ＬｅｘＲａｎｋ

改进算法的自动摘要系

统

，

考虑了指示性词语特征

、

句子长度及位置信息

，

但没有考

虑标题和特殊句子等

。

文献

［

４

，

５

］

采用有监督的机器学习方

法

，

并将熵和相关度等性质作为句子的特征来选择文档的摘

要

。

其中

，

文献

［

４

］

主要基于线性回归和

ＥＬＭ

回归

（

Ｅｘｔｒｅｍｅ

Ｌｅａｒｎｉｎ

ｇ

　

Ｍａｃｈｉｎｅ

），

而文献

［

５

］

主要基于

ＬＤＡ

（

Ｌａｔｅｎｔ

Ｄｉｒｉｃｈｌｅｔ

　

Ａｌｌｏｃａｔｉｏｎ

）

模型和主题模型

。

这两者均采用有监督

的学习方法

，

准确率较高

，

但容易受训练样本的影响

，

而且领

域通用性较差

，

不适合用于海量文本的摘要提取

。

ＴｅｘｔＲａｎｋ

算法

［

６

］

是

Ｍ

ｉｈａｌｃｅａ

和

Ｔａｒａｕ

于

２００４

年在研究自

动摘要提取过程所提出来的

，

主要是借鉴

Ｇｏｏ

ｇ

ｌｅ

公司

Ｐａ

ｇ

ｅ

－

Ｒ

ａｎｋ

算法的思路

，

将句子间的相似关系看成是一种推荐或投

票关系

，

由此构建

Ｔ

ｅｘｔＲａｎｋ

网络图

，

并通过迭代计算至收敛来

得到句子的权重值

。

在此基础上

，

文献

［

７

－

９

］

将

Ｔ

ｅｘｔＲａｎｋ

应用

于信息的检索

，

其中文献

［

７

，

８

］

根据一定窗口内词项的共现信

息构建无权的

Ｔ

ｅｘｔＲａｎｋ

网络图

，

而文献

［

９

］

则进一步利用词

项间的共现频率作为边的权重来构建加权网络

。

文献

［

１０

－

１

２

］

将

ＴｅｘｔＲａｎｋ

应用于关键词的提取

，

其中文献

［

１０

］

主要考

虑了词与词之间

、

句子与句子之间

、

词与句子之间等文章结构

信息

，

文献

［

１

１

］

主要考虑词频

、

词性和词语间的语义关系等信

息

，

而文献

［

１２

］

则通过引入社会化标签

Ｔａ

ｇ

的方式来调整

ＴｅｘｔＲａｎｋ

词项图中边的权重

，

并用于计算词项的重要度

。

上

述研究主要是在词频的基础上利用各种关联度计算方法

（

如

互信息

、

Ｐ

ｅａｒｓｏｎ

’

ｓ

χ

２

统

计量

、

Ｄｉｃｅ

系数等

）

计算词项间的关

联度

，

并构建相应的无权或加权

ＴｅｘｔＲａｎｋ

网络图

，

不适合直

·

０

４２

·

下载后可阅读完整内容，剩余7页未读，立即下载

王向庄

粉丝: 24
资源: 344

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈