收稿日期:20160906;修回日期:20161103 基金项目:国家自然科学基金资助项目(61402220,61502221)
作者简介:王玮(1988),男,广西桂林人,硕士研究生,主要研究方向为自然语言处理、信息检索与知识发现;欧阳纯萍(1979),女(通信作
者),湖南衡阳人,副教授,博士,主要研究方向为语义网、社交网络(ouyangcp@126.com);阳小华(1963),男,湖南衡阳人,教授,博导,主要研究方
向为信息检索、知识发现;罗凌云(1983),女,湖南衡阳人,副教授,博士,主要研究方向为语义本体、大数据分析;刘志明(1972),男,湖南浏阳人,
教授,博士,主要研究方向为信息检索、大数据分析.
融合句子情感和主题相似性的中文新闻文本情感摘要
王 玮,欧阳纯萍
,阳小华,罗凌云,刘志明
(南华大学 计算机科学与技术学院,湖南 衡阳 421001)
摘 要:新闻文本情感摘要是指通过提炼、浓缩而产生表达文本全局情感意见的摘要,旨在帮助人们快速获取
文本的情感倾向。现有的文本摘要方法仅考虑主题及句子特征等因素,无法获取带有情感意见的文本摘要。针
对这一问题,提出了融合句子情感和主题相似性的中文新闻文本情感摘要。首先,对文本中的句子进行情感标
注;然后,在
LexRank算法中加入情感信息计算句子相似度;最后,根据新闻标题的特殊性计算句子与标题的相
似性,再综合以上步骤的结果得到最终的情感摘要。实验结果表明,在 ROUGE1、ROUGE2和 ROUGEW 三个
指标上,该方法比传统的
LexRank算法均有提升,证明了同时考虑情感信息和主题信息能够更加有效地生成体
现文本主要观点、情感的情感摘要。
关键词:情感摘要;句子情感;LexRank;句子特征;主题相似性
中图分类号:TP391.1 文献标志码:A 文章编号:10013695(2017)12354304
doi:10.3969/j.issn.10013695.2017.12.005
Chinesenewstextopinionsummarizationbasedon
integratingsentencesopinionandtopicsimilarity
WangWei,OuyangChunping
,YangXiaohua,LuoLingyun,LiuZhiming
(SchoolofComputerScience&Technology,UniversityofSouthChina,HengyangHunan421001,China)
Abstract:Newsopinionsummarizationaimstoproduceopinionsabstractviarefiningthetextwithemotionalinformation,
whichhelpspeopletoknowthethemecontentandtendencyofopinionsquickly.However,theexistingmethodsonlyconsider
thethemeandthecharacteristicsofthesentence,whichcannotgetasummaryofthetextwithemotionalcomments.Toad
dresstheaboveproblem
,thispaperpresentedamethodofintegratingsentenceemotionandtopicsimilarityforChinesenews
textopinionsummarization.Firstly,itannotatedtheopinioninformationofsentences.Secondly,itaddedopinioninformation
totheLexRankalgorithmtocomputesentencesimilarity.Finally,accordingtothespecialcharacteristicsofthenewstitle,it
calculatedthesimilaritybetweenthesentenceandthetitle.Theresultsoftheabovethreestepsweretakenintoaccounttogen
erateopinionsummary.TheresultsofexperimentshowthatthismethodismoreeffectivethantheclassicLexRankalgorithmon
ROUGE1
、ROUGE2andROUGEW.Inaddition,italsorepresentsthatconsideringboththeemotionandthemecanhelp
generatingopinionsummaryeffectively.
Keywords:opinionsummarization;sentenceemotion;LexRank;sentencefeatures;thematicsimilarity
!
引言
新闻文本报道的是当前人们最关心的问题,具有很强的时
效性,同时新闻往往又包含强烈的情感色彩,表达了一种观点
或看法,或褒扬社会正能量,或批判社会不正之风,因此有效地
获取新闻的情感信息更能帮助人们把握重要观点,同时也有助
于舆情监测。随着计算机技术和互联网的快速发展,海量的新
闻文本被快速地传播与分享到世界各地,使得获取有价值的信
息愈发困难。如何从海量的新闻文本中快速获取有价值的信
息越来越受到人们的关注。本文提出了基于单文档的文本情
感摘要,利用计算机自动化实现文档的浓缩、提炼,生成文档核
心内容的情感摘要,以帮助人们快速高效地获取主要信息。
文本情感摘要(
opinionsummarization)是将情感分析应用
在自动摘要领域,是自动摘要技术的延伸与发展。传统的文本
情感摘要方法主要有两类
[1,2]
:生成式摘要和抽取式摘要。前
者是指对情感文本进行理解和分析,通过提取主要信息生成新
的带有情感特征的文本摘要,后者是指通过排序带有情感特征
的句子,抽取得分最高的句子组成文本摘要。基于生成式摘要
受到自然语言生成技术以及网络媒体语言的复杂性等限制,使
得抽取式摘要趋于主流化。
文本情感摘要作为文本情感分析和文本摘要的结合,使人
们能够从海量的网络信息中有效地获取文本的主旨和主要观
点。
Web2.0时代出现了大量带有情感的新闻文本,文本有很
强情感色彩,结合作者观点、情感生成的摘要才最能代表原文
的主要内容。新闻文本情感摘要不仅要考虑句子的特征及与
主题的相关性,还需要考虑句子中是否带有情感,能否找出新
第 34卷第 12期
2017年 12月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.34No.12
Dec.2017