双粒度模型在中文情感特征词提取中的应用

需积分: 9 11 浏览量更新于2024-08-11 收藏 928KB PDF 举报

"基于双粒度模型的中文情感特征词提取研究 (2014年)" 本文主要探讨的是如何在海量文本信息中高效且准确地提取情感特征词，以提升情感分析的性能。研究者提出了一个基于双粒度模型的方法，该方法首先通过人工筛选从情感词语集中选取种子词，并为这些种子词赋予相应的情感强度值。这个过程是关键，因为它为后续计算其他词语情感强度提供了基础。接下来，利用这些种子词作为参照，计算情感词语集中其他词汇的情感强度，进而得到每个特征词在词语级和句子级的倾向性贡献度值。词语级关注单个词本身的情感倾向，而句子级则考虑词在句子上下文中的情感含义。这种双粒度的考虑方式旨在更全面地捕捉词在不同语境下的情感色彩。通过将特征词在词语级和句子级的贡献度值有机融合，构建了一个双粒度模型的中文情感特征词提取框架。这种结合方式提高了提取结果的准确性，因为它不仅考虑了词语自身的感情色彩，还考虑了其在句子中的上下文影响。实验结果显示，该方法在拥有全面的情感词典系统和准确的种子词集的情况下，能取得较高的准确率和召回率。这意味着，该模型在实际应用中，如社交媒体分析、在线评论的情感倾向判断等场景，能够有效地帮助识别和理解文本中的情感信息。这项研究对中文情感分析领域做出了重要贡献，提出了一种新的情感特征词提取策略，它通过双粒度分析提升了情感识别的精确性，为后续的情感挖掘和文本理解提供了有力工具。此外，这种方法也强调了情感词典系统和种子词选择的重要性，为后续研究指明了方向。

第２６卷第３期重庆邮电大学学报（自然科学版）Ｖｏｌ．２６　Ｎｏ．３

２０１４年６月ＪｏｕｒｎａｌｏｆＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）Ｊｕｎ．２０１４

ｄｏｉ：１０．３９７９／ｊ．ｉｓｓｎ．１６７３８２５Ｘ．２０１４．０３．０１８

基于双粒度模型的中文情感特征词提取研究

收稿日期：２０１３０８１８　修订日期：２０１４０５０５　通讯作者：　翟东海　ｄｈｚｈａｉ＠ｓｗｊｔｕ．ｅｄｕ．ｃｎ

基金项目：国家语委“十二五”科研规划项目（ＹＢ１２５４９）；教育部科学技术研究重点项目（２１２１６７）；中央高校基本科研业务费

专项资金创新项目（

ＳＷＪＴＵ２ＣＳ０９６）；国家大学生创新创业训练计划项目（２０１２１０６９４０１７）

ＦｏｕｎｄａｔｉｏｎＩｔｅｍｓ：ＴｈｅＮａｔｉｏｎａｌＬａｎｇｕａｇｅＣｏｍｍｉｔｔｅｅｉｎｔｈｅ“１２ｔｈ５ｙｅａｒＰｌａｎ”（ＹＢ１２５４９）；ＴｈｅＦｏｕｎｄａｔｉｏｎｆｏｒＫｅｙＰｒｏｇｒａｍｏｆ

ＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎ，Ｃｈｉｎａ（２１２１６７）；ＴｈｅＦｕｎｄａｍｅｎｔａｌＲｅｓｅａｒｃｈＦｕｎｄｓｆｏｒｔｈｅＣｅｎｔｒａｌＵｎｉｖｅｒｓｉｔｉｅｓ（ＳＷＪＴＵ１２ＣＸ０９６）；ＴｈｅＮａ

ｔｉｏｎａｌＴｒａｉｎｉｎｇＰｒｏｇｒａｍｓｏｆＩｎｎｏｖａｔｉｏｎａｎｄＥｎｔｒｅｐｒｅｎｅｕｒｓｈｉｐｆｏｒＵｎｄｅｒｇｒａｄｕａｔｅ（２０１２１０６９４０１７）

翟东海，杜　佳，崔静静，聂洪玉

（西南交通大学信息科学与技术学院，成都６１００３１）

摘　要：为了能够快速准确地提取出海量文本信息中的情感特征词，提出从情感词语集中通过人工筛选得到种子

词并对其情感强度赋值，同时，以这些种子词为基准计算出情感词语集中其他词语的情感强度值，从而得到各特征

词在词语级及句子级的倾向性贡献度值。然后，将特征词在词语级、句子级这２种不同粒度情况下计算出的情感

倾向性贡献度值有机结合起来，构造出基于双粒度模型的中文情感特征词提取模型。该提取方法考虑了特征词在

词语级和句子级２个方面的情感倾向，使最终提取出的情感词的准确率得到了提高。实验表明，只要有一个全面

的情感词典系统和一组准确恰当的种子词，提出的方法可以获得良好的准确率和召回率。

关键词：情感分析；情感特征词；倾向性贡献度；情感词语集

中图分类号：ＴＰ１８；ＴＰ３９１　　　　　　　　　文献标识码：Ａ文章编号：１６７３８２５Ｘ（２０１４）０３０３８００５

Ｃｈｉｎｅｓｅｅｍｏｔｉｏｎａｌｆｅａｔｕｒｅ

ｅｘｔｒａｃｔｉｏｎｂａｓｅｏｎｄｏｕｂｌｅｇｒａｎｕｌａｒｉｔｙｍｏｄｅｌ

ＺＨＡＩＤｏｎｇｈａｉ，ＤＵＪｉａ，ＣＵＩＪｉｎｇｊｉｎｇ，ＮＩＥＨｏｎｇｙｕ

（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＳｏｕｔｈｗｅｓｔＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｃｈｅｎｇｄｕ６１００３１，Ｐ．Ｒ．Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｉｎｏｒｄｅｒｔｏｑｕｉｃｋｌｙａｎｄａｃｃｕｒａｔｅｌｙｅｘｔｒａｃｔｔｈｅｅｍｏｔｉｏｎａｌｆｅａｔｕｒｅｗｏｒｄｓ，ｔｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｓｔｈｅａｌｇｏｒｉｔｈｍ．Ｆｉｒｓｔｌｙ，

ｓｅｅｄｗｏｒｄｓａｒｅｓｅｌｅｃｔｅｄｆｒｏｍｅｍｏｔｉｏｎａｌｗｏｒｄｓｓｅｔｂｙａｒｔｉｆｉｃｉａｌｓｅｌｅｃｔｉｏｎａｎｄａｓｓｉｇｎｅｄｔｈｅｉｒｅｍｏｔｉｏｎａｌｉｎｔｅｎｓｉｔｙ，ａｎｄｅｍｏｔｉｏｎａｌ

ｉｎｔｅｎｓｉｔｙｏｆｔｈｅｒｅｓｔｏｆｅｍｏｔｉｏｎａｌｗｏｒｄｓｓｅｔｃａｎｂｅｃａｌｃｕｌａｔｅｄｂｙｒｅｆｅｒｅｎｃｉｎｇｔｈｅｓｅｓｅｅｄｗｏｒｄｓ．Ｔｈｕｓ，ｔｅｎｄｅｎｔｉｏｕｓｃｏｎｔｒｉｂｕ

ｔｉｏｎｄｅｇｒｅｅｏｆｅａｃｈｆｅａｔｕｒｅｗｏｒｄｓｃａｎｂｅｇｏｔｔｅｎｉｎｗｏｒｄｇｒａｎｕｌａｒｉｔｙ．Ｓｅｃｏｎｄｌｙ，ｔｅｎｄｅｎｔｉｏｕｓｃｏｎｔｒｉｂｕｔｉｏｎｄｅｇｒｅｅｏｆｅａｃｈｆｅａ

ｔｕｒｅｗｏｒｄｓｉｓｃａｌｃｕｌａｔｅｄｉｎｓｅｎｔｅｎｃｅｇｒａｎｕｌａｒｉｔｙ．Ｆｉｎａｌｌｙ，ｔｅｎｄｅｎｔｉｏｕｓｃｏｎｔｒｉｂｕｔｉｏｎｄｅｇｒｅｅｏｆｆｅａｔｕｒｅｗｏｒｄｓ，ｗｈｉｃｈａｒｅｃａｌｃｕ

ｌａｔｅｄｉｎｗｏｒｄｇｒａｎｕｌａｒｉｔｙａｎｄｓｅｎｔｅｎｃｅｇｒａｎｕｌａｒｉｔｙ，ａｒｅｉｎｔｅｇｒａｔｅｄａｎｄｃｏｎｓｔｒｕｃｔｅｄＣｈｉｎｅｓｅｅｍｏｔｉｏｎａｌｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ．Ｄｕｅ

ｔｏｔｈｅｔｅｎｄｅｎｃｙｏｆｅｍｏｔｉｏｎｆｅａｔｕｒｅｗｏｒｄｉｎｔｈｅｗｏｒｄｌｅｖｅｌａｎｄｓｅｎｔｅｎｃｅｌｅｖｅｌ

，ｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈｉｍｐｒｏｖｅｓｔｈｅａｃｃｕｒａｃｙ

ｏｆｔｈｅｆｉｎａｌｅｘｔｒａｃｔｅｍｏｔｉｏｎａｌｗｏｒｄｓ．Ａｓｌｏｎｇａｓｔｈｅｒｅｉｓａｎｅｍｏｔｉｏｎａｌｄｉｃｔｉｏｎａｒｙａｎｄｓｅｅｄｗｏｒｄ

，ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ

ｓｈｏｗｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈｃａｎａｃｈｉｅｖｅｄｄｅｓｉｒａｂｌｅｐｒｅｃｉｓｉｏｎａｎｄｒｅｃａｌｌｒａｔｅ．

Ｋｅｙｗｏｒｄｓ：ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ；ｅｍｏｔｉｏｎａｌｆｅａｔｕｒｅ；ｔｅｎｄｅｎｔｉｏｕｓｃｏｎｔｒｉｂｕｔｉｏｎｄｅｇｒｅｅ；ｓｅｎｔｉｍｅｎｔｌｅｘｉｃｏｎ

０　引　言

随着网络的发展，特别是博客、论坛、社交网络

等的迅速发展和普及，网络成为了人们表达自己看

法或观点的主流方式之一，这些观点通常是以文本

的形式发布在网上，其内容涉及消费产品、新闻时

事、大众人物、法规政策、旅游美食、影视娱乐等话

题。能否及时准确地将这些带有个人主观倾向的文

本汇总分析以了解人们对某一事件的看法，对于生

产厂商和相关机构、部门显得尤其重要。对于某些

话题，人们的看法影响着相关部门的法规政策制定，

甚至影响着国家安全和社会稳定。但网络上这些文

本是海量的，如何用机器对这些文本进行情感分析

成为了一个研究热点。对于情感分析的研究，最初

是对带有情感色彩词语的分析研究

［１］

。随着网络

上带有主观色彩的文本大量涌现，对于文本情感分

析的研究也越来越多。文本情感分析是指对带有主

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38706824

粉丝: 2
资源: 893

双粒度模型在中文情感特征词提取中的应用

SemEval-2016 Task 5中文部分数据集

快看漫画大数据平台的模型思维与用户增长实践1

硫酸氢铵焙烧高钛渣反应动力学 (2014年)

HPCA 2014 proceeding

构建基于Apache Kylin的大数据分析平台.ppt

谓词概念连通：2014年中文实体关系抽取创新策略

NLPcc2013-2014微博情感分类数据集分析

Part-based RCNN: 细粒度类别检测的MATLAB实现

细粒度视觉识别的B-CNN实现与ICCV 2015论文代码

旷视科技魏秀参：细粒度图像分析现状与未来发展

最新资源