收稿日期 : 2008 - 07 - 10。
作者简介 :周立柱
(
1947 -
)
,男 ,江苏连云港人 ,教授 ,博士生导师 , CCF高级会员 ,主要研究方向 :数据库、Web数据处理、海量信息系统、数
字化图书馆 ; 贺宇凯
(
1983 -
)
,男 ,陕西西安人 ,博士研究生 ,主要研究方向 :数据挖掘、文本情感分析 ; 王建勇
(
1969 -
)
,男 ,山东青州人 ,副
研究员 , CCF高级会员 ,主要研究方向 :数据挖掘、Web数据管理。
文章编号 : 1001 - 9081
(
2008
)
11 - 2725 - 04
情感分析研究综述
周立柱 ,贺宇凯 ,王建勇
(
清华大学 计算机科学与技术系 ,北京 100084
)
(
dcszlz@ tsinghua. edu. cn
)
摘 要 :由于 W eb文本迅速增多 ,对这些文本 ,特别是用户主动发布的评论数据进行挖掘和分析 ,识别出其情感
趋向及演化规律 ,可以更好地理解用户的消费习惯 ,分析热点舆情 ,给企业、政府等机构提供重要的决策依据。首先对
情感分析的研究对象和目标进行了定义和说明 ,并给出基本的研究思路。然后 ,在主观性句子识别任务上 ,详细回顾
和分析了主要的处理方法 ;在观点分类的特征抽取上 ,重点介绍和讨论了两类主流的处理思路 ———基于情感词和基
于频繁模式挖掘。接着简要介绍了其他一些相关的情感分析问题。最后总结了情感分析的现有成就和不足 ,以及面
临的挑战 ,并对其发展前景进行了展望。
关键词 :情感分析 ;综述 ;观点分类 ;主观性识别 ;特征抽取
中图分类号 : TP311. 13 文献标志码 : A
Survey on research of sentiment analysis
ZHOU L i2zhu, HE Yu2kai, WANG J ian2yong
(
Departm ent of Com puter Science and Technology, Tsinghua University, B eijing 100084, China
)
Abstract: W ith the rapid growth of theW eb text data, mining and analyzing these text data, especially the online review
data posted by the users, can greatly help better understand the users’consum ing habits and public op inions, and plays an
important role in decision2making for the enterprises and the government. This survey first introduces the motivation, research
problem s and goals of sentiment analysis, and presents some basic technologies used in sentiment analysis. It then describes
one of the major tasks in sentiment analysis, subjective sentence detection, by reviewing and analyzing some recent work in
this area. Next, it focuses on another important task in sentiment analysis, op inion classification, and discusses two leading
feature extraction techniques for opinion classification, sentimental word based and frequent pattern based methods.
Furthermore, it also introduces several other relevant sentiment analysis problem s. Finally, the paper summarizes the current
status, remaining challenges, and future directions in the field of sentiment analysis.
Key words: sentiment analysis; survey; opinion classification; subjectivity detection; feature extraction
0 引言
W eb已经越来越成为现代社会各种信息的载体。随着
W eb 2. 0的兴起与普及 ,由普通用户主动发布的文本越来越
多 ,如新闻、博客文章、产品评论、论坛帖子等。情感分析 ,就
是对这些信息进行有效的 分析和挖掘 , 识 别出其情感趋
向 ———高兴、伤悲 ,或得出其观点是“赞同 ”还是“反对 ”,甚至
情感随时间的演化规律。这样就可以更好地理解用户的消费
习惯 ,分析热点事件的舆情 ,为企业 、政府等机构提供重要的
决策依据。例如 ,文献 [ 1 ]就开发了一种把对产品各个部分
的用户意见可视化显示出来的系统 ,使产品之间比较时 ,各部
分优劣一目了然 ,极大方便了用户的选购。
然而 ,目前通常的信息检索技术 ,尤其是广为应用的搜索
引擎技术 ,是以关键词为基础的 ,无法对这种需求提供支持 ,
表现在 : 1
)
情感或观点很难简单地用关键词来表示和索引 ,
2
)
信息检索领域的排序策略也并不适合观点。
一般来说 ,广义的情感分析包括了分析文本中包含的说
话人的心理态度 ,而狭义的情感分析则主要指的是针对说话
人关于某物或某事的观点进行“赞同 ”或是“反对 ”的分类。
本世纪初以来 ,这方面的研究逐渐多了起来 ,不过目前还并没
有很完整的综述性文章。文献 [ 2 ]主要从观点分析方面给出
了一些例子 ,介绍了几个观点分析的系统和技术 ,并特别探讨
了汉语观点分析的一些问题。本文将偏重技术路线 ,从总体
上对情感分析的研究进行介绍、总结和展望。
1 情感分析的基本思路及关键技术概述
1. 1 情感分析的对象和目标
情感分析最核心和基本的研究任务如表 1所示。
表 1 情感分析的研究任务
研究对象 研究目标
Web上的文本 ,尤其是用户主动发布
的与主题
(
或话题
)
相关的文本 ,大体
上可以分为针对文档和针对句子两
个不同粒度。
识别出文本中所包含的
主观性句子 ,并对其情感
趋势进行判断。
1. 2 主流的研究思路和基本技术
基于文本的情感分析是一个交叉方向的研究 ,它涉及自
然语言处理、数据库、信息检索、数据挖掘、人工智能等多个领
第 28卷第 11期
2008年 11月
计算机应用
Computer App lications
Vol. 28 No. 11
Nov. 2008
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net