2009
,
45
(
24
)
!
引言
从语言学角度,语言粒度从小到大依次为语素、词、短语、
句子、段落、篇章。在计算语言学中,利用小粒度语言单元研究
较大粒度语言单元是一种基于解析思想的常用方法。作为最小
语言粒度的语素,它是最小的音义结合体,其主要功能是构词。
词是可以独立运用的最小语言单位,而词义的内容却很丰富,
词汇的褒贬义是其词义的重要组成部分,就句子的情感分类而
言,词是构成句子的最基本的语言粒度,利用词汇的情感倾向
可以确定句子的情感倾向。
所谓句子的情感分类就是识别出一个句子中作者对评价
对象所持的态度是肯定还是否定,或者支持还是反对。目前,对
句子的情感分类研究,
J.Wiebe
等
[1-2]
将形容词作为判别句子的
主客观性的主要依据。
Hong Yu
等
[3]
面向自动问答系统首先采
用抽取观点句,然后再对抽取的观点句进行情感分类,判断其
极性。
Hu
和
Liu
[4]
通过
WordNet
的同义词
-
反义词关系,得到情
感词汇及其情感倾向,然后由句子中占优势的情感词汇的语义
倾向决定该句子的极性。
Wang
等
[5]
选取形容词和副词作为特
征,提出了基于启发式规则与贝叶斯分类技术相融合的评论句
子语义倾向分类方法。王根、赵军提出了一种基于多重冗余标
记的
CRFs
[6]
汉语句子情感分析方法。该文主要是通过多个已有
的与情感倾向相关的词典,建立了一个针对中文文本情感倾向
分析用的情感词词表,并利用该情感词表,研究了句子的情感
分类问题。通过对
200
篇汽车评论语料中包含情感词汇的句子
进行测试,结果表明,该方法是可行的。
"
情感词表的构建
目前,虽然汉语文本或句子的情感倾向性分析开展的如火
如荼,但还没有一部像英文的
General Inquirer
(
GI
)(
http
:
//
www.wjh.harvard.edu/~inquirer/
)词典的中文词典,将借助
Gener-
al Inquirer
(
GI
)词典、《学生褒贬义词典》
[7]
、知网
[8]
、《褒义词词
基于汉语情感词表的句子情感倾向分类研究
王素格
1
,杨安娜
1
,李德玉
2
WANG Su-ge
1
,
YANG An-na
1
,
LI De-yu
2
1.
山西大学 数学科学学院,太原
030006
2.
山西大学 计算机与信息技术学院,太原
030006
1.School of Mathematics Science
,
Shanxi University
,
Taiyuan 030006
,
China
2.School of Computer & Information Technology
,
Shanxi University
,
Taiyuan 030006
,
China
E-mail
:
wsg@sxu.edu.cn
#$%& ’()*+
,
,$%& $-)-.
,
/0 1+)2(34+5+.678 9- 5+-:+-7+ 5+-:;<+-: 7=.55;>;7.:;9- ?.5+@ 9- A8;-+5+ 5+-:;<+-: B96@
:.?=+CA9<D(:+6 E-*;-++6;-* .-@ $DD=;7.:;9-5
,
"FFG
,
HI
(
"H
):
!IJ)!IIC
$?5:6.7:
:
This paper presents the weighted linear combination method for the sentence sentiment classification based on Chinese
sentiment word table.In proposed method
,
firstly
,
Chinese sentiment word table is constructed by using five existing dictionaries
,
secondly
,
automatically identifying method is explored for the sentence sentiment classification using the weighted linear combina-
tion method.The experiment results indicate that the F value of sentence sentiment classification with word language granularity
reaches 78.2%
,
and adding the negative phrase to language granularity
,
the F value of sentence sentiment classification has in-
creased by 4.14%.
K+2 B96@5
:
sentiment word table
;
weighted linear combination
;
sentence sentiment classification
摘 要:提出了一种基于汉语情感词词表的加权线性组合的句子情感分类方法。该方法通过已有的五种资源构建了中文情感词词
表,并采用加权线性组合的句子情感分类方法对句子进行情感类别判断。实验结果表明,直接利用词汇语言粒度的句子情感分类
综合
F
值为
78.62%
,若加入了否定短语语言粒度后,句子情感分类的综合
F
值提高了
4.14%
。
关键词:情感词表;加权线性组合;句子情感分类
1L0
:
10.3778/j.issn.1002-8331.2009.24.045
文章编号:
1002-8331
(
2009
)
24-0153-03
文献标识码:
A
中图分类号:
TP391
基金项目:国家自然科学基金(
the National Natural Science Foundation of C hina under Grant No.60573074
);山西省自然科学基金(
the Natural
Science Foundation of Shanxi Province of China under Grant No.2007011042
);教育部科学技术研究重点基金(
No.2007018
);山西省重
点实验室开放基金项目;山西高校科技研究开发项目(
No.200611002
)。
作者简介:王素格(
1964-
),女,博士研究生,副教授,研究方向:自然语言处理与文本挖掘;杨安娜(
1983-
),女,硕士研究生,研究方向:自然语言处
理;李德玉(
1965-
),男,教授,博士生导师,研究方向:计算智能与数据挖掘。
收稿日期:
2008-05-09
修回日期:
2008-07-28
Computer Engineering and Applications
计算机工程与应用
153