第 !! 卷"第 ## 期 "
!"#$!!" %"$## "
计 算 机 工 程
&"'()*+,-./0.++,0./
""
$%#& 年 ## 月
%"1+'2+,$%#&
!人工智能及识别技术!
文章编号" !"""#$%&'#&"!'$!!#"&" - #"( ) ) ) 文献标志码" *) ) ) 中 图 分 类 号 " +,$-!M!
基金项目"国家自然科学基金!'#(*)#%)" #
作者简介"何鸿业!#))($" % 男 %硕士研究生%主研方向为自然语言处理&深 度 学 习 '郑 " 瑾 %副教授'张祖平%教 授 #
收稿日期"$%#*5#%5#' " " 修 回 日 期 "$%#* 5#$ 5#% " " .#/012"H"./E+H++ 8<)$+F)$8.
结合词性特征与卷积神经网络的文本情感分析
何鸿业!郑"瑾!张祖平
! 中南大学 信息科学与工程学院%长沙 !#%%&("
摘"要" 在卷积神经网络模型中%如果输入文本表示不准确%网络训练容易因输入噪音导致过拟合# 为改善文本卷
积神经网络中输入文本表示的质量%构建一种结合词性特征的文本卷积神经 网 络模型# 利用词 性 特征捕 捉传统 词
向量无法识别的文本一词多义现象%并与输入文本原始表示方法相结合构造 卷 积神经 网络的 双 通道输 入# 基 于 中
文酒店评论和英文影评数据集的实验结果表明%相比于传统文本卷积神经网络%该 模型在 情 感分类 准 确率&召 回 率
和
;# 值等指标上均有明显提升#
关键词" 自然语言处理' 情感分析' 深度学习' 卷积神经网络' 文本表示
中文引用格式"何鸿业%郑"瑾%张 祖 平$结 合 词 性 特 征 与 卷 积 神 经 网 络 的 文 本 情 感 分 析 ( =) $计 算 机 工 程%$%#&%
!!!##" *$%) 5$#!%$$#$
英文引用格式"D-D"./E+%4D-%@=0.%4D?%@4)(0./$M+N*<+.*0'+.*7.7#E<0<8"'20.+F 60*H (7,*"G<(++8H G+7*),+<
7.F 8".1"#)*0".7#.+),7#.+*6",:( =) $&"'()*+,-./0.++,0./%$%#&%!! !## " *$%) 5$#!%$$#$
+<X=3<A=1/<A=*A028G1GW@/91A<:I1=C
,05=@D34<<?C;<0=>5<G0A:W@AY@2>=1@A02Z<>502Z<=I@56
D-D"./E+%4D-%@ =0.%4D?%@ 4)(0./
! 98H""#"GI.G",'7*0". 980+.8+7.F -./0.++,0./%&+.*,7#9")*H C.01+,<0*E%&H7./<H7!#%%&( %&H0.7"
+ *9G=50?=, I. *H+&".1"#)*0".7#%+),7#%+*6",: ! &%%" '"F+#% 0G*H+0.()**+N*,+(,+<+.*7*0". 0<."*788),7*+% *H+
.+*6",: *,70.0./ 0<+7<E *" #+7F *" "1+,5G0**+F F)+*" *H+0.()*."0<+<0.788),7*+*+N*$I. ",F+,*" 0'(,"1+*H+T)7#0*E "G
*+N*,+(,+<+.*7*0".%L7,*"G9(++8H ! LR9" G+7*),+<7,+)*0#0U+F 0. *H0<(7(+,*" 87(*),+("#E<+'E (H+."'+.7"G6",F<
6H08H *E(087#6",F +'2+FF0./ '" F+#<7,+."*<+.<0*01+*"$MH+.%7F)7#58H7..+#&%% '"F+#.7'+F >",F5LR9&%%
! >L5&%%" 0<(,"("<+F 0. 6H08H *H+",0/0.7#*+N*,+(,+<+.*7*0". 0<+.H7.8+F 2E 7((+.F0./ *H+LR9G+7*),+<$?88",F0./
*" *H++N(+,0'+.*7#,+<)#*<". &H0.+<+H"*+#,+10+6<7.F -./#0<H '"10+,+10+6<8",()<%*H+(,"("<+F '"F+#87. "210")<#E
/+*2+**+,(,+80<0".%,+87##,7*+7<6+##7<;#5<8",+0. 8"'(7,0<". 60*H *,7F0*0".7#*+N*&%% '"F+#<$
+ H<8 I@5:G, %7*),7#A7./)7/+L,"8+<<0./ ! %AL" ' <+.*0'+.*7.7#E<0<' F++( #+7,.0./' &".1"#)*0".7#%+),7#%+*6",:
! &%%" ' *+N*,+(,+<+.*7*0".
JKL*#% $#)'*& OP$0<<.$#%%%5(!$&$%%!&),,
")概述
在互联网信息中%文本信 息占很大 的比重%如何
对大量文本进行规整分析一直是自然 语言处 理的研
究热点
%而文 本 情 感 分 析 是 其 中 一 个 重 要 任 务# 随
着社交网络的发展%网站评论区&微博等 平台成 为互
联网用户信息 的 重 要 载 体%这 类 平 台 上 的 文 本 通 常
具有篇幅短&表达不规范等特点%这也给 文本情 感分
析带来了巨大的挑战# 如何从这 类文本 中捕获到 用
户的情感倾向信息
%对 于 舆 情 监 控 有 着 重 要 的 研 究
意义#
传统的情感分析任务通常使用基 于词典 的方法
或基于机器学习方法来完成
(#)
# 前者主要依赖于词
典 数 据 集% 通 过 点 互 信 息 量 ! L"0.*60<+ J)*)7#
I.G",'7*0".%LJI"
($)
等方法来判断新词的情感倾 向%
进而对文本整体进行情感分析# 后 者通常 使用词袋
! Q7/ "G>",F<%QR>" 模 型 等 将 文 本 表 示 成 定 长 向
量%并使用监督学习的方法对文本情感 进行分 类%基
于机器 学 习 的 情 感 分 析 一 直 是 研 究 的 主 流# 近 年
来%随着词向量工 具 >",F$!+8的 公 布%相 关 研 究 增