收稿日期:20191205;修回日期:20200201 基金项目:湖北省自然科学基金资助项目(2019CFC919)
作者简介:张洋(1994),男,河南郑州人,硕士研究生,主要研究方向为自然语言处理;胡燕(1964),女(通信作者),湖北武汉人,教授,硕导,
博士,主要研究方向为信息检索、数据挖掘(huyan@whut.edu.cn).
基于多通道深度学习网络的混合
语言短文本情感分类方法
张 洋,胡 燕
(武汉理工大学 计算机科学与技术学院,武汉 430070)
摘 要:相比于单一语言的短文本情感分类而言,混合语言由于其表达情感的单词语言不唯一,语法结构复杂,
仅使用传统词嵌入的方法无法使分类器学到足够有用的特征,导致分类效果不佳。针对这些问题,提出一种融
合字词特征的双通道复合模型。首先,针对数据集不平衡问题,提出一种基于 Bert语义相似度的数据集欠采样
算法;其次,构建双通道深度学习网络,分别将以字、词方式嵌入的原始数据通过两个通道送入 CNN和带有注意
力机制的 LSTM组成的模块中进行多粒度特征提取;最后融合多通道的特征进行分类。在 NLPCC2018任务 1公
布的混合语言五分类数据集上的实验表明,该模型的整体性能较目前有代表性的深度学习模型有进一步提高。
关键词:混合语言短文本;多通道;注意力机制;融合特征
中图分类号:TPN26 文献标志码:A 文章编号:10013695(2021)01014006906
doi:10.19734/j.issn.10013695.2019.12.0616
Codeswitchingshorttextsentimentclassificationmethodbasedon
multichanneldeeplearningnetwork
ZhangYang,HuYan
(SchoolofComputerScience&Technology,WuhanUniversityofTechnology,Wuhan430070,China)
Abstract:Comparedwiththesinglelanguageshorttextsentimentclassification,thecodeswitchingshorttextsentimentclassi
ficationhasmorechallengestofaceupwithbecausethewordthatexpressesemotionisnotuniqueandthesentencehascom
plexgrammaticalstructure,usingtraditionalwordembeddingalonecannotmaketheclassifierlearnenoughusefulfeatures,
resultinginpoorclassification.Thispaperproposedadualchanneldeeplearningmodelwhichintegratedcharandwordfea
tures.Firstly,inordertosolvetheproblemofimbalanceddataset,itproposedadataundersamplingalgorithmbasedonBertse
manticsimilarity.Secondly,itconstructeddualchanneldeeplearningnetwork,theoriginaldataembeddedincharsandwords
weresenttotwodifferentmodulecomposedofCNNandLSTM withattentionmechanismthroughtwochannelsforextracting
multilevelfeatures,andfinallyfeaturesfromthetwochannelswerefusedforclassification.Theexperimentalresultsshowthat
theoverallperformanceoftheproposedmodelisfurtherimprovedthanthecurrentrepresentativedeeplearningmodelsonthe
codeswitchingfivecategorydatasetpublishedinNLPCC2018&task1.
Keywords:codeswitchingtext;multichannel;attentionmechanism;fusionfeatures
0 引言
情感分类(sentimentanalysis,SA)是自然语言处理(natural
languageprocessing
,NLP)领域的一种特定任务,其对带有情感
色彩的主观性文本进行分析、处理、归纳和推理,从而达到感知
与理解文本深层次含义的目的。情感分类的应用场景十分广
泛,包括舆情检测、票房预测以及股票趋势预测等,因此近年来
情感分类任务受到了业内众多学者与机构的青睐。然而现如
今对于情感分类的研究多属于单一语言的范畴,随着世界全球
化速度加快,越来越多的年轻人开始使用带有混合语言的评论
来发表言论
[1]
。比如,“生日收到了许多朋友送来的祝福,hap
py!”“这部剧还可以,lol”。从中文的角度来看此类文本并未
表达出明显的感情倾向,但句中的英文或网络用语却表达出了
开心的情感。学术界将这种由多种语言组成的文本称为混合
语言文本(codeswitchingtext),并对此类文本的情感分类问题
展开了全面的研究。此问题的提出最早可追溯到
19世纪 70
年代,Blom和 Gumperz等人提出了 Diglossia理论,用以解释这
种双语现象
[2]
。目前,主要的混合语言短文本情感分类方法
有以情感词典与规则
[3]
为代表的传统机器学习方法和以卷积
神经网络(convolutionalneuralnetwork,CNN)及循环神经网络
(recurrentneuralnetwork,RNN)为代表的深度学习方法
[4,5]
。
在基于情感词典的分类方法中,唐晓波等人
[6]
提出一种基于
依存句法的跨语言文本分析方法,利用机器翻译的方式将中文
文本翻译为英文,从而利用英文丰富的情感词典进行情感词匹
配。栗雨晴等人
[7]
从新浪微博的评论中获得语料,并将现有
的 HowNet、WordNet、NTUSD等知识库进行扩展,通过相似度计
算的方式进行双语情感词典的构建,并同 K近邻算法、支持向
量机等分类算法进行了对比,结果表明使用双语情感词典的匹
配算法在
F
1
和精度上优于传统的机器学习方法。
深度学习模型根据功能整体划分为词向量技术及网络架构
两方面。在词向量技术方面,Lee等人
[8]
在词嵌入的上游作改
进,通过翻译的方式在预处理阶段规避了中英文之间的语义鸿
沟,这种方法思路简单,但分类精度依赖于翻译结果。Samanta
等人
[9]
从文本本身出发,发现导致双语文本分类准确率较低的
问题是由于表达情感的单词在整句文本中较少导致的,进而提
出了一种文本增强方法来增强稀缺文本在整句话中的占比。
第 38卷第 1期
2021年 1月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol38No1
Jan.2021