没有合适的资源?快使用搜索试试~ 我知道了~
\\我的天可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6(2020)357www.elsevier.com/locate/icte一种基于文本和表情的情感分析算法和方法Mohammad Aman UllahKham,Syeda Maliha Marium,Shamim Ara Begum,Nibadita SahaDipaDepartment of Computer Science and Engineering,International Islamic University Chittagong(IIUC),Chittagong 4318,Bangladesh接收日期:2020年2月2日;接收日期:2020年7月15日;接受日期:2020年7月16日在线预订2020年摘要现在人们越来越多地在文本中使用表情符号来表达他们的情感或概括他们的话。早期的机器学习技术只涉及文本、表情符号或图像的分类,而带有文本的表情符号总是被忽略,因此忽略了许多情感。本研究提出一种同时使用文字与表情符号进行情绪分析的演算法与方法。在这项工作中,这两种数据模式分别与机器学习和深度学习算法相结合地进行了分析,以便使用TF-IDF,Bag ofwords,N-gram和emoticon lexicons等几个功能从基于twitter的航空公司数据中找到情感。这项研究表明,无论何时使用表情符号,其相关的情感主导了文本数据分析传达的情感。此外,深度学习算法被发现比机器学习算法更好© 2020韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:机器学习;深度学习;分类;分类器;文本1. 介绍从社交中获得有意义的见解的时代- 随着技术的进步,dia数据已经到来。传统上,情感分析是在文本上进行的, 但现在大量的数据以评论,图片,表情符号和视频的形式被上传。通过检查这些数据,可以分析,检查和发现公众对特定事件的情绪[1,2]。多年来,人们认为表情符号是一种交流媒介,用于文本或仅用于以有效的方式表达自己的情感。表情符号是由这种类型的标记组成的符号表达式,例如:“”、=“”、-“”、“"或(”“,并且通常表示面部表情。表情符号可以从侧面阅读,比如:-(监测这些符号的表情符号以及文本是非常必要的,以获得实际的情绪,如,幸福,沮丧,愤怒,悲伤等,然后将其分为积极,消极和中性。情感分析(SA)的一般结果处理文本或表情符号。最大的研究在SA从社交媒体∗ 通讯作者。电子邮件地址: amanullah@cse.iiuc.ac.bd(文学硕士)Ullah)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.07.003数据已经使用机器学习(ML)算法在文本上执行[4]。然而,由于资源的缺乏和表情符号的复杂性,文本和表情符号的语义分析大多被忽视。文本分析是突出的研究领域之一,因为它在最新技术的帮助下使用不同的ML和深度学习(DL)技术提取情感[5,6]。但是,研究表明,DL很少应用于SA的文本和表情数据组合。因此,本研究将文字与表情符号分别分析与结合分析,以找出其中的情绪。此外,该研究开发了一个表情词典,通过使用ML和DL算法应用表情词典以及一些文本特征(如本文包括以下主题,如第二节的相关工作。在第3节中,描述了问题陈述和目标。第四部分介绍了本文的研究方法和算法。第5节给出了总结结果和相应的讨论。与现有系统的比较在第6节中讨论。最后,结论和未来的工作包括在第7节。2. 相关作品现代情感分析研究现在是在不同的领域和语言[7]。在[8]中,2405-9595/© 2020韩国通信与信息科学研究所(KICS)。Elsevier B. V.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。358名硕士Ullah,S.M.Marium,S.A.Begum等人/ICT Express 6(2020)357使用无监督学习方法将推文数据与环境一起考虑。情感词典通过使用基于表情符号的表意文字来导出不同种类的表情符号。从twitter数据中检测到有限数量的标准表情符号,并找到相应的表情符号。在[6]中,集成情感分类技术 在 不 同 分 类 方 法 的 帮 助 下 应 用 , 如 朴 素 贝 叶 斯(NB),SVM,决策树和随机森林(RF)算法。他们试验了六种分类技术,并使用12864条推文的数据集对给定的集成方法进行了训练和测试,并进行了10倍评估。所提出的集成方法的性能给出了航空公司服务Twitter数据集中这些单独分类器的输出,这可以提高整体准确性。Twitter消息的情感经过预处理(清理和词干提取),并通过使用R和Rapid Miner展示NB算法的结果进行提取,并按中性、消极和积极情感进行分类,最后在[9]中总结了结果。在这项研究中,共使用了1298395条关于联合航空公司争议的推文。[10]中的研究人员对微博实例进行了分类,并确定了积极,消极和中性的情绪。本文的主要贡献在于语料的自动收集和情感分析。他们提出的技术据说是有效的,比以前提出的方法更好在[11]中,作者评估了2080条荷兰推文和论坛消息,这些消息都经过手动注释以供发送,并包含表情符号。在这个语料库中,段落级占情感暗示的情感显着超过情感分类的准确性。这表明,表情符号协会主导的情绪传达的文本线索,并形成一个很好的代理意图的情绪时,表情符号被使用。为了检测Twitter消息的情感,他们研究了语言特征的效用。他们研究了现有词汇资源的有用性,以及在微博中注意到的捕捉非正式和创造性语言3. 问题陈述和目标情感分析是自然语言处理中一个不断发展的分支。有许多研究工作分别从文本、表情、图像和音频或视频来解决SA问题[1,6]。很少有人研究表情符号来发现情绪[3]。此外,相关的工作部分表明,在SA领域的文本和表情有一个进一步扩展的空间。因此,本研究的目标是:✓ 在社交媒体数据上使用双模式(文本和表情符号)进行情感分析。✓ 开发表情词汇✓ 为了提高情感分析的分类准确率,采用ML和DL算法。4. 方法许多不同语言的语料库可在线用于SA目的。这项研究的数据是从twitter航空公司评论的不同评论该数据集包含14460条评论,其中2363条为正面评论,3099条为中性评论,9178条为负面评论。此外,该数据集包含732个表情符号,其中220个被分类为积极的,78个中性的,434个是消极的。我们还创建并使用了一个表情词典,其中包含社交媒体上广泛使用的不同类型的情绪。然后对数据进行处理,以帮助提高SA的有效性。这一步以及总分析分两步进行。在第一步中,数据被标记化,停止词,URL这些预处理的数据被用于寻找带有表情符号的情感。为了发现情感,提取并选择了诸如TF-IDF、词袋、n-gram、表情词等重要特征。在第二步中,标点符号和表情符号被删除,情绪计算没有表情符号,并使用相同的功能,除了表情符号。在文本和表情组合数据的情况下,使用一些ML和DL算法 , 如 支 持 向 量 机 ( SVM ) , NB , RF , 逻 辑 回 归(LR),长短期记忆(LSTM)和卷积神经网络(CNN)来分析情感。对于ML模型,该研究已经分裂将数据集分为两部分,其中80%用作训练数据集,20%用作验证数据集。该研究使用分层10倍交叉验证来估计准确度。数据集被分成10个部分,其中9个部分被训练,1用作测试。对于所有训练-测试拆分组合,继续这些步骤在LSTM的情况下,这项研究首先在嵌入层上工作,然后在LSTM单元上工作,与网络的循环连接,以便可以在数据中推断出有关单词序列的信息。为了处理短和长的评论,所有的评论都被填充或截断到特定的长度;其中,长度由序列长度(LSTM层的步骤数)定义。此外,还为这些数据创建了数据加载器、数据迭代器,并进行了训练、验证和测试.本研究采用生成函数对数据进行拟合。最后,LSTM细胞进入sigmoid输出层并给出准确性。在CNN的情况下,所有的训练句子都被填充,嵌入矩阵被传递到嵌入层。五种不同的过滤器大小应用于每个注释,GlobalMaxPooling1D图层应用于每个图层。然后将所有输出连接起来。一个dropout层致密的dropout和最终致密层被应用。由于训练是在小数据集上完成的,因此只需几个epochs,模型就可以过度拟合,并且只需三次迭代就可以实现准确性该算法首先通过标记、停用词、URL和数字来预处理航空线路输入的tweet数据,然后将此文件经过进一步预处理以删除标点符号和表情符号,并保存在文件'f2 file'中然后,该算法提取特征,如M.A. Ullah,S.M.Marium,S.A.Begum等人 /ICT Express 6(2020)357-360359表1不同模式和算法下的结果比较ML或DL算法文本表情符号仅文本(使用表情词典)从文件'f1 fil'和相同的功能,除了表情从'f2 fil'。对于来自F1和F2 的每个特征,ML(NB,SVM,RF,LR)和DL(LSTM,CNN)应用算法并记录它们的分数。最后,将最佳ML结果与DL结果进行比较,并选择最佳ML结果。所有的处理和分析都是在python中进行的(见图1)。① 的人。5. 结果和讨论本研究采用两种模式(文字和表情)和两种方式(纯文字和文字表情)进行实验。在后来的方法中,使用ML和DL算法来分析数据,但是,文本数据仅使用ML算法来分析。实验是使用python编程语言进行的。从实验中获得的结果示于表1至表3和图3中。 二、表1显示了结果之间的比较表2机器学习和深度学习在准确性方面的比较算法精度SVM百分之七十八机器学习(ML)逻辑回归百分之七十八随机森林百分之七十六朴素贝叶斯百分之五十二深度学习LSTM百分之八十九CNN百分之八十一使用不同的模式和算法获得。很明显,一次分析文本表情,同时调整表情词汇和前面提到的其他特征,比只分析文本要好。但是,这两种方法在性能指标的范围上只有1-3%的差异。SVM和LR的分类精度普遍优于NB和RF等其他两种ML分类器。总体而言,NB的性能被认为是非常差的分析。然而,在DL的情况下,LSTM显示出比CNN更好的分类准确性。一般来说,DL算法优于ML算法。DL实现了更高的分类精度,因为它解决了端到端的问题,并自动提取特征。结果见表2和Fig. 2表明,LSTM和CNN等DL算法的性能优于在文本和表情组合数据的情况下,所有ML算法的准确率分别为89%和81%。这两种算法在只处理文本时也能更好地工作。准确度的差异为1- 9%。通过采用不同的超参数调整技术,如减少网络容量(RNC),正则化(R)和丢弃层(DO),这些模型所放置的过拟合问题得到解决。然而,实现了非常不显著的改进。具有RNC和DO的模型比基线模型更晚地开始过拟合。然而,在R模型的情况下,过拟合在与基线模型相同的时期6. 与现有系统的本研究回顾了许多现有的著作,发现很少有与此相关的研究。 表3显示了现有系统和拟议系统之间的比较现有的研究[1]表明,对于文本数据,他们已经达到了57%的准确率,但是,本研究达到了78%的准确率,远远优于现有的工作。结合文本和表情数据,本研究的准确率为89%,而现有研究中的准确率分别为65%和84%[6,12]。精度召回F-score精度精度 召回F-score精度SVM0.730.710.740.780.74 0.690.710.78随机森林0.730.660.680.760.71 0.630.650.75朴素贝叶斯0.590.570.600.520.59 0.590.770.64Logistic回归0.740.660.680.780.76 0.680.710.77LSTM0.850.890.860.890.84 0.860.870.88CNN0.810.830.820.810.78 0.750.790.79360硕士Ullah,S.M.Marium,S.A.Begum等人/ICT Express 6(2020)357Fig. 1. 拟议方法。竞合利益作者声明,他们没有已知的可能影响本文所报告工作引用[1] P. Chikersal,S.茯苓E.坎布里亚A. Gelbukh,C.E. Siong,在Twitter中建模公众情绪:使用语言模式来增强监督学习,在:智能文本处理和计算语言学国际会议,2015年,pp。49比65[2] K. 康角,澳-地Yoon,E.Y.Kim,识别Twitter中的抑郁用户使用多模态分析,在:2016年大数据和智能计算国 际 会 议(BigComp),2016年,pp. 231-238图二、 机器学习与深度学习的比较表3现有系统和拟议系统的比较情绪分析模式现有系统建议系统中文[1] 57% 78%文本和表情符号[6,12] 65%,84% 89%7. 结论和今后的方向本文主要贡献了一个算法,一种方法,和情感词汇分析情感的社会媒体数据(包括文本和表情),例如从twitter收集的航空公司数据。这项研究还代表了在分析情绪时将表情符号与文本一起考虑的影响。该研究使用ML和DL算法进行。该系统应用了几个功能和模型的基础上收集的评论文本和表情,以确定情绪。总体结果表明,将表情符号与文本一起考虑对情感分析有积极的影响。研究还发现,比机器学习算法更有效。最后,本研究的结论优于现有的研究。在未来,这项研究可以扩展到多语言数据领域。[3] A. Hogenboom,D.Bal,F.Frasincar,M.Bal,F.de Jong,U.凯马克Exploiting emoticons in sentiment analysis,in:Proceedings of the 28thAnnual ACM Symposium on Applied Computing,2013,pp.703-710[4] P.Yadav,D.Pandya,SentiReview:基于文本和表情符号,在:2017年工业应用创新机制国际会议(ICIMIA),2017年,pp. 467-472.[5] P. Nakov,A. Ritter,S. Rosenthal,F. Stoyanov,SemEval-2016 task 4 : Sentiment analysis in twitter , 2019 , arXiv preprintarXiv:1912. 01973.[6] Y. 万角,澳-地Gao,An ensemble sentiment classification system oftwitterdataforairlineservicesanalysis , in : 2015IEEEInternationalConference on Data Mining Workshop ( ICDMW ) ,2015,pp. 1318 -1325年。[7] M. 庞蒂基角加拉尼斯,H。帕帕乔尔久岛安德鲁托普洛斯马 南 达 尔 Al-Smadi 等 人 , Semeval-2016 task 5 : Aspectbasedsentiment analysis , in : 10th International Workshop onSemanticEvaluation(SemEval 2016),2016.[8] W. Wolny,对使用表情符号的Twitter数据进行情感分析,emoji ideograms,2016.[9] D.D.达斯,S。夏尔马,西-地Natani,N.哈雷湾Singh,航空公司twitter数据的情感分析,在:IOP会议系列:材料科学与工程,2017年,042067。[10] A. Pak,P.Paroubek,Twitter作为情感分析的语料库,意见挖掘,在:LREc,2010,pp.1320-1326年。[11] E. Kouloumpis,T.威尔逊,J.摩尔,Twitter情绪分析:好的,坏的和OMG!,第五届国际AAAI会议 博客和社交媒体,2011年。[12] Y. Wang,M. Huang,X. 朱湖,加-地 Zhao,基于注意力的LSTMaspect-level sentiment classification , in : Proceedings of the 2016Conference on Empirical Methods in Natural Language Processing,2016,pp. 606-615
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功