没有合适的资源?快使用搜索试试~ 我知道了~
−⃝可在www.sciencedirect.com在线获取ScienceDirectICTExpress 6(2020)300www.elsevier.com/locate/icte使用机器学习技术对马来西亚推文进行情感分析Soumya S. Pramod K.V.科钦科技大学计算机应用系,印度喀拉拉邦科钦接收日期:2020年2月4日;接收日期:2020年4月1日;接受日期:2020年4月14日2020年4月22日在线提供摘要本文使用机器学习技术对马拉雅拉姆语推文进行情感分析。使用不同的机器学习技术,如朴素贝叶斯(NB),支持向量机(SVM)和随机森林(RF),将推文分类为积极和消极。不同的特征,如词袋(BOW),词频与逆文档频率(TF IDF),Unigram与Sentiwordnet,Unigram与Sentiwordnet包括否定词被认为是输入数据集的特征向量形成。随机森林分类器显示出更高的准确性,同时考虑Unigram与Sentiwordnet包括否定词作为特征。c2020年韩国通信与信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:机器学习;马拉雅拉姆语;情感分析;情感网络1. 介绍情感分析(SA)是一种计算研究,它从书面语言中分析人们如今,由于社交媒体的兴起,人们人们通过不同的社交媒体网站,如Facebook,Twitter,博客等,用母语表达意见。SA在电影行业中扮演着至关重要的角色-尝试,政治领域和营销领域。推文是280个字符长的消息。因此,对推文的SA最适合采用层次分析法。Jack Dorsey在2006年创建了Twitter。在2017年之前,推文的长度被限制在140个字符。现在它有280个字符长。马拉雅拉姆语是喀拉拉人的母语,是他们通过推特表达意见最常用的语言。马拉雅拉姆语twitter消息的SA是不可避免的,因为这种语言中没有自动情绪分析器。拟议的工作解释了马拉雅拉姆语推文的SA,这些推文已经使用不同的机器学习算法(如NB,SVM)分类为正面和负面,∗ 通讯作者。电子邮件地址: soumya@cemunnar.ac.in(Soumya S.)。同行评审由韩国通信和信息科学研究所(KICS)负责https://doi.org/10.1016/j.icte.2020.04.003RF.马来语推特的SA中的一个重大挑战是情感标记的主体不可用。因此,情感标记语料库已经手动创建。这项工作的主要贡献包括:1. 三千一百八十四(3184)推文已使用Twitter API检索,基于积极和消极的情绪导向的词在马拉雅拉姆语。使用积极词汇检索的推文有时会显示负面情绪,反之亦然。因此,所有检索到的推文都经过手动验证并分配其实际发送。2. 九百五十四(954)积极的,1318消极的,33个否定词,和145停止词已被确定从3184检索的推文,其中包含38208个独特的词。3. 创 建 了 包 括 否 定 词 在 内 的 特 征 向 量 , 如 带 有Sentiwordnet 的 Unigram 和 带 有 Sentiwordnet 的 Unigram 。Sentiwordnet包含954个正面词和1318个负面词。第一个特征向量,Unigram with Sentiwordnet,包括三个属性,例如正面词的出现次数,负面词的出现次数和每条推文的情感。上述三个属性以及否定词的出现次数构成了第二个特征向量,Unigram与包含否定词的Sentiwordnet。本文的其余部分组织如下:第二部分解释了本文2405-9595/2020韩国通信和信息科学研究所(KICS)。出版社:Elsevier B.V.这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。Soumya S.和Pramod K.V./ICT Express 6(2020)300301−区域,而第3节描述了SA的拟议方法,并简要介绍了机器学习模型。第4节说明了我们所做的实验设置。第5节讨论了不同机器学习模型的结果。最后,第6节对本文进行了总结。2. 相关作品SA在过去的二十年中得到了广泛的研究和应用。SA中的大多数作品都是针对英语的。Pang和Lee提出了三种不同的机器学习算法,例如NB,最大熵和SVM,用于英文电影评论的SA他们表明SVM优于其他两个分类器[1]。Turney等人提出了一种用于信号分类的无监督技术。他们使用语义定向和逐点互信息检索(PMI IR)方法对从不同领域收集的410篇评论进行SA[2]。目前,深度学习在自然语言处理中取得了可喜的成果。一些使用DNN的作品在这里提到。Cambria在2016年研究了情绪分析中情绪的影响,并使用了Sentic- Net和深度学习技术的混合方法进行极性检测[3]。Wang等人提出了一种用于情感分析的基于胶囊模型的递归神经网络[4]。Liu et al.(2019)提出了基于注意力的情感推理器,用于基于方面的情感分析。他们应用注意力机制来分配句子中不同单词的重要性。AS Reasoner模型在四个不同的中文和英文数据集上进行了实验。[5]的文件。SA已经完成了不同的印度语言,如本-阿,印地语,旁遮普语,曼尼普尔语,卡纳达语,泰米尔语和马来语-阿拉姆。以马拉雅拉姆语进行的SA总结见表1。马拉雅拉姆语是一种高度粘着的语言,与其他语言相比,预处理步骤更具挑战性。马拉雅拉姆语SA的一个重要问题是标记数据集的不可用。表1中提到的所有作品都使用了自己手动创建的数据集。Nair等人。[6]使用线性SVM和CRF方法进行马拉雅拉姆语电影评论的SA。他们的工作中没有进行超参数调优。Soumya等人[7]已经完成了马拉雅拉姆语的SA使用不同的DNN模型发布推文。他们考虑了语料库中的所有单词来创建特征矩阵。最后,他们表明GRU与其他DNN模型表现良好。Kumar等人[8]使用卷积神经网络(CNN)和长短期记忆(LSTM)等深度学习技术进行了SA。他们考虑了语料库中的所有独特单词,以形成输入数据集的特征矩阵。特征矩阵的规模很大,因为他们不删除无关紧要的字。从社交媒体收集的马拉雅拉姆语文本的SA由Rahul等人完成。他们使用CRF和SVM分类器进行SA。在他们的工作中进行了预处理和特征提取,但由于他们的工作中没有进行超参数调整,因此精度较低。图1.一、S A 的 建议架构。在所提出的方法中,我们已经创建的特征矩阵,考虑积极的,消极的情绪导向的话和否定的话。该特征矩阵显示SA中的影响更高。在这项工作中还对超参数进行了微调。这两种方法都提高了预测的准确性3. 提出方法本节解释了我们实验设置中使用的数据集、预处理方法、特征选择和分类器。所提出的方法的架构如图所示。1 .一、3.1. 数据集由于马拉雅拉姆语中的情感标记数据集不可用,我们通过使用twitter API检索tweet来创建数据集。确定了二十二(22)个积极的和13个消极的马拉雅拉姆语单词,并将其用作检索推文的主题标签。 这些词如图所示。 二、该数据集包含3184条推文。302Soumya S.和Pramod K.V./ICT Express 6(2020)300−•−−表1马拉雅拉姆语SA相关工作总结参考数据集情绪分类方法Soumya等人[7]马拉雅拉姆语Tweets深度神经网络架构,如RNN、LSTM、Bi-LSTM、GRU和CNN模型Kastoori等人[10]第10话Rahul等人[9]来自社交媒体的机器学习方法ART分类器用于域识别和模糊逻辑用于极性分类CRF和SVMKumar等人[8]马拉雅拉姆语推文CNN和LSTMAshna等人[11]第十一话Thulasi等人[12]马拉雅拉姆语电影评论使用维特比和HMM模型Nair等人[6]马拉雅拉姆语电影评论SVM和CRFAnagha等人[13]第十三话Jayan等人[14]马拉雅拉姆语电影评论CRF结合基于规则的方法Nair等人[15]第十五话Mohandas等人[16]第16话图二、马 拉 雅 拉 姆 语 中 的 积极和消极极性词。3.2. 预处理检索到的推文包含超链接、标点符号、特殊字符等,已使用python语言中的正则表达式删除了这些。之后,人工验证3184条推文,并分配积极和消极的情绪。在3184条推文中,1586条推文是积极情感导向的,1598条推文是消极情感导向的句子。示例数据集如图所示。3 .第三章。停用词是马拉雅拉姆语句子中出现频率最高的词,但它在SA任务中的信息量较少。从38208个独特的词中,145个停止词已经被确定并从推文中删除。图三. 正极性和负极性的样本数据集对马拉雅拉姆语推文进行了分类。3.3. 特征选择已 经 考 虑 了 词 袋 、 词 频 与 逆 文 档 频 率 、 具 有Sentiwordnet的Unigram和具有Sentiwordnet的Unigram(包括否定词)用于输入数据集的特征向量形成弓:在BOW中,文本被转换成一个词袋,其中每个条目对应于句子中特定术语的出现次数。特征矩阵是用m * n维创建的,其中m是句子的数量,n是语料库中唯一单词的数量。TF IDF:TF IDF是用于评估语料库中特定术语的重要性tf idf=tft*idft 其中tft是词频,idft是逆文档频率。带有Sentiwordnet特征向量的Unigram包含三个属性,如积极单词的数量,消极单词的数量和相应推文的情感。Sentwordnet是通过从3184条推文中识别出954个积极词和1318个消极词而包含否定词特征向量的带有情感词网络的Unigram包含四个属性,如肯定词的数量在这种情况下,33个否定词与Sentiwordnet一起被包括在内。···Soumya S.和Pramod K.V./ICT Express 6(2020)300303−−表2NB分类器的精确率、召回率和F值Unigram,包括否定词表3SVM(Kernel = linear)分类器的精度、召回率和F值特点积极消极精确召回F分数精确召回F分数BOW.836.88.858.878.834.866TF IDF.852.886.869.883.849.866带Sentiwordnet的Unigram.963.912.937.924.968.945带有包含否定词的0.939.952.946.95.936.9433.4. 机器学习分类器三种不同的机器学习算法,如NB,SVM和RF已被应用于预测马拉雅拉姆语推文的情绪。超参数的选择对于数据的准确预测是最具挑战性的。朴素贝叶斯分类器:NB使用多项NB分类器预测测试数据集的情感是积极还是消极。这种分类是基于贝叶斯支持向量机(SVM)是Vapnik在1992年提出的一种有监督的机器学习算法[18,19]。支持向量机在高维空间中利用支持向量寻找具有最大边缘距离的线性分离器。线性核函数和RBF核函数都被用于预测推文的情感。随机森林:RF是Tin Kam Ho在1995年创建的监督机器学习算法。它构建多个决策树并合并在一起以进行数据分类。它在特征的随机子集中搜索最佳特征。4. 实验装置推文是使用Twitter API基于主题标签检索的。超链接、标点符号、特殊字符等。在预处理步骤中移除推文中存在的内容在预处理后,使用BOW,TF IDF,Unigram与Sentiwordnet,Unigram与Sentiwordnet包括否定词形成特征向量。该数据集包含3184条推文,这些推文以70:30的比例分为训练数据集和测试数据集。不同的机器学习分类器,如NB,SVM和RF,用于创建训练模型。在模型创建之后对于NB分类器,多项NB分类器用于将推文分类为正面和负面。SVM使用图四、 比较测试数据集与不同ML模型的准确性。用于模型创建的线性和RBF核函数。超参数的微调使用Python语言中的GridSearchCV函数完成超参数,如C和gamma,采用不同的值组合,并最终在调优后给出最佳参数。C取不同的值,如0.1,1,10,100,1000,伽马取不同的值,如0.1,0.01,0.001和0.0001。SVM在微调之后给出C的值为1像n这样的超参数 估计量和max 深度采取不同的组合例如100,300,500,700,900和10,30,50,分别是70,90。在对超参数进行微调后,BOW和TF IDF特征的n个估计量和最大深度分别选择为500和70。但是,带有Sentiwordnet的Unigram和带有Sentiwordnet的Unigram包括···特征积极负精度召回F-score精度召回F-score弓.8872.824.8545.8168.882.848TF−IDF.884.9685.798.9035.839.9349.7956.91.882.97.836.94SentiwordnetUnigram与Sentiwordnet.973.913.942.916.974.9445304Soumya S.和Pramod K.V./ICT Express 6(2020)300−−−−表4SVM(Kernel = rbf)分类器的精度、召回率和F值特点积极消极精确召回F分数精确召回F分数BOW.89.88.886.868.878.873TF IDF.90.856.877.846.893.869带Sentiwordnet的Unigram.971.91.938.91.972.94带有包含否定词的0.984.911.947.915.985.949表5RF分类器的精确度、召回率和F-score特点积极消极精确召回F分数精确召回F分数BOW.91.885.90.87.898.886TF IDF.914.88.898.873.91.89带Sentiwordnet的Unigram.964.935.949.933.963.948带有包含否定词的0.983.93.956 0.93.983.956表6NB、线性SVM、RBF SVM、RF的验证准确度。验证准确性弓TF−IDFUnigram与Sentiwordnet带有包含否定词的NB.714.714.944.944线性核.68.70.922.938RBF核.696.668.935.935RF0.720.710.9440.944表7测试NB、线性支持向量机、径向基支持向量机、RF的数据准确性。测试数据准确性弓TF−IDFUnigram与Sentiwordnet带有包含否定词的NB.851.838.937.944线性核.857.867.941.945RBF核.88.87.939.948RF.891.894.948.956否定词,选择n个估计值为100, 深度705. 结果和讨论精确度,召回率,F分数和准确度[21]已经针对NB,SVM和RF分类器进行了测量,考虑了四种不同的特征。具有BOW和TF IDF的特征矩阵 是通过考虑语料库中所有独特的词来创建的。在情感分析中,有些词在预测情感的积极和消极时是无关紧要的。与其他两种特征相比,BOW和TF IDF的特征矩阵的大小更大。所有三个分类器与Unigram与Sentiwordnet和Unigram与Sentiword-net包括否定词显示出更好的准确性,因为情感导向的词是显着的,而预测句子的情感。准确率、召回率和F分数通过使用四个不同的分类器如NB、SVM(核=线性)、SVM(核= RBF)和RF考虑所有上述特征,分别在表2、表3、表4和表5在这项工作中进行了五重交叉验证。NB、线性核SVM、RBF核SVM和RF的验证准确度见表6。表7描述了四种不同分类器建模的测试数据准确度。图4代表了具有不同特征的各种机器学习模型的比较研究。特征SW和SW+否定分别表示情感词网和包含否定词的情感词网。6. 结论SA的马拉雅拉姆语推文使用NB,SVM和RF提出了这项工作。四种不同的功能,如BOW,TFSoumya S.和Pramod K.V./ICT Express 6(2020)300305− IDF、具有Sentiwordnet的Unigram和具有包括否定词的Sentiwordnet的Unigram被考虑用于输入数据集的特征向量形成。与其他特征相比,具有最后两个特征的所有分类器都表现出更好的准确性。RF分类器使用Unigram和包含否定词的Senti- wordnet,获得了最高的准确率,为95.6%。竞合利益作者声明,他们没有已知的可能影响本文所报告工作CRediT作者贡献声明Soumya S.:写作-原始草稿。Pramod K.V.:超级视觉。引用[1] Bo Pang,Lillian Lee,Shivakumar Vaithyanathan,Thumbs up?:使用机器学习技术的句子分类,在:Proceedingsof the ACL-02Conference on Empirical Methods in Natural LanguageProcessing-Volume 10,Association for Computational Linguistics,2002中。[2] Peter D. Turney,Thumbs up or thumbs down?语义定向应用于评论的无监督分类,在:计算语言学协会第40届年会会议记录,计算语言学协会,2002年。[3] Erik Cambria,情感计算和情感分析,IEEEIntell。系统31(2)(2016)102[4] Yequan Wang等人,胶囊的情绪分析,在:2018年万维网会议论文集,2018年。[5] Ning Liu,et al.,基于注意力的情感推理器,用于基于方面的情感分析。百分Comput. INF. Sci. 9(1)(2019)35.[6] 迪普湾Nair等人,使用机器学习技术对马来西亚电影评论的情感分析,2015年计算,通信和信息学进展国际会议,ICACCI,IEEE,2015年。[7] S. Soumya,K. V. Pramod,使用不同的深度神经网络模型对马来西亚推文进行情绪分析-案例研究,在:2019年第9届计算和通信进展国际会议,ICACC,IEEE,2019年。[8] S. Sachin Kumar,M. Anand Kumar,K.P. Soman,使用长短期记忆单元和卷积神经网络对马来语推文进行情绪分析,载于:国际采矿智能和知识探索会议,Springer,Cham,2017年。[9] M. R.R.拉胡尔Rajeev,S. Shine,社交媒体情绪分析马拉雅拉姆语,2018年[10] V. Kasthoori,B. Soniya,V. Jayan,马来西亚独立领域情绪分析,载于:计算智能:理论,应用和未来方向-第二卷,Springer,新加坡,2019年,第10页。151-160。[11] M.P. Ashna,Ancy K. Sunny,基于Exicon的马来语情感分析系统,2017年计算方法和通信国际会议,ICCMC,IEEE,2017年。[12] P.K. Thulasi,K. Usha,马拉雅拉姆语电影和产品评论的方面极性识别,2016年下一代智能系统国际会议,ICNGIS,IEEE,2016年。[13] M. Anagha等人,基于模糊逻辑的混合方法用于马来西亚电影评论的情感分析,在:2015 IEEE信号处理,信息学,通信和能源系统国际会议,SPICES,IEEE,2015。[14] P. Jayan,Deepu S.奈尔,S。陈文辉,一种基于语义特征的汉语语音识别方法,北京大学出版社,2001。Sci. 14(2015)1-4.[15] 迪普湾Nair,Jisha P. Jayan,Elizabeth Sherly,马来西亚的情感提取,在:2014年计算,通信和信息学进展国际会议,ICACCI,IEEE,2014年。[16] Neethu Mohandas,Janardhanan P.S. Nair,V. Govindaru,从马来语文本中提取特定领域的句子级别语气,2012年计算和通信进展国际会议,IEEE,2012年。[17] 作者:Daniel Jurafsky,James H.马丁,分类:朴素贝叶斯,逻辑回归,情感,语音郎。过程(2015年)。[18] Corinna Cortes,Vladimir Vapnik,支持向量网络,Mach。学习. 20(1995)273-297,Kluwer Academic Publishers,Boston. 在荷兰制造。[19] 伯 恩 哈 德 作 者 : Isabelle M. 弗 拉 基 米 尔 ? 居 永 Vapnik , Atrainingalgorithm for optimal margin classifiers,in:Proceedings ofthe FifthAnnualWorkshop on Computational Learning Theory ,ACM,1992。[20] 田锦浩,随机决策森林,第三届国际文献分析与识别会议论文集,卷。1,IEEE,1995.[21] 路易丝·T苏,交互式信息检索的评价措施,信息。过程管理。28(4)(1992)503
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功