没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报使用集成和深度学习技术从阿拉伯语推文中检测情感Omar Al-Zoubi,Saja Khaled Tawalbeh,Mohammad AL-Smadi约旦科技大学计算机科学系阿提奇莱因福奥文章历史记录:收到2020年2020年8月3日修订2020年9月4日接受2020年10月16日网上发售关键词:阿拉伯语文本情感情感检测情感分析机器学习NLP情感挖掘A B S T R A C T文本情感检测是近年来研究的热点。这是由于社交媒体网站(例如Twitter,Facebook)的快速使用,它允许用户以文本格式表达他们的感受,情绪和想法。分析社交网络的情感丰富的文本数据具有许多现实应用。情感文本的语境可以通过分析这一丰富的情感信息源的某些特征来衡量。将文本分类为情感标签/强度被认为是一个困难的问题。本文使用深度学习和集成实现解决了最先进的NLP研究情感和强度检测任务之一。在本文中,我们开发了几种创新方法;(a)双向GRU_CNN(BiGRU_CNN),(b)传统神经网络(CNN)和(c)XGBoost回归器(XGB)。BiGRU_CNN、CNN和XGB的集合用于解决SemEval-2018任务1(推文中的情感)的情感我们提出的集成方法使用SemEval-2018 Task 1的参考数据集进行了评估。结果表明,我们的方法远远高于这项任务的基线。它还实现了Pearson(69.2%),与之前表现最好的模型相比提高了0.7%。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍情感计算研究领域一直是一个活跃的研究领域,最近获得了很大的普及(Strapparava和Mihalcea,2008)。它旨在赋予机器类似人类的理解和响应人类情感的能力。这使得人类和机器之间的交互更加自然。可以从各种模态检测情绪,包括:文本(Badarneh等人,2018),演讲(Vidas等人,2018)、面部表情(Sawant,2018)和生理信号(AlZoubi等人,2012年)。情绪带有一种强烈的感觉,可以从与他人的互动中获得(例如愤怒,恐惧,喜悦)。人们还可以通过社交网络使用文字、表情符号、照片和视频来表达自己的感受。与Face-book帖子相比,推文是首选,因为推文是公开的,可以轻松访问情感丰富的文本数据的宝贵来源情绪分析任务依赖于一些已建立的情绪模型。两种最常用的情感模型是离散情感模型和维度情感模型。Ekman(1999)提出了六种基本的离散情绪(愤怒,恐惧,喜悦,*通讯作者。电子邮件地址:oaalzoubi@just.edu.jo(O.AlZoubi),masmadi@just.edu.jo(M.AL-Smadi)。厌恶、惊讶和悲伤)。另一个模型是情绪的维度模型,它将情绪映射到三个维度:效价、唤醒和支配。效价测量情绪的积极或消极程度,而唤醒测量情绪的兴奋程度(Russell,1980)。微博数据具有特殊的性质,这是指人类在短消息(tweets)中使用标签和情感传达特殊信息的事实。作为社交媒体数据源的推文分析具有挑战性它是用俚语写的,可能有语法错误,这使得机器很难理解。 自然语言处理(NLP),使得命名实体识别(NER)(Sa'a等人,2018),情绪分析(SA)(Al-Smadi等人, 2018),以及文本情感检测(ED)(Badarneh等人,2018年)可用于处理和分析推文。情绪分析与ED的不同之处在于,SA旨在找到给定推文的极性(积极,消极或中性)。另一方面,ED旨在将给定的推文分类为特定的情感标签,例如愤怒,恐惧,喜悦。SemEval-2018 Task 1上的“影响推文”共享任务提供了使用阿拉伯语、英语和西班牙语推文的最佳-最差缩放(BWS)注释的数据集(Mohammad等人,2018年)。它还提供了许多子任务,包括:1)将推文分类为离散的情感标签,2)找到情感的强度,以及3)多标签分类。我们专注于https://doi.org/10.1016/j.jksuci.2020.09.0131319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comO. Al-Zoubi,Saja Khaled Tawalbeh和M.斯马迪沙特国王大学学报2530情绪强度(EI-reg)子任务1,这是一个回归问题,使用阿拉伯语tweets数据集确定四种基本情绪(愤怒,喜悦,恐惧和悲伤)的强度。本文实现了一种RNN、CNN和传统在单词级别上开发了几种方法;(a)具有CNN的双向门控递归单元(BiGRU_CNN),(b)常规神经网络( CNN )和(c ) XGBoost 回归器( XGB )。实施BiGRU_CNN、CNN和XGB的集成以处理情绪强度(EI-reg)任务。各种特征被用来解决情绪强度任务。TF-IDF,词级嵌入,和词典功能。嵌入可以捕获与其他词的句法相似性和此外,我们依赖于伪标签学习,并执行了Aravec提供的几个预训练模型(Soliman等人,2017年)。一个参考数据集被用来评估所提出的方法。本文的其余部分组织如下;第2节提供了一个从阿拉伯语文本的情感分析的文献综述。第3节介绍了数据和方法。第4节描述了我们提出的从输入推文中分析情感的方法第4.7节介绍了我们的结果并讨论了主要发现。最后,第五部分总结了本研究,并提出了未来的工作计划。2. 背景微博被认为是最流行的社交网络应用之一。它允许人们分享他们对几个充满情感和感觉的主题的想法。检测文本的情感背景在现实生活中有许多应用(例如推荐系统,意见挖掘分析)。有几种方法可以从文本中检测情感,例如基于词典的方法、传统机器学习方法、深度神经网络方法和集成方法。在本节中,我们将对这些方法进行回顾。2.1. 词汇教学法基于词汇的学习方法(Lexicon-Based Approaches,LB)是一种无监督学习技术。这些方法依赖于所提供的数据集和没有标记数据集的可用词典。与机器学习和深度学习方法相比,它不依赖外部资源。基于词典的方法试图从数据集中获得最新的特征以构建特定的模型(Agrawal和An,2012)。有几本词典是为英语和阿拉伯语精心编写的。这些词汇包含概率,极性或情绪及其强度,对NLP研究有用。这样的词典的例子包括SentiS-强度(Baccianella等人,2010年),AFFIN(尼尔森,2011年),和NRC词汇(穆罕默德和Turney,2013年;穆罕默德和Kiritchenko,2015年)。Bandhakavi等人(2017)在情感检测任务中 使 用 了 WordNet-Affect , NRC Emotion Lexicon 和 WordNetSenticNet。NRC词典被认为具有最好的性能。类似地,用于评估所提出的方法的内部数据集是从社交媒体来源、Face-book和Twitter收集的。所提出的方法实现了89.7%的准确率。2.2. 传统的机器学习方法在传统的机器学习方法(ML)中,分类器自动从提供的数据集中学习最重要的特征。ML方法是监督技术,这意味着它依赖于一个标记的数据集进行分类。几种众所周知的ML方法用于从文本中分类情感的任务,例如支持向量机(SVM),决策树(DT),模糊逻辑(FL),概率分类器-朴素贝叶斯算法和回归方法。Suhasini和Badugu(2018)比较了两种方法:基于规则的贝叶斯和朴素贝叶斯。Hasan等人(2018)提出了两个阶段的情感分类方法:离线阶段,从文本中构建情感分类器,以及实时分类情绪的直播阶段。使用最先进的机器学习,例如SVM、朴素贝叶斯、决策树。他们使用词汇特征作为一组单字(AFINN)(ANEW),表情符号和流。为了评估所提出的方法,他们通过情感标签收集了大量的推文,这些标签取决于积极情绪,消极情绪,焦虑,愤怒,悲伤。所提出的方法实现了90%的准确性。Al-Khatib和El-Beltagy(2017)提出了一种使用WEKA的朴素贝叶斯方法。他们将n-gram和特征向量作为输入特征。该模型是在他们自己的数据集上进行评估的,这些数据集是从Twitter收集的,并依赖于Ekman的基本情感模型。所提出的方法实现了68.1%的准确率。Duppada和Hiray(2017)执行XGBoost来解决WASSA 2017 task1提供的问题,使用了几个特征,即词向量,词典和语法特征。拟议的系统排名第三的共享任务。2.3. 深度为了克服以前方法的局限性,引入了深度神经网络(DNN)。它在这一领域取得了重大进展。DNN的隐藏层用于增强分类模型的整体性能。DNN包含两个子神经网络,1)诸如长短期记忆方法的递归神经网络(RNN),以及2)常规神经网络(CNN)。Wu et al.(2018)提出了CNN-Bi-LSTM,其注意力模型取决于单词嵌入和情感推文包,以解决SemEval 2018 task 1的两个子任务。所提出的模型达到了这些结果,情绪强度72.2%,效价回归81.0%。2.4. 包围方法包围方法结合了两种或多种可用方法。这是为了取得更好的结果。与独立方法相比,包围方法提供更大的泛化能力和增强的性能。合奏可以从所有方法的组合中获益,以提高准确性。Duppada等人(2018)介绍了一种域自适应技术,该技术由四种方法(XGBoost和随机森林)组 成 。 此 外 , 它 们 还 依 赖 于 DeepMoji 、 Skip-thought vector 和Sentiment neurons。他们在SemEval 2018 Task1的四个子任务数据集上评估了他们的方法。采用叠加集成技术。他们获得了最高结果(EI-reg 79.9%)、(EI-OC 69.5%)、(V-reg 87.3%)和(V-OC83.6%)。2.5. 特别是阿拉伯文文本本研究的重点是解决SemEavl18竞赛任务1中的情绪强度我们在这里提供了一个审查以前的研究情绪分析从阿拉伯语文本。我们扩展了我们以前的工作,回顾了阿拉伯语文本中情感/影响的最新研究[参考资料保留]。深度学习是一种最先进的机器学习方法,广泛用于文本情感分析领域。例如,Abdullah et al. (2018 b)提出了一种深度学习模型((SEDAT)CNN-LSTM),以确定O. Al-Zoubi,Saja Khaled Tawalbeh和M.斯马迪沙特国王大学学报2531情绪强度、情绪和给定推文集的分类。他们使用了几个功能,如情感推文包,Deepproneji,Doc2Vec和词汇功能。SEDAT对愤怒、恐惧、喜悦和悲伤四种情绪的平均情感回归率为66.1%,情感分类率为56.9%,情感回归率为81.7%,情感分类率为0.786。类似地,Abdullah和Shaanxi(2018)提出了一个LSTM网络和一个Dense网络来检测推文中的情感。预训练的嵌入、(Word2VEC和Doc2VEC)嵌入和词典特征被用作输入向量。使用Semeval 2018数据集对四种情绪进行分类:愤怒、喜悦、恐惧和悲伤。根据所提供的任务,所提出的方法取得了以下结果:情绪强度59.7%,情绪强度- 顺序分类51.1%,效价回归77.3%,效价顺序分类74.8%,情感分类44.6。此外,Al-Khatib和El-Beltagy(2019)提出了一种RNN,使用Doc 2 vec和AraVec预训练模型进行微调单词嵌入。为了评估所提出的方法,使用了三个阿拉伯语和两个英语数据集,即阿拉伯语TwitterEmo- tions数据集,SemEval 2017 task 4 subtask A和SemEval 2018task 1 emotion classification task。他们对三个数据集的分类结果分别为0.74%、0.60%和0.623%。此外,Samy等人(2018)提出了一种上下文感知门控递归单元(C-GRU),旨在通过使用额外的层从输入推文中提取上下文信息。以确定每条推文所表达的情绪。SemEval-2017task 4和SemEval-2018 task 1用于评价所提出的方法。该模型的结果达到了0.53%的准确率,和0.64%的F1-宏观平均。另一方面,包围盒方法也被用于将输入文本分类到其目标情感。Badaro等人(2018)提出了一种集成技术,由岭分类器,支持向量分类器和随机森林组成。使用的功能是n-grams,词汇,单词嵌入,FastText,以检测推文中的情绪强度和情绪。目标情绪是愤怒、喜悦、恐惧和悲伤。该模型对被试的情绪强度、情绪强度-有序分类、效价回归、效价有序分类和最终情绪分类的预测结果分别为64.3%、26.7%、80.4%、64.3%和48.9%。 此外,Abdouet al.(2018)提出了一种集成模型,包括双向LSTM(单词和字符级)、梯度提升树和CNN模型,这些模型取决于预训练的嵌入、各种向量表示和3种类型的阿拉伯语词典。semeval 2018数据集的目标是对四种情绪进行分类:愤怒,喜悦,恐惧和悲伤。 所提出的模型实现了这些结果:情绪强度68.5%,情绪强度-顺序分类58.7%,效价回归81.6%,效价顺序分类75.2%。此外,Jabreel和Moreno(2018)提出了一种集成技术,该技术由传统网络的N通道Xgboost回归器组成。特征包括预训练的嵌入,使用Stanfordtagger的POS标记,手动创建阿拉伯语词典以及翻译词典。Semeval2018数据集的目标是对四种情绪进行分类:愤怒,喜悦,恐惧和悲伤。根据所提供的任务,所提出的方法实现了这些结果,情绪强度66.7%,情绪强度传统的机器学习方法也被用于阿拉伯语文本的情感分类任务。Al-Khatib和El-Beltagy(2017)提出了一种使用WEKA工具的朴素贝叶斯方法。n-gram和特征向量模型在他们自己的数据集上进行了评估,这些数据集是从Twitter收集的。根据Ekman的基本情感模型,该方法实现了68.1%的准确率。 类似地,Abdullah等人(2018 a)使用支持向量机器(SVM)和朴素贝叶斯(NB)对阿拉伯语推文中的情绪进行分类。目标情绪是喜悦、厌恶、愤怒和悲伤。SVM和NB的准确率分别为80.6%和0.95%ROC同样,George等人(2018)通过对英语,西班牙语和阿拉伯语执行两种方法引入了全局向量表示,即:每行的SUM求和,SVD奇异值分解。使用了两个分类器;随机森林和SVM,包括三个内核(线性,多项式和RBF)。使用SemEval-2018 task 1数据集。使用该模型实现了以下结果:子任务1(EI-reg)愤怒0.213%,恐惧0.230%,喜悦0.207%,悲伤0.267%,宏观平均值0.230%。Pearson相关性被用作这些子任务的测量。此外,Mulki等人(2018)提出了对semevalsubtask 5情感分类(Tw-StAR)的贡献,以确定阿拉伯语,英语和西班牙语推文的情感。采用二进制相关性变换策略,采用TF- IDF进行特征提取,并用支持向量机进行训练。考虑了11种情绪,以便使用为子任务5提供的SemEval数据集解决多标签分类。所提出的阿拉伯语模型的结果达到了46.5%的准确率,59.7%的F1-Micro Avg,和44.6%的F1-Micro Avg。词汇方法也被用于阿拉伯语文本的情感分析任务。例如,Ahmad etal.(2019),介绍了一种优于DNN的DNN替代方法。该模型使用概率为情感词构建加权词典,并计算情感类的最佳阈值,以解决SemEval-2018 Task 1的情感分类问题。使用SemEval-2018 Task 1数据集来评价所提出的方法。此外,Pribá netal. (2018)提出了英语,西班牙语和阿拉伯语的两个独立系统。第一个是用于回归子任务(EI-reg)的情感推文系统,这是一个依赖于单词嵌入的WEKA包。第二个是LDA,单词n-gram,字符n-gram和词典特征系统。最大熵分类器从二进制机器学习被用于顺序分类子任务(EI-OC)。使用的特征包括词性标注、句法分析树和形态特征。此外,使用了两种类型的嵌入,全局向量和Aravec的word2vec。使用SemEval-2018 task 1数据集。所提出的Arabic模型的结果实现了以下:子任务1(EI-reg)愤怒0.487%,恐惧0.559%,喜悦0.619%,悲伤0.631%,宏观平均值0.574%。而在子任务2(EI-OC)中,获得了以下结果:愤怒0.327%,恐惧0.345%,喜悦0.437%,悲伤0.467%,宏观平均值0.394%。Pearson相关性被用作子任务的测量。Sailunaz等人(2018)、Al-Saaqa等人(2018)和Jain和Sandhu(2009)提供了对英语和阿拉伯语的情感分析的感兴趣的读者还可以参考以下参考文献(Al-Ayyoub et al.,2019)(Badaro等人,2019年),他们提供了对阿拉伯语文本的情感分析的全面评论。3. 方法本节介绍了情绪强度任务、数据集准备和预处理、预训练模型以及用于模型训练的功能。3.1. 任务描述SemEval-Task 1有五个子任务,系统必须自动确定一个人的情感状态。这些子任务如下:1)情绪强度回归(EI-reg),2)情绪强度顺序分类(EI- oc),3)O. Al-Zoubi,Saja Khaled Tawalbeh和M.斯马迪沙特国王大学学报2532效价(情感)回归(V-reg),4)效价顺序分类(V-oc),和5)情感分类(E-c)。为每个子任务(训练、开发和测试)提供了三种语言的三个标记数据集;英语、阿拉伯语和西班牙语。在本文中,我们使用了第一个子任务的阿拉伯语推文数据集;情绪强度回归(EI-reg)。EI-reg subtsk指的是:给定输入推文和情绪(X;愤怒、喜悦、恐惧或悲伤),确定情绪的强度以获得推文所有者的精神状态或说话者感受到的情绪(X)的最佳表示。每个推文被给予0(最小EI或具有最大程度远离感觉情绪(X)的精神状态)和1(最大EI或具有最大程度倾向于感觉情绪(X)的精神状态)之间的实值分数。我们可以注意到,分数越高,对应的情绪程度(X)就越高。该任务提供多种语言(阿拉伯语、英语和西班牙语)。每种语言都有4个训练数据集,4个开发数据集和4个测试数据集,每种情绪一个。3.2. 数据集准备3.2.1. 数据集使用twitter API根据一些情感词收集推文。例如,“#愤怒”、“#愤怒”、“#恐慌”数据集通过最佳-最差缩放BWS工作进行注释。关于数据集创建方法的更多细节可参见Mohammad和Kiritchenko(2018)。金色标签可用于测试文件。所提供的文件包括一个标题行,该标题行指示列所表示的内容,例如ID、推文、影响情绪和强度分数,其值在0-1之间。数据集可作为压缩文件提供,但文本文件作为制表符分隔的文件提供。数据集在竞赛网站上公开提供(Saif Mohammad,2018)。1表1显示了EI-reg为四种情绪提供的推文数量。表2提供了所提供数据集的示例。3.2.2. 数据预处理文本的预处理被认为是最重要和最关键的过程之一。它是必需的,以便有一个干净的版本提供的数据集。在我们的例子中,SemEval数据集代表以俚语格式收集的原始推文,它包含不必要的噪音,如特殊字符,标点符号,URL,用户提及,Arabizi和hashtag。因此,需要预处理来改进应用于原始推文的分析过程。进行了几个预处理步骤。每条推文都被标记化,然后规范化。规范化是必要的,因为阿拉伯语推文是用方言格式写的。还去除了伸长率。最后,数字和非阿拉伯字符也被删除。以下是每个预处理步骤的示例。标准化:在这一步中,单词被标准化为它们的正式书面形式。变音符 号 被 删 除 , 例 如 ( Fatha , Tanwin Fath , Damma , TanwinDamm,Kasra和Tatwil)。英语单词、字符和表情符号被表达其含义的单词所取代。我们认为包含多个词的标签承载了情感的感觉,因此多个词被扩展改善推文中的情感质量,即:词词不相关的噪音:一般来说,推文是不干净的,包含不相关的信息。(*,/ #-(/).这些不相关的信息需要在进一步处理之前进行清理。即:-归一化到值得一提的是,在文本分类问题中,停用词在改变(快乐到悲伤)的情况中起着至关重要的作用。在我们的例子中,我们删除了除了否定之 外 的 停 用 词 。 两 个 工 具 被 用 于 预 处 理 tweet; 自 然 语 言 工 具 包(NLTK)Bird et al.(2009)和使用python的常规表达式。3.3. 预训练嵌入预训练的向量模型在提高整体精度方面发挥着重要作用,特别是在神经网络的快速使用下。这有助于在语音识别、计算机视觉和自然语言处理(NLP)等领域创建准确的模型。在自然语言处理中,词嵌入被广泛使用,这些嵌入倾向于捕获文本的句法和语义关系,其中词汇表中的词被映射到向量的实数。我们使用Keras嵌入(Chollet,2015)层来提供数据集的密集表示。它能够捕捉到一个词的上下文,包括句法、语义相似性以及与其他词的关系。AraVecSoliman et al.(2017). 2是一个开源工具,为阿拉伯语NLP任务提供强大的预训练单词表示(嵌入)模型AraVec有几个与阿拉伯语推文和维基百科文章相关的单词嵌入模型,这些模型在超过1,169,075,128个令牌上进行了训练。AraVec有两个版本,第一个版本包含6个模型,第二个版本包含12个模型,具有300和100维表示。在这项研究中,我们使用了各种预训练的模型,然而 , 最 好 的 结 果 是 使 用 Twitter-skip-gram ( Twt-SG ) 300 维 。Word2VecMikolov et al.(2013)技术,由Mikolov于2013年在Google发明,被认为是使用浅层神经网络学习单词嵌入的最常见技术之一。使用word 2- vec的两种方法来获得嵌入。这两种方法分别是Skip Gram和Common Bag Of Words(CBOW),这两种方法都涉及神经网络。3.4. 特征提取以下是我们提出的方法中使用的特征提取方法的简要描述,包括AraVec提供的预训练单词嵌入模型:3.4.1. 情感推文情感推文词典(LEX)(Bravo-Marquez等人,2019)是一个开源WEKA(Hall等人,2009)用于分析推文的情感和情绪的软件包。该软件包包含几个用于从tweet中捕获情感特征的过滤器。它可以被馈送到 机 器 , 深 度 学 习 算 法 。 提 供 了 一 些 推 文 级 过 滤 器 , 例 如TweetToSparseStrengthureVector、TweetTo-LexiconstrengthureVector、TweetToInputLexiconstrengthureVector、Tweet-ToEmbeddingsStrengthFeatureVector和TweetToSentiStrengthFeatureVector。在这项研究中,我们使用了TweetToLexiconalityVector Filter,它包含了几个用于从推文中提取特征的词汇。下面提供了关于这个包中使用的lexi-cons的更多细节。词典名称MPQA:根据MPQA词典计算正项和负项的数量(Wilson等人,2005年)。它站1https://competitions.codalab.org/competitions/17751#learn_the_details-data-设置,该网站的最后访问日期是2019年8月20日。2https://github.com/bakrianoo/aravec最后一次访问网站的日期是21/ Aug/2019。(@userO. Al-Zoubi,Saja Khaled Tawalbeh和M.斯马迪沙特国王大学学报2533P-¼DFT¼ ð Þ-表1表示提供的数据集的详细信息。文件名愤怒喜悦恐惧悲伤火车878728882889发展150224146141测试373448372370总1401140014001400表2提供的数据集示例,包括翻译的推文Tweet翻译情感强度心情不甜,单纯愤怒0.406喜悦胜利的感觉0.688恐惧0.912我的心跳得很快,悲伤0.750SentiWordNet:它为出现在多个同义词集中的每个词计算正分数和负分数以及与情感分布相关的加权平均值。它通过计算出的权重对应于感官的倒数排名,为最常见的感官提供更高的权重。SentiWordNet被认为是一种词汇资源,用于支持情感分析应用程序,这取决于三个情感得分(阳性,阴性和中性)(Baccianella等人, 2010年)。Negations:统计推文中的负面词汇数量。有关该软件包的更多详细信息,您可以查看主站点3。此外,该软件包的源代码在GitHub. 4让我今天多视角问题分类,它被称为主观性词典。它还依赖于几个来源,这些来源提供了8,222个单词,包括标有极性(积极,消极和中性)的POS标签。Bing Liu:Bing Liu词典(Hu和Liu,2004)计算了正项和负项的刘冰词典是一个用于分析观点和情感的词典它也被认为是一种主观性词汇,可以用于商业和研究背景。它包含2003个正项和4782个负项。AFINN:AFINN词典(Nielsen,2011)收集正面和负面术语评分,以计算正面和负面变量。AFINN词汇被认为是一个简单而流行的词汇,广泛用于情感分析问题。它包含3.4.2. 词频-TF-IDF(Sammut等人,2010)提取用于训练、开发和测试集的向量,以便估计所提供的数据集中的标记的重要性。它还用于将文本表示转换为向量空间模型。它在缺乏词袋表征的情况下也起着重要作用。TF-IDF提出了两种统计方法; (1),这意味着文档中特定项的出现并增加项的出现,以及逆文档频率Eqs. (2)用于度量给定术语在整个文档中的权重。TF在数学上表示为,其中t是指术语,df是指术语在整个文档中出现的频率,并且d是指文档:TF文档中术语的重复次数1文档中的字数ft d564个阳性和964个阴性英语术语,量表为(5阴性)和(+5阳性)。tft;d;t2dft1;dSentiment140:Sentiment140词典(Kiritchenko等人,2014)收集正面和负面术语分数,以根据由表情符号注释的另一方面,NRCHashtag情绪词典这取决对的相同词汇相比之下,IDF在数学上表示为,其中N表示语料库中的文档数量,df表示整个文档中术语的出现频率,d表示文档,D表示整个文档:(Kiritchenko等人,2014)收集积极和消极的术语分数,以根据情绪标签计算积极和消极的变量。NRC词-情感关联词典:NRC词-情感关联词典(Mohammad和Turney,2013)计算文件数量包含单词的文档数量idflogN;DlogNð2Þ与所提供的情感相匹配的词的数量。它是免费提供-可用于研究目的。它包含八种情绪(愤怒、恐惧、期待、信任、惊讶、悲伤、喜悦和厌恶)和情感(消极和积极)的词汇。NRC-10 Expanded:NRC-10 Expanded(Bravo-Marquez等人,2016),用于与匹配Twitter的词相关联的每个情感,这取决于NRC词-情感关联词典的扩展。它使用不同的词级扩展,例如unigrams,word2vec嵌入,棕色聚类和具有多标签分类的POS标签。NRC Hashtag Emotion Association Lexicon:It Depends onthe NRC Hashtag Emotion Association Lexicon ( MohammadandKiritchenko,2015).它将与情感相关的情感添加到通过情感术语标签生成的词典中的例如,#喜悦和#愤怒取决于推文。因此,tf idf方程的最终结果是:(3)乘以tf等式(1)用idf方程(2)如下:TF-IDF<$TF×IDF1.3米3.4.3. 伪标记学习伪标记学习(PLL)(Lee,2013)是一种有效的技术,可以应用于半监督学习,在训练神经网络模型时利用未标记的数据这是一种有效的方法,可以减少错误量,3https://affectivetweets.cms.waikato.ac.nz/。最后访问网站的日期是21/Aug/2019。4https://github.com/felipebravom/AffectiveTweets。最后访问网站的日期是21/Aug/2019。O. Al-Zoubi,Saja Khaled Tawalbeh和M.斯马迪沙特国王大学学报2534ø提高模型性能。PLL的直观性很简单;首先,使用标记数据训练模型,然后使用已经训练好的模型预测未标记数据上的标签。因此,我们生成了伪标签(未标记数据的目标类)。最后,通过组合原始标记数据和生成的伪标记数据来创建一个新的数据集,然后可以使用该数据集来训练所提出的模型。所提供的阿拉伯语数据集有1400行.在训练深度神经网络时,它相对较小。然而,在使用PLL之后,数据集变为大约2800行。伪标记学习表示如图所示。1.一、4. 拟议系统在我们提出的系统中,实现了一种RNN、CNN和传统机器学习。我们 开 发 了 几 种 创 新 方 法 ; ( a ) 具 有 CNN 的 双 向 门 控 递 归 单 元( BiGRU_CNN ) , ( b ) 常 规 神 经 网 络 ( CNN ) , 以 及 ( c )XGBoost回归器(XGB)。实施BiGRU_CNN、CNN和XGB的集成以处理情绪强度(EI- reg)任务。各种特征被用来解决情绪强度任务。TF-IDF,词级嵌入,和词典功能。下面讨论每一种方法。4.1. 双向(BiGRU_CNN)模型递归神经网络(Recurrent Neural Network,RNN)在自然语言处理领域有着广泛的应用它可以学习上下文信息词。RNN遇到梯度消失问题。长短期记忆(LSTM)(Hochreiter和Schmidhuber,1997)被提出作为梯度消失问题的解决方案。门控循环单元(GRU)(Chung等人,2014年)。Cho等人(2014)也被提出来解决梯度消失问题,这是香草递归隐藏单元的常见变体,并且基于具有不同结构的LSTM的相同策略构建。LSTM包含三个门(输入、输出和遗忘门).相比之下,GRU包含两个门(重置和更新门)。使用GRU而不是LSTM有几个常见的原因;首先,GRU可以提供与结构不太复杂的LSTM相同的性能。其次,GRU采用门控单元来修改信息流,以在不使用存储单元的情况下检测隐藏内容。最后,与LSTM相比,GRU具有更好的性能,并且当大小训练数据相对较小。在我们的例子中,GRU在速度和皮尔逊相关性方面提供了比LSTM模型更好的性能。 GRU计算线性插值,先前激活ht-1和其候选激活h~t在每一步时间激活。GRU的数学公式可以表示为:ht¼1-ztht-1zth~t 4哪里Fig. 1. 伪标记学习架构。两个Conv1D层。每一层的输入是字W 1、W 2、W 3、. . ,Wn,n:单词的数量。输入通过一个嵌入层,因此可以将每个单词表示为一个真实的向量值。嵌入层由预训练模型Twt-SG初始化。我们使用256个神经元用于第一个GRU,128个神经元用于第二个。这两个层都包括0.1的经常性丢弃,然后是0.01的高斯噪声。然后,我们将输出馈送到两个Conv1D层,这两个层具有相同的内核大小和不同的过滤器,128分配给第一个层,64分配给第二个层。使用的步幅是(1,1),其中步幅表示输入矩阵上的像素移位的数量。例如,当步幅为1时,每次将过滤器移动到1个像素。使用了valid padding,这意味着当过滤器不适合时删除文本片段(仅保留文本的有效部分)。我们将其中一个Conv1D传递给Global Average Pooling 1D,另一个传递给Global Max Pooling 1D。使用全局池化的目的是减少特征的数量,这将在不使用许多冗余参数的情况下改善结果(Zhang等人,2018年)。然后,将两层连接起来,产生一个新的维数为128的向量来表示推文,然后是两个密集的256,150个神经元层。有关Conv1D的更多详细信息,请参阅(Kim,2014)。最后,将所有双向层和Conv1D的输出与词典特征向量输入连接,并馈送到两个具有256,50个神经元的密集层。然后将输出馈送到单个S形神经元,该神经元可以获得给定鸣叫(情感)的强度。4.1.1. 培训所提出的方法使用均方误差进行训练通过设置如下几个参数进行优化-h~¼tanhWxrUhÞþbÞð5Þ低; Adam优化,学习率为0.001,批量大小为T T T Th t-1h64,均方误差被用作度量。辍学0.2是为了防止过度拟合。我们还使用了zt¼ rWz xtUz ht-1bh6rt¼ rWr xtUr ht-1 bh7其中zt等式(6)表示更新门,(7)表示复位门,并且h~t等式(5)表示当前存储器内容。权重矩阵表示为Wh;Wz;Wr;Uh Uz;Ur;bh;xt表示输入到时间步长t的向量;ht等式(4)表示最终的当前暴露的隐藏状态,并且表示逐元素乘法。图2所示的双向模型架构由两个双向层组成,其中GRU单元后面是停止方法与5耐心和模型检查点。词汇和嵌入特征被用来评估所提出的方法。4.2. 卷积神经网络CNN(ConvNets)在深度学习中,卷积神经网络(ConvNets- CNN)由于其在计算机视觉和语音识别领域的成功而受到欢迎。以下部分解释了我们提出的ConvNets架构。表3提供了有关用于CNN模型的参数的更多细节。O. Al-Zoubi,Saja Khaled Tawalbeh和M.斯马迪沙特国王大学学报2535ω图二. 双向GRU_CNN模型的架构。表3卷积神经网络参数名称描述padding:valid not zero-padded,当过滤器不适合时删除文本片段(只保留文本的有效部分),生成的Conv的尺寸将小于原始文本的尺寸。内核初始化器:对内核权重矩阵执行的方法,用于在训练内核大小标识Conv层窗口的大小。 filters表示在Conv层步幅表示在输入矩阵池大小表示池化窗口的大小。4.2.1. 架构所 提 出 的 ConvNet 架 构 受 到 Inception-Net ( Szegedy 等 人 ,2016)与CNN模型由Yoon Kim(Kim,2014)。在文本分类任务中,卷积层显著增强了DNN的性能 CNN应用于各种领域,例如医疗保 健 ( Khamparia 等 人 , 2020a ) 和 对 作 物 病 害 进 行 分 类(Khamparia等人,2020 b; Waheed等人, 2020年)。原因是conv层能够获得在序列词窗口(嵌入)上表达的语言模式。它由多个通道Conv 2D组成;我们将输入的tweet作为一个单词序列通过每个通道的嵌入层。每个通道共享来自Aravec(Twt-SG)的相同然后我们使用Reshape层来解决我们的问题。输出嵌入矩阵n d,其中d是向量维数,输出矩阵传递给三个Conv2D。每个单独的Conv2D共享相同数量的滤波器215并且具有不同的内核(2,3,4)以提取包括各种上下文长度的局部信息特征。然后,我们将每个输出传递给最大池化层(MaxPool2D),并获得512的维度。在最后一步中,我们将这些向量连接在一起,生成一个512 * 3的向量来表示输入
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功